Posted:
June 11, 2026
Location:
Beijing, Beijing, China

Job Description

微信 -WeLM 大模型推理优化工程师(深圳、上海) 北京 分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月14日 岗位职责
  • 1. 模型推理服务优化: * 负责大语言模型(LLM)推理性能的优化,包括延迟降低、吞吐量提升和资源效率优化 * 开发和应用模型压缩技术(包括但不限于量化、稀疏化等) * 优化推理框架,支持多种硬件平台(GPU、专用AI芯片) * 设计并实现高效、稳定、可扩展的推理服务架构
    2. 性能分析与调优: * 建立性能基准测试框架,持续监控和评估推理性能 * 分析性能瓶颈,提出并实施优化方案 * 针对不同应用场景(实时对话、批量处理等)定制优化策略
    3. 技术创新与落地: * 跟踪最新研究成果,将前沿优化技术应用到生产环境 * 与算法团队合作,参与模型架构的推理友好设计 * 编写高质量的技术文档和最佳实践指南
  • 岗位要求
  • 1.必备条件:;
    2.计算机、软件工程、人工智能等相关专业本科及以上学历;
    3.扎实的 C++/Python 基础;
    4.熟悉 PyTorch 或 JAX 等深度学习框架,了解模型训练与推理流程;
    5.有 CUDA 编程或 GPU 性能调优经验,能使用 Nsight 等工具做 profiling;
    6.了解常见 LLM 架构(如 Transformer、Attention、KV Cache)及推理优化思路;
    7.具备良好的沟通与文档能力,能独立负责模块设计与实现。
  • 加分项
  • 1.有SGlang、vLLM、TensorRT-LLM 等推理框架二次开发优化经验;
    2.熟悉 AWQ/GPTQ/Speculative Decoding/Sparse Attention等推理优化方案,并有实际落地案例;
    3.有大规模分布式推理、多机多卡部署与调度经验;
    4.熟悉 Triton、cuBLAS、CUTLASS 等 GPU 编程与算子优化;
    5.在 LLM 推理、编译器(如 TVM、XLA...
  • Apply for this Job

    Submit your application for the 微信 -WeLM 大模型推理优化工程师(深圳、上海) position at Tencent.

    Apply Now Save for Later

    Job Overview

    Job Type: Full-time
    Location: Beijing, China
    Posted: June 11, 2026
    Deadline: July 21, 2026