Te
Posted:
June 11, 2026
Location:
Beijing, Beijing, China
Job Description
微信 -WeLM 大模型推理优化工程师(深圳、上海) 北京 分享 1. 模型推理服务优化: * 负责大语言模型(LLM)推理性能的优化,包括延迟降低、吞吐量提升和资源效率优化 * 开发和应用模型压缩技术(包括但不限于量化、稀疏化等) * 优化推理框架,支持多种硬件平台(GPU、专用AI芯片) * 设计并实现高效、稳定、可扩展的推理服务架构
2. 性能分析与调优: * 建立性能基准测试框架,持续监控和评估推理性能 * 分析性能瓶颈,提出并实施优化方案 * 针对不同应用场景(实时对话、批量处理等)定制优化策略
3. 技术创新与落地: * 跟踪最新研究成果,将前沿优化技术应用到生产环境 * 与算法团队合作,参与模型架构的推理友好设计 * 编写高质量的技术文档和最佳实践指南
岗位要求 1.必备条件:;
2.计算机、软件工程、人工智能等相关专业本科及以上学历;
3.扎实的 C++/Python 基础;
4.熟悉 PyTorch 或 JAX 等深度学习框架,了解模型训练与推理流程;
5.有 CUDA 编程或 GPU 性能调优经验,能使用 Nsight 等工具做 profiling;
6.了解常见 LLM 架构(如 Transformer、Attention、KV Cache)及推理优化思路;
7.具备良好的沟通与文档能力,能独立负责模块设计与实现。 加分项 1.有SGlang、vLLM、TensorRT-LLM 等推理框架二次开发优化经验;
2.熟悉 AWQ/GPTQ/Speculative Decoding/Sparse Attention等推理优化方案,并有实际落地案例;
3.有大规模分布式推理、多机多卡部署与调度经验;
4.熟悉 Triton、cuBLAS、CUTLASS 等 GPU 编程与算子优化;
5.在 LLM 推理、编译器(如 TVM、XLA...
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月14日 岗位职责2. 性能分析与调优: * 建立性能基准测试框架,持续监控和评估推理性能 * 分析性能瓶颈,提出并实施优化方案 * 针对不同应用场景(实时对话、批量处理等)定制优化策略
3. 技术创新与落地: * 跟踪最新研究成果,将前沿优化技术应用到生产环境 * 与算法团队合作,参与模型架构的推理友好设计 * 编写高质量的技术文档和最佳实践指南
2.计算机、软件工程、人工智能等相关专业本科及以上学历;
3.扎实的 C++/Python 基础;
4.熟悉 PyTorch 或 JAX 等深度学习框架,了解模型训练与推理流程;
5.有 CUDA 编程或 GPU 性能调优经验,能使用 Nsight 等工具做 profiling;
6.了解常见 LLM 架构(如 Transformer、Attention、KV Cache)及推理优化思路;
7.具备良好的沟通与文档能力,能独立负责模块设计与实现。
2.熟悉 AWQ/GPTQ/Speculative Decoding/Sparse Attention等推理优化方案,并有实际落地案例;
3.有大规模分布式推理、多机多卡部署与调度经验;
4.熟悉 Triton、cuBLAS、CUTLASS 等 GPU 编程与算子优化;
5.在 LLM 推理、编译器(如 TVM、XLA...
Apply for this Job
Submit your application for the 微信 -WeLM 大模型推理优化工程师(深圳、上海) position at Tencent.
Apply Now Save for LaterJob Overview
Job Type:
Full-time
Location:
Beijing, China
Posted:
June 11, 2026
Deadline:
July 21, 2026