微信 -WeLM 大模型推理优化工程师（深圳、上海）

Tencent

Full-time Beijing, Beijing Other-General

Posted:

June 11, 2026

Location:

Beijing, Beijing, China

Job Description

                    微信 -WeLM 大模型推理优化工程师（深圳、上海） 北京 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月14日 岗位职责 1. 模型推理服务优化： * 负责大语言模型（LLM）推理性能的优化，包括延迟降低、吞吐量提升和资源效率优化 * 开发和应用模型压缩技术（包括但不限于量化、稀疏化等） * 优化推理框架，支持多种硬件平台（GPU、专用AI芯片） * 设计并实现高效、稳定、可扩展的推理服务架构
2. 性能分析与调优： * 建立性能基准测试框架，持续监控和评估推理性能 * 分析性能瓶颈，提出并实施优化方案 * 针对不同应用场景（实时对话、批量处理等）定制优化策略
3. 技术创新与落地： * 跟踪最新研究成果，将前沿优化技术应用到生产环境 * 与算法团队合作，参与模型架构的推理友好设计 * 编写高质量的技术文档和最佳实践指南
 岗位要求 1.必备条件：；
2.计算机、软件工程、人工智能等相关专业本科及以上学历；
3.扎实的 C++/Python 基础；
4.熟悉 PyTorch 或 JAX 等深度学习框架，了解模型训练与推理流程；
5.有 CUDA 编程或 GPU 性能调优经验，能使用 Nsight 等工具做 profiling；
6.了解常见 LLM 架构（如 Transformer、Attention、KV Cache）及推理优化思路；
7.具备良好的沟通与文档能力，能独立负责模块设计与实现。
 加分项 1.有SGlang、vLLM、TensorRT-LLM 等推理框架二次开发优化经验；
2.熟悉 AWQ/GPTQ/Speculative Decoding/Sparse Attention等推理优化方案，并有实际落地案例；
3.有大规模分布式推理、多机多卡部署与调度经验；
4.熟悉 Triton、cuBLAS、CUTLASS 等 GPU 编程与算子优化；
5.在 LLM 推理、编译器（如 TVM、XLA...
                

Apply for this Job

Submit your application for the 微信 -WeLM 大模型推理优化工程师（深圳、上海） position at Tencent.

Apply Now Save for Later

Job Overview

Job Type: Full-time

Location: Beijing, China

Posted: June 11, 2026

Deadline: July 21, 2026