Te
Posted:
June 14, 2026
Location:
Guangzhou, Guangdong Province, China
Job Description
企业微信-大模型训练框架开发工程师-AI Infra(成都/北京) 广州 分享 在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。 岗位职责 1.负责大模型训练/推理场景下的性能分析与优化,重点优化 NVIDIA GPU 及 国产芯片 的计算、显存、通信和调度瓶颈;
2.负责 CUDA / Triton / C++ 高性能算子开发与优化,包括 GEMM、Attention、MoE、KV Cache、通信融合等方向;
3.负责多卡、多机训练/推理性能调优,优化 NCCL、NVLink、NVSwitch、InfiniBand/RDMA 等通信链路;
4.负责基于 NVIDIA GPU 和 国产芯加速卡 的性能调优,提升 GPU 利用率、吞吐、延迟和显存效率;
5.负责 PyTorch、TensorRT-LLM、vLLM、SGLang、Megatron-LM 等框架下的大模型性能优化落地;
6.结合 Nsight Systems、Nsight Compute、CUDA Profiler 等工具进行性能分析,定位并解决性能瓶颈。 岗位要求 1.熟悉 C/C++、CUDA 或 Triton 编程,有 GPU 算子开发或性能优化经验;
2.熟悉 NVIDIA GPU 架构,理解 SM、Warp、Tensor Core、Shared Memory、Memory Coalescing、Occupancy 等概念;
3.熟悉大模型训练或推理流程,了解 Attention、GEMM、MoE、KV Cache、并行策略等核心模块;
4.熟悉分布式训练/推理优化,理解 TP、PP...
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 WXG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月12日2.负责 CUDA / Triton / C++ 高性能算子开发与优化,包括 GEMM、Attention、MoE、KV Cache、通信融合等方向;
3.负责多卡、多机训练/推理性能调优,优化 NCCL、NVLink、NVSwitch、InfiniBand/RDMA 等通信链路;
4.负责基于 NVIDIA GPU 和 国产芯加速卡 的性能调优,提升 GPU 利用率、吞吐、延迟和显存效率;
5.负责 PyTorch、TensorRT-LLM、vLLM、SGLang、Megatron-LM 等框架下的大模型性能优化落地;
6.结合 Nsight Systems、Nsight Compute、CUDA Profiler 等工具进行性能分析,定位并解决性能瓶颈。
2.熟悉 NVIDIA GPU 架构,理解 SM、Warp、Tensor Core、Shared Memory、Memory Coalescing、Occupancy 等概念;
3.熟悉大模型训练或推理流程,了解 Attention、GEMM、MoE、KV Cache、并行策略等核心模块;
4.熟悉分布式训练/推理优化,理解 TP、PP...
Apply for this Job
Submit your application for the 企业微信-大模型训练框架开发工程师-AI Infra(成都/北京) position at Tencent.
Apply Now Save for LaterJob Overview
Job Type:
Full-time
Location:
Guangzhou, China
Posted:
June 14, 2026
Deadline:
July 24, 2026