高性能计算工程师

Tencent

Full-time Shenzhen, Guangdong Province Other-General

Posted:

June 09, 2026

Location:

Shenzhen, Guangdong Province, China

Job Description

                    高性能计算工程师 深圳 分享 
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
 收藏 CSIG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月08日 在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。
 岗位职责 1.超大规模LLM性能工程： 主导并规划千亿参数级大模型的极致性能优化技术路线。负责 PagedAttention、连续批处理等核心调度策略的深度定制与生产级架构设计，负责 vLLM/TensorRT-LLM 等主流推理框架的内核级优化与落地；
2.低比特与稀疏模型优化： 牵头 INT4/FP8/AWQ 等前沿低比特量化技术的工业级系统化落地，平衡精度与计算效率。并设计面向 MoE 模型的分布式调度、路由、显存管理及跨卡通信的优化方案；
3.统一与多模态架构： 定义并设计一套具备长期扩展性的统一 AI 推理引擎架构，以支撑自回归生成任务，并前瞻性地解决多模态大模型（如视觉-语言模型）的协同推理部署挑战；
4.异构算力与国产化适配： 主导推理引擎在国产AI芯片（如昇腾、海光、天数等）平台上的战略级移植、生态适配与性能优化。对 HCCL/NCCL 等通信原语进行深度优化和定制，实现跨异构架构的算力自主可控；
5.核心算子优化与指令架构创新 (Enhanced Focus):深度介入 GPU/NPU 硬件底层，主导设计和实现LLM特有高性能算子。 重点包括：高性能Attention Kernel、矩阵乘法（GEMM）的深度定制与融合、KV Cache读写优化等关键算子；
6.具备深入理解和利用硬件指令集架构（ISA）和微架构（Microarchitecture）的能力， 通过 CUDA/Triton 或国产芯片底层编程语言，进行SIMD/SIMT指令优化、指令级并行（ILP）及寄存器重用等，将LLM推理性...
                

Apply for this Job

Submit your application for the 高性能计算工程师 position at Tencent.

Apply Now Save for Later

Job Overview

Job Type: Full-time

Location: Shenzhen, China

Posted: June 09, 2026

Deadline: July 19, 2026