Te
Posted:
June 12, 2026
Location:
Beijing, Beijing, China
Job Description
微信-WeLM 大模型预训练框架研发工程师(深圳、上海) 北京 分享 1.负责构建和优化大规模预训练框架,支持文本、语音、图像等多模态数据的联合学习与高效训练;
2.深入优化长序列场景下的分布式训练与显存利用(如context parallel、2D/环形 Attention、混合并行、激活重计算等),在百万级 token 训练中提升吞吐与性价比;
3.负责后训练(Post-training)阶段框架建设,包括强化学习(RL/RLHF)、偏好建模(Reward Model)及人类反馈优化(Alignment)等流程;
4.深入优化分布式训练框架与推理效率,提升算力利用率与模型吞吐性能;
5.跟踪前沿研究趋势,探索高效预训练策略(如Mixture of Experts、Continual Pretraining等);
6.与算法、数据、平台团队协作,形成从数据处理到训练部署的全流程自动化解决方案。 岗位要求 1.计算机科学、人工智能、模式识别、计算语言学等相关专业硕士及以上学历;
2.精通一种或多种主流深度学习框架(PyTorch、JAX、TensorFlow),具备大规模分布式训练经验;
3.熟悉Transformer系列架构,理解其在语言、语音、视觉等方向的模型原理与实现;
4.了解 LLM 的训练流程,有 Megatron, DeepSpeed 等大规模训练框架使用经验者优先;
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先;
6.具备扎实的工程实现能力与代码规范意识,熟悉CUDA优化、参数并行、流水线并行等技术;
7.具备良好的团队协作与沟通能力,热爱探索与创新。 加分项 1.在 GitHub 等平台持续参与主流大模型 / 分布式训练 / RLHF 等项目的开发维护,有高质量 PR 被核心项目合并,或担任 maintainer / revie...
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 WXG 点击了解更多BG信息 技术 两年以上工作经验 更新于年05月13日 岗位职责2.深入优化长序列场景下的分布式训练与显存利用(如context parallel、2D/环形 Attention、混合并行、激活重计算等),在百万级 token 训练中提升吞吐与性价比;
3.负责后训练(Post-training)阶段框架建设,包括强化学习(RL/RLHF)、偏好建模(Reward Model)及人类反馈优化(Alignment)等流程;
4.深入优化分布式训练框架与推理效率,提升算力利用率与模型吞吐性能;
5.跟踪前沿研究趋势,探索高效预训练策略(如Mixture of Experts、Continual Pretraining等);
6.与算法、数据、平台团队协作,形成从数据处理到训练部署的全流程自动化解决方案。
2.精通一种或多种主流深度学习框架(PyTorch、JAX、TensorFlow),具备大规模分布式训练经验;
3.熟悉Transformer系列架构,理解其在语言、语音、视觉等方向的模型原理与实现;
4.了解 LLM 的训练流程,有 Megatron, DeepSpeed 等大规模训练框架使用经验者优先;
5.对RL/RLHF、偏好学习、奖励建模有实践经验者优先;
6.具备扎实的工程实现能力与代码规范意识,熟悉CUDA优化、参数并行、流水线并行等技术;
7.具备良好的团队协作与沟通能力,热爱探索与创新。
Apply for this Job
Submit your application for the 微信-WeLM 大模型预训练框架研发工程师(深圳、上海) position at Tencent.
Apply Now Save for LaterJob Overview
Job Type:
Full-time
Location:
Beijing, China
Posted:
June 12, 2026
Deadline:
July 22, 2026