Te
Posted:
May 30, 2026
Location:
Beijing, Beijing, China
Job Description
AI智能体/大模型评测高级工程师 北京 分享 在腾讯,优秀的技术质量管理,保证腾讯每一个的产品与服务能更加稳定、顺畅、安心地被用户使用和体验。与技艺高超的同事们一同深化对架构设计、数据和产品的理解,在美好向善的世界里,成为一块闪耀的基石。 岗位职责 1.负责腾讯自研龙虾WorkBuddy/腾讯AI IDE CodeBuddy产品质量保障及AI评测工作,推动产品质量体系,生成效果提升;
2.负责大语言模型(LLM)及Agent系统的评测体系设计与持续演进,覆盖模型能力评测、Agent任务评测、端到端产品功能评测等,构建Benchmark;
3.跟踪业界评测基准动态(如 SWE-bench、HumanEval、MMLU、AgentBench 等),结合业务场景进行适配与创新;
4.从无到有参与产品AI评测算法、评测标准和评测流程制定,构建评测集、评测执行器,推进评测刚才体系建设。 岗位要求 1.本科及以上学历,计算机科学、软件工程、人工智能或相关专业;
2.熟练掌握 Python,具备脚本开发与数据处理能力;熟悉业界主流LLM评测基准与方法论(HumanEval、SWE-bench、MMLU、GSM8K等);
3.了解大语言模型的基本原理(Transformer架构、预训练、微调、RLHF、推理优化等)。有主流深度学习框架(PyTorch / TensorFlow / JAX)的实践经验者优先;
4.具备Agen开发或测试经验,了解ReAct、Function Calling、Tool Use、Planning等核心概念;
5.有评测平台或自动化测试框架的开发经验者优先;具备数据分析能力,能从评测数据中提炼有价值的洞察。
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年06月03日2.负责大语言模型(LLM)及Agent系统的评测体系设计与持续演进,覆盖模型能力评测、Agent任务评测、端到端产品功能评测等,构建Benchmark;
3.跟踪业界评测基准动态(如 SWE-bench、HumanEval、MMLU、AgentBench 等),结合业务场景进行适配与创新;
4.从无到有参与产品AI评测算法、评测标准和评测流程制定,构建评测集、评测执行器,推进评测刚才体系建设。
2.熟练掌握 Python,具备脚本开发与数据处理能力;熟悉业界主流LLM评测基准与方法论(HumanEval、SWE-bench、MMLU、GSM8K等);
3.了解大语言模型的基本原理(Transformer架构、预训练、微调、RLHF、推理优化等)。有主流深度学习框架(PyTorch / TensorFlow / JAX)的实践经验者优先;
4.具备Agen开发或测试经验,了解ReAct、Function Calling、Tool Use、Planning等核心概念;
5.有评测平台或自动化测试框架的开发经验者优先;具备数据分析能力,能从评测数据中提炼有价值的洞察。
Apply for this Job
Submit your application for the AI智能体/大模型评测高级工程师 position at Tencent.
Apply Now Save for LaterJob Overview
Job Type:
Full-time
Location:
Beijing, China
Posted:
May 30, 2026
Deadline:
July 09, 2026