Di
Posted:
June 14, 2026
Location:
Beijing, Beijing, China
Job Description
职位描述
负责自动驾驶大模型的压缩方案设计与落地,包括量化(INT4/INT8/FP8)、剪枝、蒸馏、稀疏化等技术,确保压缩后模型精度损失可控、性能提升达标。
跟进大模型压缩推理领域前沿技术(如动态量化、混合专家系统推理优化),将技术转化为实际工程方案,解决业务场景中的性能瓶颈。
负责推理性能优化,针对不同硬件(GPU/CPU/NPU)适配推理框架(TensorRT/ONNX Runtime/Triton),优化算子、内存占用、并行策略,降低模型推理,提升推理吞吐。
与算法、工程团队协作,推动压缩优化后的模型在实际业务中落地,提供技术支持与问题排查。
任职要求
掌握Python/C++编程,具备扎实的算法与数据结构基础。
精通深度学习原理,熟悉常见模型结构:如Transformer、Resnet等,了解大模型(如LLaMA、QWEN、GPT系列)的结构特点;
熟练掌握至少2种模型压缩技术(如量化、 剪枝、 蒸馏),并了解模型压缩后的评估机制,有实际落地案例优先。
熟悉至少1种推理框架(TensorRT优先),能独立完成模型ONNX转换、算子融合、内存优化;有GPU(NVIDIA H系列/Thor系列)或NPU(昇腾)硬件适配经验者优先。
具备端到端模型部署经验,能排查推理过程中的性能瓶颈(如显存溢出、算子耗时过高)。
加分项:
能从模型算法压缩、结果评估,走通推理全流程;
Apply for this Job
Submit your application for the 大模型压缩推理优化工程师 (J251013009) position at DiDi.
Apply Now Save for LaterJob Overview
Job Type:
Full-time
Location:
Beijing, China
Posted:
June 14, 2026
Deadline:
July 24, 2026