大模型压缩推理优化工程师 (J251013009)

DiDi

Full-time Beijing, Beijing Other-General

Posted:

June 14, 2026

Location:

Beijing, Beijing, China

Job Description

                    职位描述负责自动驾驶大模型的压缩方案设计与落地，包括量化（INT4/INT8/FP8）、剪枝、蒸馏、稀疏化等技术，确保压缩后模型精度损失可控、性能提升达标。
跟进大模型压缩推理领域前沿技术（如动态量化、混合专家系统推理优化），将技术转化为实际工程方案，解决业务场景中的性能瓶颈。
负责推理性能优化，针对不同硬件（GPU/CPU/NPU）适配推理框架（TensorRT/ONNX Runtime/Triton），优化算子、内存占用、并行策略，降低模型推理，提升推理吞吐。
与算法、工程团队协作，推动压缩优化后的模型在实际业务中落地，提供技术支持与问题排查。
任职要求
掌握Python/C++编程，具备扎实的算法与数据结构基础。
精通深度学习原理，熟悉常见模型结构：如Transformer、Resnet等，了解大模型（如LLaMA、QWEN、GPT系列）的结构特点；
熟练掌握至少2种模型压缩技术（如量化、 剪枝、 蒸馏），并了解模型压缩后的评估机制，有实际落地案例优先。
熟悉至少1种推理框架（TensorRT优先），能独立完成模型ONNX转换、算子融合、内存优化；有GPU（NVIDIA H系列/Thor系列）或NPU（昇腾）硬件适配经验者优先。
具备端到端模型部署经验，能排查推理过程中的性能瓶颈（如显存溢出、算子耗时过高）。
加分项： 
能从模型算法压缩、结果评估，走通推理全流程； 

Apply for this Job

Submit your application for the 大模型压缩推理优化工程师 (J251013009) position at DiDi.

Apply Now Save for Later

Job Overview

Job Type: Full-time

Location: Beijing, China

Posted: June 14, 2026

Deadline: July 24, 2026