多模态大模型/VLA模型研究员 (J231215004)

DiDi
Full-time Guangzhou, Guangdong Other-General
Posted:
June 16, 2026
Location:
Guangzhou, Guangdong, China

Job Description

职位描述

团队介绍

滴滴自动驾驶AI research 团队致力于自动驾驶领域以及机器人领域前沿算法的研究和实际落地,团队成员均毕业于国内外顶尖高校,并在人工智能领域发表了多篇高水平论文 。团队的核心目标是从传统的模块化、规则驱动的系统,迈向以大模型(Foundation Models)为核心,数据驱动、端到端学习的全新架构,来打造通用的行为智能体,应用于自动驾驶,机器人等领域。团队目前的研究内容和探索方向包括但不局限于基于多模态大模型的模仿学习、强化学习、离线强化学习以及决策规划、Agent行为预测等。

主要方向与职责:

你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责:

(1)前沿研究与探索:紧密跟踪并深入研究多模态大模型、生成式模型的最新进展。并探索和验证将这些前沿技术应用于自动驾驶和机器人领域的可能性。

(2)VLA模型设计与训练:主导或参与设计面向自动驾驶场景或者机器人的VLA大模型,通过将模仿学习和强化学习范式与大模型相结合,使其能够理解周边的三维场景以及人类指令,并输出安全、拟人化的行为决策。

(3)世界模型与闭环仿真:研究和构建能够进行时空预测的“世界模型”作为仿真器,将大模型智能体与仿真器深度结合,从而构建一个可以安全、高效地进行虚拟测试和迭代的闭环仿真环境。

(4)数据驱动与数据闭环:构建高效、可扩展的数据闭环系统。从海量真实数据中自动挖掘高价值的困难场景,长尾场景等,同时保证数据分布的多样性与均衡性。

任职要求

1.学历与基础:

a. 计算机科学、人工智能、机器人学或相关领域的硕士及以上学历,博士优先。

b. 具备良好的编程能力,精通 Python 及至常用深度学习框架,并对框架底层实现有一定了解。

2. 专业领域经验(至少精通以下一项):

a. 多模态大模型 / VLA模型: 拥有实际训练、微调或应用VLA模型以及多模态大模型框架的经验。理解多模态数据融合、对齐和协同的关键技术。

b. 生成式模型与世界模型: 熟悉并实践过基于Diffusion Models/自回归的时序生成模型,特别是在自动驾驶,机器人...

Apply for this Job

Submit your application for the 多模态大模型/VLA模型研究员 (J231215004) position at DiDi.

Apply Now Save for Later

Job Overview

Job Type: Full-time
Location: Guangzhou, China
Posted: June 16, 2026
Deadline: July 26, 2026