{{detailStore.author.is_follow?'已关注':'关注'}}
基于端到端+VLM 双系统架构 理想发布下一代自动驾驶架构 MindVLA
新出行原创 · 新闻

3 月 18 日,理想汽车发布下一代自动驾驶架构 MindVLA。VLA 是机器人大模型的新范式,其将赋予自动驾驶强大的 3D 空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶能够感知、思考和适应环境。

根据介绍,MindVLA 不是简单地将端到端模型和 VLM 模型结合在一起,所有模块都是全新设计。3D 空间编码器通过语言模型,和逻辑推理结合在一起后,给出合理的驾驶决策,并输出一组 Action Token(动作词元),Action Token 指的是对周围环境和自车驾驶行为的编码,并通过 Diffusion(扩散模型)进一步优化出最佳的驾驶轨迹,整个推理过程都要发生在车端,并且要做到实时运行。

理想从 0 开始设计和训练了适合 MindVLA 的 LLM 基座模型,采用 MoE 混合专家架构,引入 Sparse Attention(稀疏注意力),实现模型稀疏化,保证模型规模增长的同时,不降低端侧的推理效率。

基座模型训练过程中,理想加入大量 3D 数据,使模型具备 3D 空间理解和推理能力。为了进一步激发模型的空间智能,理想加入了未来帧的预测生成和稠密深度的预测等训练任务。

为了把 NVIDIA Drive AGX 的性能发挥到极致,MindVLA 采取小词表结合投机推理,以及创新性地应用并行解码技术,进一步提升了实时推理的速度。

MindVLA 利用 Diffusion 将 Action Token 解码成优化的轨迹,并通过自车行为生成和他车轨迹预测的联合建模,提升在复杂交通环境中的博弈能力。

同时 Diffusion 可以根据外部条件,例如风格指令,动态调整生成结果。为了解决 Diffusion 模型效率低的问题,MindVLA 采用 Ordinary Differential Equation(常微分方程)采样器,实现了 2-3 步就能完成高质量轨迹的生成。

MindVLA 基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境。

源于世界模型的技术积累与充足计算资源的支撑,MindVLA 实现了基于仿真环境的大规模闭环强化学习,即真正意义上的从“错误中学习”。

MindVLA 将为用户带来全新的产品形态和产品体验,有 MindVLA 赋能的汽车是听得懂、看得见、找得到的专职司机。

未来,理想汽车将继续在用户价值的驱动下,坚持技术创新,连接物理世界和数字世界,成为全球领先的人工智能企业。

写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • {{is_personal_top ? '取消主页置顶' : '个人主页置顶'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧