{{detailStore.author.is_follow?'已关注':'关注'}}
智能座舱进入“端到端”时刻...和大家聊聊座舱大模型| 今天到访商汤。 大多数人好奇,智驾端到端,那下半场座舱会带来什么? 高通下代芯片规划算力是 200+TOPS,能够支持 4-5 个 7B(亿)的参数模型,座舱的“端到端”时刻也马上到来。 未来座舱多模态大模型会变成多个应用智能体,智能体和智能体之间可以交流、推理,满足用户不同需求,和如今的智驾系统 1 + 系统 2 相同。 也是同样端到端,这时候最大的改变就是系统从过去的被动接受人类指令,变成更类人的主动交互、和人一样丝滑交流。 商汤多模态流式交互前段时间比较火,多模态就是集成了多种交互信息,比如声音、文本、图像和视频等等,实时交互,具有推理性。 这种交互模式有几个特点,比如多任务的适应性强,能够在一个模型中处理多种任务,并且根据不同上下文调整行为和输出,其次是具备记忆力。 跑在座舱上有几个好处,多模态那可以利用舱内的 DMS/OMS 摄像头,结合车内场景来调动舱内的状态场景理解能力更强,而且大模型的交流会更类人。 具备记忆力的优势是比如乐道的「小乐识人」,就是用了商汤的方案。可以基于人脸数据自动存储个性化数据,叫小乐后就会记住你的使用习惯、座椅位置等等。 现在商汤有两种座舱模型: 车端的座舱模型参数大概是 2.1B/8B ,8295 可以支持 2.1B ,8B 的参数得 Orin 才可以 。几十 B 甚至到 100B 以上就得上云端算力。 而我们现在车上大部分语言跑的都是单模态,只懂语音,模型也很小,小于 1B ,主要做车控识别。 而且过去语音都是有很多个小模型堆叠一起,然后翻译成文本再分类,但会常常识别不清晰,或者识别错了,要么识别不了。 未来多模态的大模型,就是可以通过舱内视频+语音+场景等方式结合,识别更加准确、也有更拟人化的识别,而且还有时序的记忆。 比如在车里掉了一顶帽子,语音会告诉你“你之前掉在了后排的座椅上。” 比如丢了手机,语音会说”昨天早上十点有个长发的女生把手机落在前排座椅了” 但不同模型体量带来的方向不同。 云端前期投入不高,但后期量产成本很高,多模态的语音、图片、视频等算力需求很大。 车端相反,前期投入高,比如要大算力芯片。但后期推理成本低。
最后编辑于 · 2024-09-25
  • 全部评论{{detailStore.commentnum}} 条
  • 只看作者
  • 最热
  • 最新
  • 最早

「待审核」

{{ comment.relativeTime }} 已被赞赏 {{comment.integral}} 积分 回复

暂无相关评论

发表一下个人看法吧
写评论
积分赞赏
点赞
评论区
  • 编辑
  • {{is_favourite ? '已收藏' : '收藏'}}
  • 举报
  • 加入黑名单
  • 删除
  • 取消置顶
  • 置顶推荐
    • 6小时
    • 12小时
    • 24小时
    • 3天
    • 一周
    • 长期
  • {{digest?'撤销精华':'设为精华'}}
回到顶部