
在过去的 2023 年上海车展中,我们看到了整个智能电动车的市场发生了一个翻天覆地的变化。
这像是一场酝酿了三年的情绪,在一刻间爆发。
无论是产品、技术以及供应商代表,都在全力以赴。
一、智能驾驶的技术路线 殊途同归?
1、算法的趋同化
好像有那么一瞬间,各家好像都同步宣布了进入了城市领航辅助驾驶、并且宣布走了重感知、轻地图的技术路线,并且都在发布 BEV+transformer 以及 occupancy 的新算法。
大家虽然各自在不同的起点,现在大家都在往一个核心聚集地对齐,大家都越过了百花齐放的阶段,开始朝着一个目的地狂奔而去。
蔚来汽车自动驾驶产品体验负责人黄鑫做了一个很好的比喻,智能驾驶中相当于一个漏斗,表面是一个平面,当漏斗从沙堆中拔出的时候,其实大家都汇聚成一个点,技术都殊途同归。
前者小鹏发布了“扶摇”架构,也意味着小鹏架构从底层电子电气架构再到上层算法都完成了一次面向了平台化能力的打通。
而在这之前的 1024 ,小鹏在国内率先公布了重感知、轻地图的 BEV 算法,也就是通过感知来还原道路结构,并且发布了 XNet 感知架构。
在这届车展后理想发布了 AD Max 3.0, 同样也是基于静态 BEV + 动态 BEV 的技术结构,并且在这基础上引入了 Occupancy 占用网络算法, 城市 NOA 将会在二季度内发布,并且将会覆盖 100 座城市。

华为发布会上也发布了 ADS 2.0 版本,基于静态 BEV + 动态 BEV 网络+ Occupancy 占用网络(GOD 网络),也宣布了将会在四季度开通 45 座城市。

随后飞凡、智己也都提出了静态 BEV + 动态 BEV 网络+ Occupancy 占用网络的技术策略,其中智己还提到将在年内公测城区 NOA 功能以及替代高精地图的 D.L.P 模型。


蔚来虽然在本届车展透露的内容比较少,但李斌也提到蔚来目前的目标是希望 6 月底之前在上海区域开始释放城区 NAD。

2、BEV + Transformer 被「神话」了吗?
技术路径上为什么会殊途同归呢?BEV + Transformer 的感知网络又神奇在哪里?
BEV + Transformer 实际上解决了智能驾驶的感知能力以及大模型解析能力,能够通过感知信息将其转到 BEV 坐标系下,并使用连续帧编码能够获取更丰富的特征信息。
但实际上 BEV + Transformer 更核心的是背后的组合模型体量,体量更大的模型就需要更多数据训练,这对每个车企所需要的建立数据体系、训练能力要求更大。
从结果看 BEV + Transformer 能够把不同视角的传感器的数据做融合,解决真实环境的静态、动态目标物,比如静态车道线、道路边界,而动态目标输出包括车辆、行人等目标的位置、姿态、速度以及预测等。
比如 BEV 的静态信息可以用来还原道路结构,以达到我们提到的构建“地图”的能力。
而动态则更容易理解,包括我们道路中常见的车辆、行人等动态目标物信息,比如这个目标物离我们多远、速度多快。
当然在场景中 BEV 还要发挥“猜”的能力。比如我们常被遮挡,这时候系统需要去“猜”目标接下来的轨迹,甚至“推理”出它真实的样子。

而这几个能力实际也从侧面“催生”了重感知、轻地图的技术落地。
3、技术上也在求同存异
实际上面的几家代表技术路线,虽然大家核心技术没有太大差异,但现阶段大家就像拿到了同一个工具,但怎么使用、怎么用更好大家的思路还略有不同。
小鹏、理想更侧重的是用「纯视觉」覆盖端到端的感知大模型。
而它们的导向更倾向于用“视觉”能力解决更通用性的难题,另一个策略当然也是为了让整个智能驾驶的成本能够实现进一步下探。
华为 ADS 更侧重在多传感器融合,比如毫米波、激光雷达等的使用上更前置、更深入。
对于激光雷达融合的能力需求更高,所以华为在 ADS 2.0 上更侧重解决非通用类障碍物,当然华为也把过去三个激光雷达降本为一颗主雷达。

飞凡的技术路径也略有不同,在基础能力上飞凡投入更大是融合 4D 毫米波雷达。
飞凡把 4D 毫米波等传感器也做了前融合,来弥补视觉传感器在特殊情况的短板。

智己由于和 Momenta 的合作,自然而然也继承了 Momenta 原生非常强的视觉算法以及建图能力上。
在应用大模型上 Momenta 步伐迈得更大,比如 Momenta 提出的下一个阶段将完全切换 Occupancy 占用网络,认为 BEV + transformer 只是过渡算法,并且在地图能力上,由于 Momenta 相比更多公司更早介入,在这方面又有很多技术积累。
那轻地图是否意味着去地图呢?
在短时间内,大家对高精地图的依赖还会存在,现阶段重感知、轻地图的算法可以理解为在具备高精地图的城市以外,在没有高精地图的城市中的一种体验延伸,以满足更多用户的需求。
但轻地图的侧重点在于“轻”,也就是新技术结构下系统不需要再依赖精度非常高的地图信息,更重要的是拓扑信息,
在拓扑信息下,系统在开车时更像是带了一个“导航”,拓扑信息会提醒系统“前方两百米右转”、“前方路口走最左侧道路”等具体信息,而系统融合感知、规控完成每次路径规划,在地图变“轻”的同时,从某种程度上让体验和具备高精地图信息的体验没有太大区别。
当然在可预见的未来上,当建图也成为一个可被数据所“训练”的“模型”存在时,基于无图的能力也会到来。
二、激光雷达依旧受宠?
相比高精地图,激光雷达的演进似乎没有大家想象中的那么快“失宠”,并且在这届车展中火力全开。
最大的赢家还是速腾,国内的激光雷达的厂商也完全领先于其他海外厂商拿下更多份额。
速腾分别拿下了小鹏、奇瑞、广汽埃安、智己、飞凡、魏牌、问界、比亚迪等主流车型,禾赛则拿下了理想 L 系列、高合、集度等车型。

从布局方式看目前主流的布局方式有头顶主雷达以及底部两侧为主,而类似华为 ADS 1.0 的车前侧、两侧三颗激光雷达的布局逐步被主雷达方案取代,但部分高端车型还是会坚持头顶加两侧激光雷达的技术方案。
在和国内工程师交流过程中,我们也发现更多主机厂实际会更偏向于性能稳定、可靠性、低成本的激光雷达厂商,抢激光雷达“首发”或者高性能的概念有所下降,国内核心的激光雷达厂商相比海外等品牌会更具竞争力。
比如华为切换 ADS 2.0 后,也将比较重金的三颗激光雷达方案更改为一颗主雷达。飞凡 F7 在新车型上也用速腾 M 系列替换了 Luminar 的产品。
在回归理性的同时,实际上也从侧面看出主机厂也从研发层面上开始考虑系统的降本效应,如何在过去高端车型上的竞争优势逐步下放到中低端车型。
最后和大家聊一个更深入的话题,也就是激光雷达的作用。
在目前炒的非常火热的传感器中,无非摄像头、激光雷达、4D 毫米波三种。这三者其实从产品特性看并不是一种互斥关系,反而能够在不同场景实现优势互补。
摄像头已经从 800 万卷到今明年的 1400 万,摄像头的感知信息也最为丰富,融合 BEV、占用网络算法天花板能力被不断拉高。
而激光雷达天生是以发射激光的探测方式,所以本身就能轻易获得精度非常高的三维空间信息,并且不受黑夜、白天逛的影响,它的直接感知效果可以获得目标物的大小形状、边界,包括很多未训练的目标。
而毫米波技术也在演进,4D 毫米波在基础毫米波上提高了更高的分辨率,在精度、穿透能力、测速等能力上依旧有非常强的作用。
但从开发成本以及研发效益看,不同主机厂所选择的路径确实不为相同,从硬件看,大家的思路其实和上面和大家聊到的算法一致,工具都是类似,有些厨师更习惯用一把刀做各式各样的工作、有些习惯不同食材用不同刀具、有些厨师更习惯两到三种刀具,但无论如何使用都不会影响到实际食材所呈现的效果。
激光雷达上车后,它所带来的收益是什么?结合我们最近一段时间的体验,也和大家做进一步的分享。
第一是安全边界的拓宽,这个能力体现在很多城市中的极限场景。
在我们体验的车型中,我们发现激光雷达对于安全边界有明显的拓宽能力。
例如我们在城市场景中遇到的近距离横切车辆、容易漏检的弱势交通参与者的识别能力有明显的提高。
视频上传成功
另外是对道路边界、可通行空间的判断能力提高。
在这过程中我们也看到面对城市更多脱困场景,系统对可通行空间判断的能力需求更高,特别是城市中的绕行、识别施工场景等。
视频上传成功
最后是大家比较关注的融合 BEV 算法。
目前基于视觉的 BEV 技术通过结合 Transformer 将 2D 图像转换为 3D,而激光雷达本身输出的也是三维点云,其实这会让视觉和激光雷达点云能做更好的融合,特别是接下来大家火热的 accupancy 占用网络算法,让其与其他传感器前融合变得更为容易,能进一步提高降低对高精地图的依赖。
视频上传成功
从 2023 上海车展我们可以看到,展内大家关注的不仅是产品本身,包括地平线、黑芝麻、图达通、亿咖通等供应商也开始选择入驻车展, 这也从侧面看到大家对于智能体系的关注已经从产品到功能再不断向下延展。
而回到核心技术上,算法方式的趋同、硬件供应商逐步降本,让整个系统研发会趋于稳定,而接下来大家核心竞争的焦点会集中在效率、成本以及最为关键的用户体验上。