- 全站推荐
- 全站置顶
- 撤销首页推荐
- 社区推荐
-
置顶推荐
- 6小时
- 12小时
- 24小时
- 3天
- 一周
- 长期
- 设为精华
- 热门推荐
- 撤销审核
- 进小黑屋
- 生成议题
AI Day 3 个小时的直播里,其中半个小时只有音乐没有画面。当然,这是特斯拉,这是马斯克,发布会迟到这种事情,我们也预料到了。
而后面的两个半小时,都是关于 FSD、Dojo 以及 Tesla Bot 机器人和深度 Q&A 的内容。
如果一定要问我其中记住了什么,我心里好像只有一个栩栩如生的画面。在 AI Day 直播开始后的 2 小时 53 分处,马斯克风骚地撩开夹克并回应记者的提问,说道:
If you wear a T-shirt with a stop sign, the car will stop.
他说的意思就是,如果你穿着下面这种指令停车的路牌的衣服,特斯拉也会识别成真实的路牌并且停车。
从这句话里,结合最近的某品牌的车祸和 AI Day 的演讲内容,我总结了两个含义。
现阶段所有市面上普通人能买来开上路的「自动驾驶」其实都是辅助驾驶。自己的命只能自己负责,这一点不能忘。
人脑强在语义信息的识别,而电脑强在精确且重复的计算和目标跟踪。
01
特斯拉的车机里,居然有个元宇宙?
想必大部分的朋友们已经知道,特斯拉现在采用的是纯视觉感知方案。只依靠 8 个 130 万像素摄像头的感知能力,确实提升到了一个新的境界。传统的感知算法是把这 8 个摄像头的里的每一帧图片中的相关物体逐个画上边框,来评估距离信息并依此输出规控结果。
但是目前全新的 FSD beta 采用了叫做「Vector Space(矢量空间)」的技术,相当于通过把 8 个视频流中缝合成一个整体,并生成一个统一的物理模型作为路线规划的基础。如果要我说人话,就是 特斯拉在车里做了一个可以模拟现实环境的沙盘 ,然后在这里面推演它的操作。
Vector Space 是 4D 的。所谓 4D 就是长宽高三个维度的立体信息加上时间。所以,这个沙盘是一个立体且有时间线的模型,远比传统的 2D 感知来的信息量和精度都高。
特斯拉 AI 总监 Andrej Karpathy 说:
We are developing a synthetic animal from the ground up.
其实这就是「自动化」和「智能化」的区别。FSD 想要做的就是脱离对特定画面因素有特定的反应的死模式,而是通过对整体空间和里面的物体的把握来做更符合「上下文」的判断。通过对时空的记忆,特斯拉 FSD 除了可以记住并预测被遮挡的行人,也可以更好地动态改变自己的绕行路线。
02
智能驾驶的三个目标
说实话,AI Day 的很多内容,对于我这种只想看最终结果的人来说,没太看懂。不过我发现他们对于自动驾驶的研发目标,其实也是体验驱动的。
按照第一性原理,车子的本质就是一个交通让人从 A 点到达 B 点的交通工具。而一个合格的搭载自动驾驶交通工具,还需要在确保能到达的基础上,优化效率、舒适性和安全性。
说人话就是, 特斯拉想让你的旅途又快又稳又放心 ,也就是「顺滑」。
本次 AI Day 的规控部分由毕业于自动驾驶名门院校——美国卡内基梅隆大学的特斯拉自动驾驶元老级人物,也是 AP 的软件负责人 Ashok Elluswamy 担任主讲。
03
顺滑的行车来自合理的规划
Elluswamy 说,路径规划的挑战有两个——非凸和高维度。
非凸就是下图中在右侧的函数,有多个局部极值,而不是像左边的凸函数那样只有一个极值。
这样的问题就适合用 Discrete Search (离散优化)而不是 Continuous Function Optimization 「连续优化」。前者类似带数字,而后者可以理解为用微分的方式找到极值。如果使用微分方程来解上图中右边的非凸函数,则有可能得出错误的答案。
高维度就意味着这个问题拥有许多参数,和非凸问题相反,它更适合连续优化。
其实每当遇到这些决策的时候,特斯拉可以在 1.5 毫秒内做出 2,500 次推演。相比人脑,这种场景对于电脑来说,其实都是静止的。
上图中,车辆需要在下一个路口左转前完成两次连续的向左变道。如果选择插入到相近的两台车之间,急促的刹车不可避免。但是如果为了避免车辆而加速到最前方,又会面临错过路口的风险。FSD 可以从图里的右侧的多个解答(每一根线都对应不同的动作指令)中选择加速度(和舒适性有关)较为稳定且路径(和效率有关)较短的结果来执行。
04
为别人考虑
我们都不喜欢起冲突,其实机器也是。因为冲突意味着至少有一方会受到伤害,两败俱伤也不是少数。效率上的损失大到交通事故,小到交通堵塞。其实都是都是因为有大大小小的冲突导致的。
上图中的道路是一个居民区的双向车道,但是由于过多的路边停车导致局部道路只有一辆车的宽度。如果你是一个喜欢侥幸的司机,你可能会希望对方的车避让你;如果你是一个保守的司机,你可能会在空旷的位置停下,让对方先行。但是无论如何,你都需要预判对方的动作来给自己的决策做参考。不然你停在那里死等对方,对方也停在那里死等你,对于双方都非常保守的自动驾驶系统来说,这样就会陷入死循环。
这个时候,特斯拉的 FSD 算法其实会跟人一样,根据车速,加速度以及角速度和角加速度等因素判断对向来车的路径(绿色代表避让轨迹,但是可能性更低)。根据这个结果,自车会采取冲突概率更低的避让的策略。
就在此时,没想到对向来车也怂了。面对这种情况,自车会迅速对新局势做出响应,果断地切换到主动通过的策略。所以,为别车规划路线并不是浪费算力,而是为了减少冲突,提高效率。利他终究是利己的。
05
减少搜索次数
比如在停车场景下,不同的解题逻辑和算法会对路径的计算量产生极大的影响。
以下内容来自维基百科,对 A* 和蒙特卡洛树搜索这两种算法做出了解释。
其中,A* 搜索算法(A* search algorithm)是一种在图形平面上,有多个节点的路径,求出最低通过成本的算法。游戏中 NPC(非玩家角色)的移动计算,或网络游戏的 BOT 的移动计算上。
而谷歌 AlphaGo 也用的蒙特卡洛树搜索是一种用于某些决策过程的启发式搜索算法。它的每个循环包括四个步骤:
- 选择(Selection):从根节点 R 开始,连续向下选择子节点至叶子节点 L。下文将给出一种选择子节点的方法,让游戏树向最优的方向扩展,这是蒙特卡洛树搜索的精要所在。
- 扩展(Expansion):除非任意一方的输赢使得游戏在L结束,否则创建一个或多个子节点并选取其中一个节点C。
- 仿真(Simulation):在从节点 C 开始,用随机策略进行游戏,又称为 playout 或者 rollout。
- 反向传播(Backpropagation):使用随机游戏的结果,更新从C到R的路径上的节点信息。
*每一个节点的内容代表胜利次数/游戏次数
Elluswamy 表示,他们分别对比了 A* 搜索(欧几里得距离算法)、基于欧几里得距离算法+语义导航信息导航的 A* 搜索和基于神经元网络策略+价值方程的蒙特卡洛树搜索。
三种不同的算法策略下,分别产生了 398,320、22,224 和 288 次搜索才能找到进入车位的的合适路径。其中效率最高的就是 MCTS(蒙特卡洛树搜索)。
至于蒙特卡洛树搜索对于 AI 技术有什么样的重要性,我们看一看 AlphaGo 的迭代历史就知道了。最新版本 MuZero 除了可以玩的游戏种类(围棋、国际象棋、日本将棋和 Atari),还可以在完全蒙圈的情况下通过大量观察学习游戏的玩法和规则,从而击败人类玩家。这样的结果可以说是对 AI 能力泛化的未来给出了很大的想象空间,让机器具备学习能力的时代终将会来临。
06
你大爷还是你大爷
其实特斯拉还没有开始使用上述的泊车策略。而上述很多功能也需要在 D1 芯片量产后 Dojo 真正落地的时候才能跑通。
但不可否认的一点是,就在大家还在挣扎用不用激光雷达和毫米波雷达的时候,纯视觉的特斯拉已经率先把这个战争从感知硬件推进到了感知算法和规控算法上,并在考虑如何更高效地利用用户产生的大量数据来训练自己的神经网络模型。
就在前不久, FSD Beta V10 发布了。在夜间的光线条件下零接管通过九曲花街,确实又是一个新的里程碑。
而在这个训练模型的过程中,不仅成为了真实自动驾驶数据回流最丰富的公司,也是目前唯一靠自己的研发能力搞定了自研壁垒更高的自动驾驶芯片和超算中心,当然这也是其产品销量足够高才能做到的。连激光雷达的量产都懒得等的特斯拉,虽然其 CEO 的嘴炮能力和出尔反尔也是一等一的存在,但是不管怎么说,特斯拉的确在自动驾驶技术的布局方面,是领先行业 2-3 年的存在。
会为了提高通过效率和对向来车博弈;会通过疯狂计算找出最顺滑最节能最安全的路径规划;可以通过摄像头输出的图像信息输出立体的沙盘空间;对周围的车辆和人物都有动态记忆的特斯拉,它离自动驾驶的距离可能比你想象得还要更近。