
- 全站推荐
- 全站置顶
- 撤销首页推荐
- 社区推荐
-
置顶推荐
- 6小时
- 12小时
- 24小时
- 3天
- 一周
- 长期
- 设为精华
- 热门推荐
- 撤销审核
- 进小黑屋
- 生成议题
受吴军老师《信息论40讲-16|置信度:马斯克犯了什么数学错误?》启发,整理相关内容并浅谈自动驾驶中关于置信度概念的问题。
读完本文,你将明白:
要达到某些自动驾驶示范运营项目宣称的 3000 公里无接管,在置信度模型下,做到「令人信服」意味着什么?
工作中,曾遇到有人汇报说:我们对标测试了 Tesla-AIparking 功能,5 次泊车,成功 4 次,特斯拉的泊车成功率仅有 80%,特斯拉泊车水平一般。这个结论到底有多不靠谱?
01
马斯克犯了什么数学错误?

以下内容节选自吴军老师课程《信息论 40 讲 - 16|置信度:马斯克犯了什么数学错误?》
2016 年,特斯拉汽车出现了第一起因为使用它的辅助驾驶功能而导致的撞车死亡事件。一时间媒体就开始对该公司的技术质疑,舆论大多认为特斯拉公司该负责任。
为了摆脱公关危机,作为提供辅助驾驶技术的特斯拉公司先是解释,说那起交通死亡事故责任主要是开车的人长时间不扶方向盘。
但是媒体讲,你既然提供了辅助驾驶的功能,司机使用了出了事,说明你的技术不过关。
技术过关不过关这件事解释不清楚,特斯拉公司的 CEO 马斯克于是讲:
特斯拉这起致命车祸出在自动驾驶功能使用了 1.3 亿英里之后,而美国平均行车 0.93 亿英里就出一次死亡事故。
因此,特斯拉的事故概率低于平均水平。
这个声明一出来,就惹出了一些科学家们的嘲笑,说马斯克数学没学好,因为他完全没有统计中的「置信度」的概念。
置信度就是这一讲的知识点,它可以帮你衡量一个信息到底是否可靠。我们常说要总结经验教训,其实大多数人并不会正确地总结经验和吸取教训,常常和马斯克犯一样的错误。
那么马斯克错在哪里了呢?
要知道,出重大车祸是随机性事件,你并不清楚下一次什么时候发生,只有当统计的数据量足够大的时候,从结果上判定一种车比另一种安全才有意义。
否则,按照马斯克的说法,如果很快特斯拉又出一次车祸,事故率不就一下子又翻了一番吗?这时该说是它的技术不够好,还仅仅是运气不够好呢?
为了便于你更好地理解这一点,我们不妨看下面这个例子:
如果你在清华大学的校门口数一数,一天里经过校门的人数,发现有 4543 名男生和 2386 名女生进出了校门,据此你大致可以得出「这个学校男生和女生的比例是 2 :1」这样的结论。
当然,你不能说男生和女生的比例就是 4543 :2386,因为你知道每一个人今天是否出校门完全是随机的,由很多偶然性的因素决定。
更何况,男女对于到校外的喜好程度和需求可能也略有偏差。因此,如果你在统计了这近7千个样本后,给出一个大致的比例,没有人会挑战你。
但是,换一种情况就不同了,如果你在 5 月 3 日这一天一大早就起床了,到清华西校门口蹲了两分钟,看见有 3 名女生进出,1 名男生进出,就得出该校 3/4 的学生是女生的结论,显然大家不会接受,因为大家会觉得这可能完全是随机的巧合。
也许第二天 5 月 4 日你再去看两分钟,会发现进出校门的 4 个人全是男生,肯定不能得出「这个学校只有男生」的结论。
对于特斯拉的辅助驾驶是否安全这件事,摩根士丹利后来做了一个估算。 在美国目前的死亡事故发生的频率条件下,要想证明它的辅助驾驶更安全,需要行驶 100 亿英里才能得出有足够高的置信度的结论。
02
那什么是置信度?
我们不妨再看这样一个简单的例子,你扔了 14 次的钢镚,有 8 次正面朝上,6 次背面朝上,你有多大的把握说钢镚不均匀,正面朝上的概率更大,这个把握就是置信度。
衡量置信度的方法有很多, 有一种被称为「T - 测试」(也叫 T 检验)的方法,它可以告诉我们在看到某种看似有偏差的现象时,有多大的可能性可以判断这种偏差是因为随机性造成的,而非真正存在偏差。
具体到刚才这个扔钢镚的例子,如果 14 次有 8 次正面朝上,我们是否敢说这个「钢镚铸造有偏差」呢?
这里面有两种可能,其一是偏差确实存在。另一个原因是,它就是偶然造成的。那么这两种情况的可能性各是多大呢?
从数学上可以算出,前者的可能性是 57%,后者是 43%。
也就是说, 钢镚铸造有偏差这件事有可能是真的,但是我们不太确定。我们把自己有多么确定这件事也量化地衡量一下,它就是置信度。
具体到这个问题,置信度是 57%,当然相反的结论「这个钢镚没有铸造问题」的置信度是 43%,
在统计上,我们一般认为,置信度不到 95% 的结论不大能相信。在工程上,包括在药物试验上,通常也是要求达到 95% 以上。
那么怎么才能够提高置信度呢?通常的办法就是要增加所统计的样本的数量。
如果一直保持 8 :6这个正反面的比例,我们扔得次数越多,最后就越有把握说,「钢镚两面不均匀」。
根据 T - 测试原理的计算公式可以得知,大概扔 140 次就能说置信度达到 95%了。当然如果扔到几千次, 我们的置信度就能达到 99%。
也就是说,扔了 140 次以后,我们有 95% 的把握说,这个钢镚两面不匀,它造成了 80 :60的偏差。而运气的因素,只占剩下的 5%。
回到特斯拉的例子,摩根士丹利讲,要想证明辅助驾驶功能比人开车安全,大约要等到积累近百个致死事故才能得到解决,这样他们推导出是需要 100 亿英里的总行驶里程。
当然他们采用的是另一种叫「Z - 测试」的衡量置信度的工具,其原理和「T - 测试」类似。对于无人驾驶汽车,大致也需要累积测试这么多的里程。
从目前来讲,即便是最早进行路试的 Google 无人驾驶汽车(Waymo),离 100 亿英里也还差得远。
至于马斯克通过一个样点给出的数据,完全没有置信度可言,也就是说那一条信息的可靠性可以忽略不计。
人们在对待信息时通常犯的一个错误,就是忽视它的置信度,以至于我们把完全随机的事情,当成必然的事情。
要点总结:
我们讨论了置信度的概念。人们平时看待消息时常犯的错误,是忽视它的置信度。对于能够重复的事情,要被检验足够多次之后,置信度才高。
03
自动驾驶工作中遇到的相关问题
问题 1:要达到自动驾驶 3000 公里无接管,在置信度模型下,意味着什么?
其实这个问题和评估特斯拉自动驾驶安全水平是相同的问题。
在某自动驾驶小批量运营车队中,团队制定了自动驾驶 3000 公里无接管的阶段性目标。
经过一系列优化措施,刚开始评估测试,某测试工程师就兴高采烈地报告: 从开始道路测试至今 3200 公里时才接管了一次,我们已经超额完成 3000 公里无接管任务,已经达到 3200。
稍微想一下,就会发现这个测试工程师和马斯克犯的错误一模一样。
马斯克针对一次事故声明特斯拉的自动驾驶水平,这位工程师也仅仅是拿一次接管说明超额完成了任务。
如果继续测试,刚跑了 10 公里,就又出现了一次接管,那么顺着这位工程师的思路, 是我们的自动驾驶水平仅达到 1600 公里(也可以说 1605 公里,差别不大)无接管水平,距团队阶段目标还很远,还是说我们很不幸呢?
如果说马斯克是为商业利益故意为之,那这位工程师如此行事又是为何呢?真傻还是也有「利益」或「好大喜功」驱使呢!
套用特斯拉例子中摩根士丹利利用置信度 z-test 的结论: 要想证明辅助驾驶功能比人开车安全,大约要等到积累近百个致死事故才能得到解决,这样他们推导出是需要 100 亿英里的总行驶里程。
当然,这些都是以工程中常用的 95% 置信度来分析的。
在 3000 公里无接管的案例中:要想证明已经达到了 3000 公里无接管的水平,大约要积累近 100 次接管才能证明,并且平均接管里程是不小于 3000 公里,这样推导出需要至少 30 万公里的总测试里程。
按照 20 台测试车辆规模,每台车每天测试 500 公里,那也需要 30 天才能完成这 30 万公里测试。
另外,当前处于数百公里无接管的水平,为了实现 3000 公里无接管,需要分阶段优化智能驾驶系统,且为这些优化措施设定分阶段测试验证。
如经过 X1 优化后,测试验证达到 1000 公里无接管水平;再经过 X2 优化后,测试验证达到 2000 公里无接管水平。
理论上这些阶段性的测试验证,也需要实施如上述 3000 公里无接管的测试验证,即累计百次接管再进行评估。相应地还要增加大约 10 天和 20天 的测试验证才形成一轮评估。如果优化措施效果不好,经过测试验证后,未达到阶段性目标,那么还要进行再优化和再评估测试。
即使不考虑反复的优化、再评估测试,要得出已经达到 3000 公里无接管自动驾驶水平的结论,也需要测试验证 2 个月(10 天 + 20 天 + 30 天)。
问题 2:对于「曾有人说,对标测试 Tesla-AIparking 功能,5 次泊车,成功 4 次,特斯拉的泊车成功率仅有 80%,特斯拉泊车水平一般。这个结论到底有多不靠谱?」
这样评估友商泊车水平,无异于吴军老师课程中提到的「到清华西校门口蹲两分钟,看见有 3 名女生进出,1 名男生进出,就得出该校 3/4 的学生是女生的结论。」
类似地,利用置信度模型,我们还能合理地评估、指导某些开发过程,如要求红绿灯误检率不超过 5%,已测样本出现 10 次误检,这需要对应测多少次没有误检的情况,才能说明误检率不超过 5% 的结论 95% 可信。