特斯拉AI Day前瞻第二集：纯视觉FSD背后的哲学

关注并标星电动星球News

每天打卡阅读

更深刻理解汽车产业变革

————————

出品：电动星球 News

作者：毓肥

根据马斯克的预告，一个月之后，特斯拉 2021 AI Day 就将到来。

我们不知道届时特斯拉会发布什么黑科技，但我们知道，马斯克届时一定会为纯视觉自动驾驶路线作出详尽的解释，顺便立下足够吓人的 flag。

早在一个月之前，特斯拉就宣布，北美市场的 Model 3/Y 将不会再配备毫米波雷达和超声波雷达，仅标配摄像头。

纯视觉自动驾驶，无疑是特斯拉对汽车行业的新一次挑战，甚至对自己推动的浪潮，也是一次「不破不立」。

特斯拉一直是激光雷达的反对者，马斯克屡次在推特 diss 激光雷达阵营，并多次强调纯视觉路线的优越性。

《任何依赖激光雷达的人都注定失败》

特斯拉 AI 部门高级主管 Andrej Karpathy 说的「人类开车不是靠双眼发射激光」，同样是经典。

但除了金句、flag，特斯拉一直没有说明白，纯视觉自动驾驶背后究竟有怎样的思考？为什么全世界都在加码的激光雷达路线，在特斯拉这里这么不受待见？

直到最近，在 2021 CVPR 国际计算机视觉与模式识别会议上，Andrej 用一场时长 38 分钟的在线演讲，放出了足够多的干货，于是我们再次得以一窥特斯拉 AI Day 。

今天的推送当然会枯燥，但也没那么索然无味。

因为，想要把特斯拉坚定站在纯视觉路线的理由说清楚，反而不能过分执着于技术名词。逻辑、思考，则是更形而上学，也更通俗易懂的叙述方式。

纯视觉 FSD 背后的哲学

两年两个月之后，Andrej 把那句「名言」OTA 到了最新版本：

「人类依赖视觉开车，而我们大脑里的‘深度学习网络’，很明显是有能力处理视觉数据输入，并理解身边所有物体视觉深度和速度的」。

是的，特斯拉的自动驾驶依然带着浓浓的第一性原理味道。人类如何坐到方向盘后面，Autopilot 就照样再做一次。

特斯拉相信的，是人类既然可以通过视觉信息+大脑处理，成为一个合格的驾驶者。那么摄像头+深度学习神经网络+计算硬件，也可以达到类似的效果。

于是特斯拉需要证明三个有关纯视觉 FSD 的命题：观察世界的能力、理解交通的能力、处理场景的能力。

1.先来说说「观察」。

摄像头可以做到人类眼睛的程度吗？Andrej 的原话是：「unequivocal yes 绝对可以」。

两个半月之前，马斯克在推特上这么说：「当雷达和视觉不一致时，你会相信哪一个？视觉具有更高的精度，所以最好是加注视觉路线，而不是多传感器融合。」

马斯克后来解释称，传感器的本质是比特（bit）数据流，而摄像头每秒传输的比特量比雷达高了几个量级。「只有显著提升雷达比特数据流的信噪比，才值得去整合它（相较于摄像头）的复杂性。」

几个量级这样的表述有点模糊，Andrej 精确了一下：「100 倍」。

「摄像头几乎是在俯视其他传感器，其他传感器甚至开始成为（自动驾驶系统）的累赘」，他这样补充。

上图是特斯拉 Autopilot 8 摄像头的画面总览。目前特斯拉使用的摄像头为 1280x960 分辨率，每秒拍摄 36 帧画面，约束数据流的规模大概是 8M bits 每秒。

Andrej 表示即使是这样分辨率的摄像头画面，相比其他传感器仍然是「data rich 数据富裕」，这也是他们「doubling down 双倍加注」视觉路线的主要原因。

「我们不希望在雷达堆栈、多传感器融合堆栈上面浪费人力」，他表示现在特斯拉只有一支「vision team 视觉队伍」。

2. 摄像头的「优越性」，需要规模效应激发。

Andrej 举了个例子：Waymo 的自动驾驶测试车。尽管和 FSD Beta 一样都可以做出无保护左转这样的动作，但实现这套动作的硬件底层却大相径庭。

Waymo 公开运营的大捷龙长这样，头上有激光雷达：

Andrej 表示，激光雷达+高精度地图的技术路线，需要大量的前置准备，工作范围被高精度地图限制，并且「保持更新基础硬件的成本太高」。

深度学习需要巨量数据喂养，以覆盖小数点后面无数个 9，所代表的 Corner case，也就是小概率场景。前期成本远高于摄像头的激光雷达路线，很难跟上特斯拉卖车的脚步。

Andrej 强调称，特斯拉的纯视觉硬件已经在上百万辆车型上使用，这是其他车企很难复刻的。

但「这并不意味着视觉路线更简单，因为纯视觉更依赖深度学习网络——而深度学习又依赖于数据反馈的规模」，所以对特斯拉来说，「scale」才如此重要。

Andrej 认为，特斯拉解决了规模问题之后，基于深度学习的摄像头「kind of leaving a lot of other sensors in the dust（像是把其他传感器都甩远了）」。

「一旦你可以让其（深度学习网络）正常工作，（纯视觉）自动驾驶就可以在世界上任何地方使用」。

3. 然后是理解交通的能力。

特斯拉认为摄像头是可以和人眼媲美的，且几乎唯一需要的自动驾驶传感器。

而如何使车辆与人类一样思考、理解交通，则是 Autopilot 贯彻「第一性原理」的另一基础。

Andrej的原话是「massive data set of depth, velocity acceleration on a lot of cars, and we’re going to train a large enough neural network and do a very good job at that.」

中文表达简洁很多：「足够多有关深度/加速度的（视频）数据，足够多汽车提供这样的数据，训练足够大的神经网络并且做得足够好」。

特斯拉的纯视觉方法论，某种程度上很像人类交通探索过程：开足够多的车（数据）、有足够多的人开车（车辆数）、总结交通法规+驾驶培训课程+老司机「言传身教」。

特斯拉的销量当然不需要担心，交通法规已经非常完善，而特斯拉需要解决的，就剩下最核心的任务——给 Autopilot「上驾驶课」。

这一过程不仅需要数据的数量，还需要质量。

Andrej 表示特斯拉用来训练纯视觉的数据，必须要满足 large（数以百万计）、clean（清晰标注速度/加速度/深度）、diverse（包含大量边缘案例，不是‘无聊’的场景）这三个条件。

2019 年 11 月，Andrej 在出席 PyTorch 开发者峰会的时候表示，「现阶段我的团队已经可以在椅子上葛优瘫，然后数据就会从特斯拉的车子上传过来，在神经网络模型上自己不断循环运行」。

他将这套流程为「Operation Vacation（运营假期）」，本质则是精准而高效的数据自动标注能力。

这样的「假期」，首先体现在高到「变态」的人力效率——Andrej 表示基于目前的神经网络结构，一个深度学习网络所需的工程师数量，仅有 20 个。

有意思的是，Andrej 在演讲中说「有些场景中，额外的传感器也会用于自动标注，比如雷达」。

自动标注能力不是凭空得来的，Andrej 称最近四个月，团队都在致力于让深度、速度、加速度等信息标注更加高效。

4. 理解交通，不仅需要「教材」，还需要「做题」。

目前 Andrej 的团队总结出 221 个纯视觉「trigger」，也就是触发条件。

这 221 个触发条件的解释包含了大量专业术语，事实上大家并不需要完全理解，因为它们的共同作用，都是「从用户驾驶过程中获取多样化场景」。

它们就是 Autopilot 软件团队为纯视觉自动驾驶准备的「习题」，几乎永不停歇。

当然，给纯视觉 FSD 上课，并不像人类驾校的科目一科目二，但特斯拉也有相对固定的流程。

首先需要的是「seed data set 种子数据集」

然后用它们训练出深度学习网络

将其以「影子模式」的形式部署至用户车辆中

深度学习网络做静默预测

完善深度学习网络偏差溯源机制

用触发条件获得差异化场景

部分场景需要经历独立测试

大致经历以上流程之后，所有被自动标注（同时保证数据得到清洗）的场景数据，就会成为纯视觉 Autopilot 学习驾驶课程的知识，然后被应用到实际道路上。

Andrej 放出了这张 PPT：7 轮影子模式迭代流程、100 万个 8 摄像头、36 帧、10 秒时长的高度差异化场景、60 亿个包含精确深度/加速度的物体标注，以及 1.5PB（1PB＝1024TB＝1024²GB）数据量。

另外，在已释放的影子模式下，做纯视觉 Autopilot 的验证，也是深度学习进化的重要环节。

这里还是放工作成果吧，Andrej 的 PPT 给出了下面的数字：

6000 个人工挑选的挑战性片段、70 类不同场景、10000 个模拟场景、相当于 10 年实际时长的 QA 驾驶（quality assurance质量保证），以及影子模式下相当于 1000 年的驾驶时长。

目前纯视觉版本已经积累了约 1500 万英里的数据，其中 170 万英里在 Autopilot 启动情况下收集，目前还没有纯视觉版本的事故——Andrej表示「我们认为事故总是会有的，目前雷达融合版本 Autopilot 的事故率大概是 500 万英里一次」。

真够凡尔赛的。

5. 最后是「处理场景的能力」，也就是「算力」。

文章写到这里，纯视觉 FSD 的第一性原理方法论，来到了最后一关。特斯拉可以获得视觉数据，可以训练深度网络，唯一欠缺的，就是一颗大脑。

这块板子是特斯拉 Autopilot 硬件 3.0，两块显眼的芯片能提供 144TOPS 的 INT8 算力，这已经是量产王者。明年英伟达的 Orin 即将上车，单颗芯片算力可以达到 254TOPS，看上去也非常不错。

然而它们仍然很难与人脑媲美——说「很难」已经是在夸奖它们了。

于是特斯拉「取巧」了：人脑不能外借，算力却可以来自别处。

下面这张 PPT，介绍了特斯拉训练纯视觉深度学习网络，而打造的数据中心。虽然硬件 3.0 算力和人类有差距，但借助数据网络，特斯拉可以以超级计算机的形式，挑战人脑。

数据中心的大脑，是来自英伟达的最新一代 A100 加速计算卡——的顶配版：A100 80GB Version。

整个数据中心里面一共有 720 组计算卡，每组包含 8 张 A100，合计5760 张，Andrej 的 PPT 显示，FP16 精度下，这台超算的算力高达 1.8EFLOPS。

Andrej 表示这大概是世界上第五强的超级计算机——之所以达到 1.8EFLOPS 的算力依然没有问鼎全球超算，是因为特斯拉宣传用的算力标准不一样。

目前超级计算机的算力都是按照 FP64 双精度计算，而特斯拉的 1.8EFLOPS 用的是 FP16 精度。

按照 FP64 精度计算，特斯拉用的 5760 块 A100，并行算力达到了 55872TFLOPS。

这个数字与目前排第 5 的 PERLMUTTER还有差距—— 63460TFLOPS，但我想没有人会挑剔 Andrej 的小小失误，因为这台计算机已经足够惊艳。

无超算，不车企？

文章的主体已经写得差不多了，下面是有感而发环节。

为什么特斯拉打造了一台超算？

因为当下，自动驾驶和人类驾驶的最大差距，已经不是获得视野的能力，却恰是处理视野的能力。

CVPR 演讲的最后，Andrej 剧透了一下真正的 Dojo，是的，上文大家看到的这台由车企打造的超级计算机，还不是 DOJO 本尊，而只是特斯拉纯视觉星辰大海的起点。

Andrej 表示：「我们正在推进 DOJO 计划，会将（深度学习计算）带到另一个阶段，但我还没准备好透露更多细节。」

「如果关于这个应用（纯视觉自动驾驶）的高性能计算，以及这个疯狂的神经网络让你感兴趣，请联系超级计算团队，如果你可以为特斯拉提供帮助的话，我们会非常感激。」

在特吹群体里，DOJO 是一个神圣的词汇。

每当特斯拉 VS 其他车企的论战掀起帷幕，DOJO 总能成为制胜一击，它甚至是特斯拉鲜为人知的「护城河」——因为它是特斯拉的 1，而其他车企都是 0。

DOJO，从立项之日起，也许就是特斯拉补全纯视觉 FSD 的最后拼图。它还是世界上第一台「汽车公司」打造的「超级计算机」——两个本该风马牛不相及的词语，偏生在 2021 年碰撞出了火花。

如果上面这台算力巨兽还只是特斯拉「小试牛刀」，那么真正的 DOJO 到底会有多惊艳？

更重要的是，再过几年，有没有属于自己的超算，会不会成为衡量一家车企自动驾驶能力的重要标志？

「第一性原理」

标题是「纯视觉 FSD 背后的哲学」，那文章的最后，我们就来聊聊哲学。

「第一性原理」，这是众所周知的，马斯克的思考准则。

2013 年 12 月 4 日，马斯克接受 innomind 采访时表示：「我习惯于从物理学的框架上获得结论。物理教会你用第一性原理溯源，而不是用类比。」

自从特斯拉和 SpaceX 成为各自领域里面的旗帜，马斯克坚持的「第一性原理」被越来越多的人奉为圭臬。

早在约 2400 年前，洪荒时期理工男亚里士多德，已经表达过类似的观点：「在每一系统的探索中，存在第一原理，是一个最基本的命题或假设，不能被省略或删除，也不能被违反。」

找到事物唯一的原命题，并解决它，这就是第一性原理的通俗解释，也是数千年来理工男们改变世界的一种「类信仰」般存在。

纵观特斯拉 18 年发展历程，「第一性原理」贯穿其内。

「加速世界向可持续能源发展」，这是马斯克加入特斯拉之后，为其寻找的「原命题」。

要实现这样的目标，特斯拉需要证明可持续能源是「值得发展」的，于是有了兼顾性能和环保的，堪称汽车「悖论」的 Roadster，以及之后的 Model SEXY，等等。

自动驾驶，以及堪称「疯狂」的车舱智能化，则是在电动汽车行业探索多年之后，特斯拉顺理成章的发展方向。

智能依然是解决特斯拉原命题的方案，因为全自动驾驶、高级智能座舱、FOTA...这些只有整车可控的纯电汽车，可以实现。而全自动智能出行，是解放人类生产力的必然选择。

其实所有人都不知道纯视觉 Autopilot 究竟表现如何，因为它还没经历过千万上亿级公里数、不同国家路况的认证。

但我们很清楚地感知到，特斯拉早已 All in 纯视觉。

无论是去掉毫米波雷达，还是斥巨资打造专有的超级计算机——1 组 4 个 A100 加速卡组成的 DGX 机柜就要卖 14.9 万美元，约合人民币 96 万——而特斯拉目前已经用了 5760 个。

第一性原理似乎有着神奇的魔力，可以让一群人步调一致、信念统一地钻研、工作，即使其他 99% 的人都在否定，或者至少不看好他们。

我们无需怀疑特斯拉的认真，只需要检验特斯拉的成果。

（完）

特斯拉AI Day前瞻第二集：纯视觉FSD背后的哲学

评论·0

热门资讯