意料之内
时隔多年,特斯拉终于又进行了技术分享,在ICCV上曝光了FSD的核心架构,其中一个细节,引发行业热议,猜想特斯拉也在用VLA。
特斯拉自动驾驶与AI副总裁,同时也是特斯拉自动驾驶1号员工阿肖克·埃鲁斯瓦米近期作为嘉宾,在ICCV期间发表了题为《在特斯拉构建机器人基础模型》的主题演讲。这是自从2022年的特斯拉AI Day以后,特斯拉首次公开技术分享。当年的AI Day也是埃鲁斯瓦米,率先提出占用网络上车,引领了行业发展。
不过这一次分享的内容暂时还未公开,只流出了一张PPT,但信息量很大,引发了广泛讨论。

从这张有点简单的PPT架构图上看,标题是《可解释性和安全性保证》,下方是FSD的核心架构,是一个大型端到端模型的输入信息和输出。
输入包含多个模态,有视觉、导航、自车状态和声音信息。输出端则包括了全景分割结果、3D占用结果、3D高斯渲染结果、语言信息,还有省略号来代替未透露的其他输出信息,最终推理融合后输出驾驶行为。这些信息,与国内一众车企和智驾供应商目前的技术路线有着高度相似之处。

特斯拉最近的招聘JD,岗位要求包含NeRF、扩散模型、高斯Splatting、多模态
特斯拉FSD架构输出结果包含语言信息,这不能不让人联想到VLA和世界模型。今年,自动驾驶行业的技术路线之争已从传感器选型延伸至软件算法底层范式——VLA与世界模型正成为两大对峙阵营。前者主要玩家包含元戎启行和理想,后者则以华为、蔚来和商汤为主。
VLA路径的代表者认为,该范式具备双重优势:一方面能够复用互联网中海量的开放数据,构建对世界的常识认知;另一方面,语言所赋予的思维链能力,使其具备长时序数据的理解与推理潜力,从而提升决策的连贯性与逻辑性。
更有从业者尖锐指出,部分企业之所以未选择VLA路线,核心原因在于缺乏充足的大算力芯片支撑,难以承载大模型对硬件的苛刻需求。

理想汽车的下一代自动驾驶架构MindVLA
而世界模型阵营坚持认为,只有直接建模物理世界,才能触及自动驾驶的本质。华为车BU CEO靳玉志就直言VLA看似捷径,却难以真正走向自动驾驶。
蔚来副总裁任少卿则从信息惟独上进行描述,他认为世界模型在时空认知上具备更高带宽,能捕捉更丰富的环境信息与动态变化。他也承认当前语言信息在训练、推理与人机交互中具有非常重要的价值,但依然强调世界模型在感知层面上具有本质的结构优势。
其实尽管特斯拉不再做公开的AI day技术分享,国内的智驾公司也并未迷失方向,不管是VLA还是世界模型都处于领先定位。特斯拉不管选择哪条路线,都不代表其他方向就不是最优方案。就像何小鹏说的,“实际上国内任何一家有实力AI玩家,早就不care马斯克在做什么了”。
中国汽车工业不仅在车辆制造上告别了对BBA的盲目追随,更在智能驾驶的核心算法上,走向属于自己的时代。
— END —
渝公网安备50010502503425号
评论·0