华为智能汽车解决方案BU CEO 靳玉志曾表示,VLA大模型是一条取巧的技术路线,华为不会选择,而是会坚定的走WA世界模型路线。
咱们今天就来聊聊WA世界模型到底是什么?它与传统端到端和VLA技术路线到底有什么差别?分别有何优势劣势?
01. 让机器解析物理世界
说起WA世界模型,或许对辅助驾驶领域比较关注的朋友,第一时间会想起华为和蔚来,这两家都是对外已经官宣走WA世界模型这条路线的典型代表。
尤其是华为,作为现阶段公认辅助驾驶界TOP1的存在,“五界”+乾坤智驾基本上涵盖了将近半个车圈。
所以说,WA世界模型这条技术路线,至少在现阶段产品覆盖度是相当高的。

实际上,和VLA大模型一样,WA世界模型这个概念最早并不是由华为或蔚来等国内公司首次提出的。追根溯源的话,要比VLA大模型出现得要早得多。
其概念最早可以追溯到上个世纪40年代,一位名为肯尼思·克雷克的苏格兰心理学家提出的“心智模型”(Mental Model)。

他认为,人类之所以可以预测各种环境的变化,是因为每个人心中都有一套基于自身理解形成的“小型世界模型”。
通过模拟运转小型世界模型,将感官信息转化为对物理规律的理解,就可以对世界内部表征进行推理演算,进而帮助人做出正确的决策。
比如,我们看到乌云就会联想到下雨,看到火就会联想到热和烫,听风声大概能判断风有多大。
到了上个世纪80年代,这套理论开始应用于计算机领域。
被誉为“生成式AI之父”的德国计算机科学家于尔根·施密德胡伯,在论文中首次提出了“世界模型”一词(World Model)。
他尝试使用神经网络进行情景推演,实现对动态环境的预测。

而到了21世纪,随着计算机性能的突飞猛进,世界模型在AI领域的发展也开始逐渐清晰明朗了起来。
2018年,谷歌AI公司DeepMind的两位人工智能科学家,发表了一篇名为《World Models》的论文。
提出了通过“造梦”训练AI智能体的超前理念,在当时可谓轰动业界。
具体来说,就是使用自动编码器将现实场景压缩成数据,再利用神经网络推演各种未来的可能性,最终通过一套精简的控制器,对机器动作进行控制。

其实就有点类似于“颅内学习”,比如很多顶级赛车手在实地赛道刷圈之前,会把赛道的每个弯记得清清楚楚。
可以做到闭上眼睛用脑子模拟自己实地开车的景象,预演哪个地方容易出事故,哪个地方可以提速等等。
预演次数足够多、足够细,实际赛道刷圈时的反应就会更灵敏,更容易呈现出“人车合一”的境界。
世界模型“梦境”训练AI的方式,有点类似于“训狗”。
动作做对了会扔一块小零食用作奖励,做错了会有相应的惩罚,久而久之狗就形成了条件反射,变得听得懂人话。

在世界模型的“梦境”训练中,工程师会对AI提出一个基本目标,然后加入真实世界的物理参数,设定“对”和“错”的框架规则,这样就能让AI在不断试错中实现进化。
到了2022年,随着ChatGPT等大模型的出现,借助其序列建模能力和多模态学习等技术,世界模型的仿真推演范围得以进一步扩大,从原先的2D走向3D,从只能推演单一场景,到可以推演多种因素叠加的复杂场景。
传统AI是基于大量代码的被动式反应系统,能力上限有一定局限性,无法做到应对复杂场景。
而世界模型则会是基于现实世界中运动、碰撞等运行规则去训练AI,通过因果逻辑一样预演行动后果,从而在复杂场景中趋利避害,做出正确的抉择。
简单来说,世界模型的目标,就是让AI拥有类似人类的物理时空理解能力。
02. WA和VLA谁更优秀?
有了前面的铺垫,再来看看WA世界模型是怎么应用于辅助驾驶系统的。
WA世界模型最显著的特点,就是对于物理世界的运动规律,有着强大的分析能力。
根据蔚来对于WA世界模型技术的描述,它可以分析前3秒内的行车数据,仅需要0.1秒就能推演出长达120秒的模拟路况,同时生成216种场景可能性。
理论上来说,WA世界模型的运行速度,比端到端更快。
因为WA世界模型在端到端感知到动作输出的过程中,加了一个“预判”环节。
就比方说,打乒乓球水平很高的专业队选手,速度对抗之快让人觉得匪夷所思,是因为来球之前他们会根据对手的动作做出预判,从而提前做动作,如果球来了再现反应是来不及的。

除了车端的“快”以外,云端的模型训练也是十分重要的部分。
比如,目前华为的ADS 4整套系统就分成了“云端”和“车端”两部分。

其中云端部分被称为WE(World Engine),即世界引擎,用于对AI模型进行“梦境”训练。
车端部分被称为WA(World Action Model),即世界行为模型,用于车辆执行在云端训练出的模型。
二者合在一起,并称为“WEWA”。

实际上和理想、小鹏引入VLA大模型一样,华为、蔚来之所以引入WA世界模型,同样是为了解决端到端架构的弊端。
传统端到端架构最让工程师头疼的,就是“黑箱问题”,可解释性差,一旦出了问题难以修改,只能像薛定谔的猫一样投喂大量数据,祈祷模型早日修正。
VLA大模型给出的解决办法是:通过将图像信号转化成语言,这样就可以让问题通过文本可视化,起到易于修改的目的。
WA世界模型给出的解决办法是:可以通过三维物理世界的空间运动规律、物体交互规则,对出现问题场景进行反向演算,再配合上内置的“注意力热图”系统,就能起到回溯问题根源的目的。

比如说,路中间突然跑过去一头牛,车辆撞了上去,这种现实中较低概率发生的事故,工程师们就可以调用世界模型分析事故原因。
到底是没识别到牛,还是对牛的行进路线预判失误,还是预判了牛的路线但没及时做出刹车动作……
尽管做不到像VLA一样,把问题转换为文本那么清晰,但好歹已经从“黑箱”变成“灰箱”了,能做到具体问题具体分析,可以更有针对性的投喂数据,对症下药。
找到了问题之后,就需要投喂大量数据进行模型训练优化,俗称“下猛药”。
而这,恰恰是WA世界模型相比端到端的另一大优势所在。
传统端到端修改问题,需要大量真实数据支撑,但很多极端碰撞事故发生频率本身就很低,就会造成可用数据十分有限。
而世界模型则可以通过位于云端的世界引擎,在虚拟世界中模拟创造出各种奇葩的极端碰撞事故数据。这些数据不仅各种参数可调,而且数据想要多少就有多少。
这样一来,就可以让辅助驾驶应对极端复杂场景的能力加速进化。

除此之外,WA世界模型在车端占用的算力,往往比端到端更少。
由于“注意力热图”的存在,使得WA在运行过程中不需要像端到端那样,始终顾及全局,而是根据不同场景调用不同的模块。
比如华为ADS4中,就内置了多种“专家模块”。
当车开到路口时,系统就会调用“路口预测专家”模块,将更多算力倾注在监视横向、对象来车,以及与其他交通参与者的博弈上。
当车遇到拥堵时,系统就会调用“拥堵跟车专家”模块,将更多算力倾注在监视前车急刹、侧方加塞等方面。
更低的算力消耗,有利于会进一步降低系统延迟,提高危急时刻的反应速度。
总结下来,WA世界模型是一套可解释性更高,运行延迟更低,且针对特定危险场景避险效果更好的“端到端PLUS”。

那么就可以回答文章开头提到的问题了,WA世界模型相比VLA语言动作大模型,到底哪个更好呢?
简单来说,WA世界模型偏向凭借“肌肉记忆”与“经验”去开车,而VLA更接近“脑子思考”去开车,这造成了两条技术路线分别有各自擅长的领域。
WA世界模型的优势在于车端系统十分精简,而VLA大模型多了将图像转化成语言这个步骤,更擅长处理“鬼探头”等突发的紧急危险场景。
理论上,WA世界模型的反应速度会比VLA更快。
不过相对的,由于VLA拥有更接近人类的逻辑推理能力,所以对于复杂的临时施工道路,在绕行路线选择方面,表现会比WA世界模型“更拟人”。同时在人机共驾时,用语音“使唤”车辆做各种动辄,VLA也会表现得更出色。
理论上,VLA大模型更擅长处理复合场景的“长尾决策”问题。

从长远来看,WA和VLA两条技术路线对于硬件的进化需求也有所不同。
VLA需要更频繁的逻辑推理,因此对车端芯片算力提出了更高的要求。
而WA虽然对于车端算力需求较小,但由于车端模型需要及时判断场景调用模块,同时还需要云端训练作为支持,所以对网速要求更高,而芯片带宽将很大程度上决定其能力上限。
03. 写在最后
虽然目前市面上的主流辅助驾驶技术路线走到了分水岭,但放眼更长远的未来,依旧充满未知。
正如那句“天下大势,分久必合合久必分”。
说不定WA和VLA接下来会走向融合,实现优势互补,亦或是再迸发出更先进的技术架构,从而让行业走向下一阶段的统一。
不论技术如何发展,都真心希望L3、L4级自动驾驶早日落地。
渝公网安备50010502503425号
评论·0