研报 | 应高度重视Sora对我国自动驾驶产业的冲击

算力，会是2024年汽车企业争夺的关键资源。

文 | 新汽车研究所

当地时间2月16日，此前因推出ChatGPT而名噪一时的美国人工智能研究企业OpenAI发布了文生视频模型Sora和48个视频实例，并将其定义为“世界模拟器的视频生成模型”。

Sora模型可以通过文本描述生成60秒长视频，无论是视频生成长度，还是色彩风格、人物表情等内容的逼真度，都大大优于此前的类似模型，因而再次引起全世界关注。

OpenAI公司给出的Sora模型创作的视频之一。

提示词为：有中国龙的中国农历新年庆祝视频。

新汽车研究所在分析了Sora模型的特点，及其作用机理后发现，它可以有效地提升自动驾驶技术的发展速度，有可能会影响我国汽车产业在全球自动驾驶领域的竞争力，值得全行业高度关注。

Sora模型的特点

从产出上看，作为一个可以通过文本就能生成视频的大模型，Sora有3大亮点：

一是对文本的理解能力。Sora模型可以将被输入的文本说明，转换为60秒视频，这不仅需要它很好地理解文本，还能理解文本内容在物理世界的存在方式。

二是可实现多角度镜头。Sora模型不仅可以产生60秒的视频，还可以在视频里展现多角度镜头，且分镜切换符合逻辑。

三是极高的真实感。Sora模型对于光影反射、运动方式、镜头移动等细节处理得到位，极大地提升了真实感。

当然，Sora模型远未达到完美的状态，OpenAI公司也并不回避这一点。在其官网上，OpenAI公司明确表示，Sora模型现阶段难以准确地模拟复杂场景的物理属性（如玻璃破碎），还可能混淆文本提示中涉及的空间细节，出现处理错误。

OpenAI公司给出的Sora模型的错误模拟案例

虽然还存在需要改进的地方，但Sora模型在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面，都远超行业原有水平。也正因为如此，Sora模型被认为是继2022年发布ChatGPT 3.5后，通用型人工智能（AIGC）领域的又一座里程碑。

Sora与自动驾驶的交集

就其技术基座而言，Sora模型采用的是基于Transformer模型架构开发的Diffusion Transformer模型（以下简称“Di-T模型”），其技术方面的核心创新是时空编码和Di-T模型的应用。

从OpenAI公司披露的信息看，Di-T模型拥有和Transformer模型架构一样的优异参数可拓展性，可随着参数量的提升而实现性能的提升。这也是Sora模型能够实现长时间视频生成，显示更多信息的重要原因。

汽车企业，尤其是智能驾驶领域的汽车企业，对Transformer模型并不陌生。在特斯拉率先应用后，该模型已成为全球智能驾驶领域的主流模型之一，得到广泛应用。

Transformer模型最早由谷歌公司在2017年时提出，当时用于自然语言处理领域。2020年，微软亚洲研究院首次将它应用于图像分类任务，在评测中实现88.55%的准确率。

而且该模型在数据量越大的情况下表现越好，因而特别适用于自动驾驶这类大规模数据训练场景。也正是基于以上优点，特斯拉选择应用这一模型作为其自动驾驶系统的底层架构。

Sora对自动驾驶的影响

OpenAI公司将它对Sora模型的终极愿景定义为“作为世界模拟器的视频生成模型”。换言之，通过Sora模型，AI可以学习现实世界的物理规律并进行拓展，进一步接近人对物理世界的思考和理解方式，进而训练人工智能理解和生成一个无限接近真实的场景或者世界。

当Sora模型具备对物理世界的理解能力，并能构建出一个无限接近真实的场景或者世界时，它就可以成为新一代的自动驾驶仿真软件，因为Sora模型可以最大限度地减少自动驾驶系统在开发时面临的“长尾问题”（即Corner case）。

现实世界中的道路交通具有场景复杂、参与者多、场景异质性强等特点，存在大量不可预见性。为避免长尾问题，厂商需要对车辆自动驾驶系统进行大量测试，以尽可能多地覆盖场景，但会带来成本的大幅度增加，拖累自动驾驶系统的成熟速度。

预计随着Sora模型的进一步成熟，它可以凭借着对物理世界的模拟能力生成各种Corner case，有效降低自动驾驶训练成本，提升对复杂路况的处理能力。在这方面，Sora模型并非首创，特斯拉在2022年时就应该开始应用Transformer模型模拟路况，来训练其FSD系统。

因此，从短期看，Sora模型对全球自动驾驶技术产生的最大的冲击，将会是进一步削弱激光雷达的重要性，增强纯视觉自动驾驶路线的产品竞争力。

Sora对我国自动驾驶产业的影响

新汽车研究所认为，Sora模型带来的技术层面的冲击是针对具体企业的。与此同时，它还会对我国自动驾驶产业造成巨大的冲击，有可能导致我国产业的发展速度落后于美国同行，进而在全球竞争中掉队。

Sora模型的诸多优点，是建立在对Di-T模型进行海量数据训练之上的。目前，OpenAI还未公布Sora模型的参数量，该公司此前推出的ChatGPT模型经过四代迭代后，参数量从最初的1.17亿暴涨至1.8万亿。Sora模型的功能更完善，其所需参数量不会少于ChatGPT 4.0模型。

ChatGPT 四代模型的参数量变化

华西证券研究所对Sora模型的所需训练算力进行的估算显示，它进行1次训练，预计需要使用59500张英伟达H100型GPU，是ChatGPT 3.5模型进行1次训练所需GPU数量的160+倍。换言之，Sora模型的高性能建立在更高的算力之上。因此，不同企业拥有的算力的差距，将直接决定它们的自动驾驶系统性能的高低。

受美国商务部2022年9月发布的禁令的影响，我国企业目前无法获得英伟达的H100型GPU。英伟达公司推出的特供版H800芯片的整体通信带宽性能，比H100低55%。这意味着，使用H800芯片的中国公司在AI大模型训练上的效率会远低于应用H100芯片的美国同行。要想保持竞争力，国内公司需要更多的AI芯片，需要更大的数据中心，需要更多的算力。

好消息是，我们还有华为，它生产的昇腾芯片可以实现H100芯片的功能。坏消息是，我们只有一家华为。

算力，会是2024年汽车企业争夺的关键资源。

相关链接：

研报 | 半固态电池悄然上量，中国公司再占先机

研报 | AI大模型将彻底改变智能汽车产业