发布作品

    研报 | 应高度重视Sora对我国自动驾驶产业的冲击

    观山车局头像观山车局头像
    观山车局03-01

    算力,会是2024年汽车企业争夺的关键资源。



    文 | 新汽车研究所

    当地时间2月16日,此前因推出ChatGPT而名噪一时的美国人工智能研究企业OpenAI发布了文生视频模型Sora和48个视频实例,并将其定义为“世界模拟器的视频生成模型”。

    Sora模型可以通过文本描述生成60秒长视频,无论是视频生成长度,还是色彩风格、人物表情等内容的逼真度,都大大优于此前的类似模型,因而再次引起全世界关注。

    OpenAI公司给出的Sora模型创作的视频之一。

    提示词为:有中国龙的中国农历新年庆祝视频。

    新汽车研究所在分析了Sora模型的特点,及其作用机理后发现,它可以有效地提升自动驾驶技术的发展速度,有可能会影响我国汽车产业在全球自动驾驶领域的竞争力,值得全行业高度关注。

    Sora模型的特点

    从产出上看,作为一个可以通过文本就能生成视频的大模型,Sora有3大亮点:

    一是对文本的理解能力。Sora模型可以将被输入的文本说明,转换为60秒视频,这不仅需要它很好地理解文本,还能理解文本内容在物理世界的存在方式。

    二是可实现多角度镜头。Sora模型不仅可以产生60秒的视频,还可以在视频里展现多角度镜头,且分镜切换符合逻辑。

    三是极高的真实感。Sora模型对于光影反射、运动方式、镜头移动等细节处理得到位,极大地提升了真实感。

    当然,Sora模型远未达到完美的状态,OpenAI公司也并不回避这一点。在其官网上,OpenAI公司明确表示,Sora模型现阶段难以准确地模拟复杂场景的物理属性(如玻璃破碎),还可能混淆文本提示中涉及的空间细节,出现处理错误。

    OpenAI公司给出的Sora模型的错误模拟案例

    虽然还存在需要改进的地方,但Sora模型在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,都远超行业原有水平。也正因为如此,Sora模型被认为是继2022年发布ChatGPT 3.5后,通用型人工智能(AIGC)领域的又一座里程碑。

    Sora与自动驾驶的交集

    就其技术基座而言,Sora模型采用的是基于Transformer模型架构开发的Diffusion Transformer模型(以下简称“Di-T模型”),其技术方面的核心创新是时空编码和Di-T模型的应用。

    从OpenAI公司披露的信息看,Di-T模型拥有和Transformer模型架构一样的优异参数可拓展性,可随着参数量的提升而实现性能的提升。这也是Sora模型能够实现长时间视频生成,显示更多信息的重要原因。

    汽车企业,尤其是智能驾驶领域的汽车企业,对Transformer模型并不陌生。在特斯拉率先应用后,该模型已成为全球智能驾驶领域的主流模型之一,得到广泛应用。

    Transformer模型最早由谷歌公司在2017年时提出,当时用于自然语言处理领域。2020年,微软亚洲研究院首次将它应用于图像分类任务,在评测中实现88.55%的准确率。

    而且该模型在数据量越大的情况下表现越好,因而特别适用于自动驾驶这类大规模数据训练场景。也正是基于以上优点,特斯拉选择应用这一模型作为其自动驾驶系统的底层架构。

    Sora对自动驾驶的影响

    OpenAI公司将它对Sora模型的终极愿景定义为“作为世界模拟器的视频生成模型”。换言之,通过Sora模型,AI可以学习现实世界的物理规律并进行拓展,进一步接近人对物理世界的思考和理解方式,进而训练人工智能理解和生成一个无限接近真实的场景或者世界。

    当Sora模型具备对物理世界的理解能力,并能构建出一个无限接近真实的场景或者世界时,它就可以成为新一代的自动驾驶仿真软件,因为Sora模型可以最大限度地减少自动驾驶系统在开发时面临的“长尾问题”(即Corner case)。

    现实世界中的道路交通具有场景复杂、参与者多、场景异质性强等特点,存在大量不可预见性。为避免长尾问题,厂商需要对车辆自动驾驶系统进行大量测试,以尽可能多地覆盖场景,但会带来成本的大幅度增加,拖累自动驾驶系统的成熟速度。

    预计随着Sora模型的进一步成熟,它可以凭借着对物理世界的模拟能力生成各种Corner case,有效降低自动驾驶训练成本,提升对复杂路况的处理能力。在这方面,Sora模型并非首创,特斯拉在2022年时就应该开始应用Transformer模型模拟路况,来训练其FSD系统。

    因此,从短期看,Sora模型对全球自动驾驶技术产生的最大的冲击,将会是进一步削弱激光雷达的重要性,增强纯视觉自动驾驶路线的产品竞争力。

    Sora对我国自动驾驶产业的影响

    新汽车研究所认为,Sora模型带来的技术层面的冲击是针对具体企业的。与此同时,它还会对我国自动驾驶产业造成巨大的冲击,有可能导致我国产业的发展速度落后于美国同行,进而在全球竞争中掉队。

    Sora模型的诸多优点,是建立在对Di-T模型进行海量数据训练之上的。目前,OpenAI还未公布Sora模型的参数量,该公司此前推出的ChatGPT模型经过四代迭代后,参数量从最初的1.17亿暴涨至1.8万亿。Sora模型的功能更完善,其所需参数量不会少于ChatGPT 4.0模型。

    ChatGPT 四代模型的参数量变化

    华西证券研究所对Sora模型的所需训练算力进行的估算显示,它进行1次训练,预计需要使用59500张英伟达H100型GPU,是ChatGPT 3.5模型进行1次训练所需GPU数量的160+倍。换言之,Sora模型的高性能建立在更高的算力之上。因此,不同企业拥有的算力的差距,将直接决定它们的自动驾驶系统性能的高低。

    受美国商务部2022年9月发布的禁令的影响,我国企业目前无法获得英伟达的H100型GPU。英伟达公司推出的特供版H800芯片的整体通信带宽性能,比H100低55%。这意味着,使用H800芯片的中国公司在AI大模型训练上的效率会远低于应用H100芯片的美国同行。要想保持竞争力,国内公司需要更多的AI芯片,需要更大的数据中心,需要更多的算力。

    好消息是,我们还有华为,它生产的昇腾芯片可以实现H100芯片的功能。坏消息是,我们只有一家华为。

    算力,会是2024年汽车企业争夺的关键资源。

    相关链接:

    研报 | 半固态电池悄然上量,中国公司再占先机

    研报 | AI大模型将彻底改变智能汽车产业

    次阅读
    评论
    赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯