发布作品

    汽车行业专题报告:大模型+政策+功能,三重共振开启L3智能化行情

    未来智库头像未来智库头像
    未来智库2023-06-19

    (报告出品方/作者:东吴证券,黄细里、谭行悦)

    1. 技术+政策+新品周期,新一轮智能化有望加速

    1.1. 2014-2016 纯视觉方案崛起推动 ADAS 功能普及

    在 21 世纪前的汽车百年历史中,从定速巡航系统(CCS)->车身动态稳定系统 (ABS/ESC)->自适应巡航系统(ACC,通过毫米波雷达),产业一直在努力让更多的技 术来帮助司机更加轻松、安全的操控汽车。 但早期的设计更多的采用机械式,直到 2008 年 Mobileye 的横空出世,通过成熟的 纯视觉方案先后实现了车道偏离预警(LDW,2008 年)、自动紧急制动(AEB,2009 年)、 前方碰撞预警(FCW,2010 年)、自适应巡航系统(ACC,2013 年)等多项 ADAS 功 能。单颗摄像头+芯片的技术架构大幅降低了系统的生产成本,同时具备完善的功能应 用,因此随着 2013 年纯视觉 ACC 功能的推出,Mobileye 的芯片开始受到各大主流中高 端汽车品牌的青睐,几乎成为各家唯一的 ADAS 方案商,出货量大幅攀升,成功的推动 ADAS 功能的普及。

    根据美国 SAE 的分级,将自动驾驶分为 L1-L5 级别。Mobileye 领衔的纯视觉方案 成为 L2 级别及以下自动驾驶方案的首选,特斯拉的 S/X 车型自动驾驶方案也是采用其 EQ3 芯片,推动了整套系统的快速普及。在 ADAS 系统的感知、决策、执行三大环节 中,感知由 Mobileye 完成,高质量的传感器信息大幅降低了决策环节的难度,并且也加 速了执行环节的电控国产替代需求:制动(ABS/ESC),转向(EPS 电动助力转向)。

    1.2. 2020-2022 特斯拉 FSD 推动整车 E/E 架构升级

    2019 年特斯拉发布 Model Y 车型,相较于 2017 年发布的 Model 3 车型其最大的变 化来自于整车电子电器(E/E)架构,从过去的分布式架构开始向域集中架构转变,这也 符合博世公司提出的电子电器架构变革的技术方向。通过 E/E 架构的变化,特斯拉有效 地解决了分布式之前的算力不足,难以支持 OTA 升级等多种问题,并且推出了基于自 研芯片的 AutoPilot HW3.0 的新一代 FSD 自动驾驶系统。


    在汽车智能化功能不断升级所带来的算力需求下,各家车企也开始向着集中式电子 电器架构的方式演进。英伟达先后推出的大算力AI芯片Xaiver(30TOPS)/Orin(256TOPS) 很好地满足了不断增长的算力需求,并且提供一套完善的算子库+开发工具链,取代 Mobileye 成为域集中架构下众多车企的首选。基于 AI 芯片的自动驾驶域控制器成为产 业链价值量增加最大的新产品。此外,由于新能源+操控需求带来的价值新增量(线控 制动+线控转向+空气悬挂)以及智能座舱新增量(座舱域控制器+HUD+音响功放)等 均成为这一轮智能化变革中重要的产业趋势。

    1.3. 新一轮技术+政策+新品周期,共同推动高级别自动驾驶落地

    成本+政策压力,智能化产业节奏放缓。不同于 L2 或者 L2.5 级别自动驾驶方案, 高级别自动驾驶方案对于感知要求更高,除特斯拉之外,各家车企均采用激光雷达+毫 米波+摄像头等多种传感器融合方案支持相关算法,这也带来了成本端的大幅增加。同 时,国内目前没有清晰的界定 L3 级别自动驾驶权责认定的法律法规,成本+政策导致车 企和消费者对于 L3 级别自动驾驶的需求下降,智能化从 L2->L3 升级的节奏放缓。 特斯拉借助 AI 大模型推出全新感知方案,有效降低成本。随着 AI 大模型技术的发 展,特斯拉率先采用了基于 TransFormer 大模型的 BEV+占用网络感知算法,提升了环 境建模的效率,成为目前主流车企下一代智能化的主要架构。通过这套感知架构能够减 少对于激光雷达等高成本传感器的依赖,有效降低系统成本,减轻车企及消费者的负担。

    海内外政策准备加速,有望明确 L3 级别自动驾驶责任划分。近年来从国家部委到 地方政府对高级别自动驾驶发布了一系列政策和法规,从基础建设、测试标准、数据安 全、高精地图、商业运营等方面进行完善。2023 年,美国内华达州和加州先后批准了奔 驰 L3 级别自动驾驶功能的上路运行,对于责任进行了清晰的划分,国内相关的政策法 规也有望加速落地,明确 L3 级别自动驾驶功能的责任划分。 城市 NOA(约等于 L3 级别自动驾驶)功能成为产业智能化主要发力方向。2023 年 是智能化新车上市密集窗口期,基于目前产业跟踪,我们预计这波新车特征或是:1)符 合 L3 智能化法规标准;2)城市自动驾驶(城市 NOA)落地使用;3)成本下行至 30 万 元以下,激光雷达不是必要条件。车企进展初步排序:第一梯队领先(特斯拉/小鹏汽车 /华为合作伙伴),第二梯队快速跟进(理想/蔚来/比亚迪/长城/吉利/长安/广汽/上汽等)。

    2. AI 大模型加持,端到端感知方案实现降本增效

    2.1. CHAT GPT 横空出世,AIGC 推动全新产业革命

    2.1.1. AIGC 实现多模态输入输出,有望开创全新应用场景

    CHAT GPT 为代表,AIGC 基于训练数据生成各类内容。AIGC(Generative AI,生 成式 AI)是一种人工智能相关的技术,它可以使用训练数据来生成新的内容,包括文本、 图像、音频和视频等。当下最为火热的 CHAT GPT(chat Generative Pre-trained Transformer) 就是 AIGC 的一种,作为基于大规模预训练语言模型的对话系统,具备极强的自然语言 处理能力,能够应用到各类文字语言任务中。 多模态输入输出技术逐步成熟,AIGC 有望开创更多应用场景。随着自然语言生成 技术以及 AI 大模型的成熟,AIGC 逐步受到市场的关注。因为 Prompt 以及 Diffusion 等 技术对模型泛化能力以及多模态输出能力的提升,目前已经能够生成文字、图片、音频、 代码等多类型的内容,多模态大模型输入输出能力的逐步完善,有望使得其在除了文字 领域之外开创更多新的应用场景。

    2.1.2. 技术架构+参数规模持续迭代,大模型表现能力不断提升

    大模型参数规模不断增长,推动 AIGC 技术升级。AIGC 技术发展的背后是大模型 (Foundation Models)技术的持续迭代。从 2017 年 TransFormer 结构的提出,加速了深 度学习模型的参数学习能力。从 ResNet 系列开始参数规模不断增长,以 GPT(Generative Pre-trained Transformer)系列大模型为例:1)GPT1 参数量达到 1.17 亿的规模,25 亿 的单词量;2)GPT-2 参数量达到 15 亿的规模,其中数据来自互联网,使用了 800 万在 Reddit 被链接过的网页数据,清洗后的语料数据约 40GB;3)GPT-3 参数规模达到 1750 亿;4)ChatGPT 参数量达到万亿级别。在参数量上,每一代均比前一代产品有了数量 级的飞跃,同时也带来了模型性能的快速提升。


    参数量破亿,预训练大模型效果。大模型指的是具有非常大的参数数量的人工神经 网络模型,在深度学习领域,通常指具备数亿到万亿参数的模型,这些模型通常需要在 大规模的数据集上面进行训练,并且需要使用大量的计算资源进行优化。2018 年 Google 和 Open AI 先后推出的 BERT(Bidirectional Encoder Representations from Transformers)以 及 GPT(Generative Pre-trained Transformer)模型都是突破亿级别参数量的自然语言处 理模型,具备非常好的数据处理效果,并且分别代表了“预训练+微调”(Pre-Train+Fintung) 和“预训练+提示”(Pre-Train+Prompt)两种技术路线。

    在确立了以 TransFormer 为主要技术架构方向后,大模型的发展开始逐步进入加速 阶段,随着模型参数量的增长,带来的处理效果也不断提升。 2019 年,OpenAI 继续推出 15 亿参数的 GPT-2,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。紧接着,英伟达推出了 83 亿参数的 Megatron-LM,谷 歌推出了 110 亿参数的 T5,微软推出了 170 亿参数的图灵 Turing-NLG;

    2020 年,OpenAI 推出了超大规模语言训练模型 GPT-3,其参数达到了 1750 亿,在 两年左右的时间实现了模型规模从亿级到上千亿级的突破,并能够实现作诗、聊天、生 成代码等功能; 2021 年,谷歌推出的 Switch Transformer 模型以高达 1.6 万亿的参数量成为史上首 个万亿级语言模型;同年 12 月,谷歌还推出了1.2 万亿参数的通用稀疏语言模型 GLaM, 在 7 项小样本学习领域的性能超过 GPT-3; 2022 年,Stability AI 发布的文字 到图像的创新模型 Diffusion,以及 OpenAI 推出 的 ChatGPT,ChatGPT 是由效果比 GPT3 更强大的 GPT-3.5 系列模型提供支持。

    2.2. 深度学习+强化学习,推动大模型成为 NLP 重要驱动力

    2.2.1. 凭借历史数据提取特征,机器学习成为 AI 发展重要方向

    模拟人类思维方式,AI 开发面向具体领域。人工智能(Artificial Intelligence, AI) 是一种能够模拟人类智能和思维过程的技术,旨在开发能够自主学习、推理、理解、规 划、感知和适应的智能系统。作为计算机科学的一个分支,它出现于 20 世纪 50 年代, 初始时候的目标主要有两个:1)通过在计算机上建模和模拟来研究人类智能;2)通过 像人类一样解决复杂问题从而使得计算机更加有用。因为 AI 系统的复杂性,研究人员 阶段性地放弃了通用 AI 的研发,转而开始研究面向感知、推理、记忆、语言、运动等 具体领域的 AI 模型。

    AI 领域独立学科,机器学习着力自行习得智能。机器学习从 20 世纪 80 年代开始, 作为人工智能内部一个独立的学科领域快速发展。它能帮助机器从现有的复杂历史数据 中学习规律(提取特征),以预测未来的行为结果和趋势。机器学习的出现,使得人工智 能的工作重心从人工赋予机器智能向机器自行习得智能方向转变。对于机器学习本身, 分为有监督学习、无监督学习、强化学习三大类型。它通过数据获取、预处理、特征提 取、特征选择、推理、预测、识别这几个步骤完成相应的工作。 监督学习:给算法一个数据集,并且给定正确答案。机器通过数据来学习正确答案 的计算方法。 无监督学习:给定的数据集没有“正确答案”,所有的数据都是一样的。无监督学习 的任务是从给定的数据集中,挖掘出潜在的结构。 强化学习:由智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、 奖励(Reward)组成。智能体执行了某个动作后,环境将会转换到一个新的状态,对于 该新的状态环境会给出奖励信号(正奖励或者负奖励)。随后,智能体根据新的状态和环境反馈的奖励,按照一定的策略执行新的动作。


    2.2.2. 机器学习->深度学习,神经网络+海量数据提升学习效率

    免除特征工程工作,深度学习实现端到端解决方案。深度学习(Deep Learning)是 机器学习中的一个分支,从 2006 年开始被提出之后,促使人工智能产业有了革命性的 突破。与传统机器学习相比,深度学习去掉了特征提取(特征工程)部分的工作,着力 于实现端到端的解决方案,让算法自动完成特征工程的内容,此后进行模型训练,开发 者只需要关注参数优化便能够获取效果比较好的模型。 模拟人类神经元传导,感知机成为神经网络基础单元。深度学习的成型依赖于神经 网络技术的发展,神经网络技术最初基于感知机的提出—感知机是最古老的机器学习分 类算法之一,在 1957 年就已经被提出了,感知机通过模拟人类神经元传导的机制进行 输入输出处理,通过 z=w*x+b 来划分数据集,并且模拟人类神经元激活过程来决定最终 输出的内容。

    感知机层层嵌套,搭建深度神经网络。深度神经网络完成在感知机的基础上,对神 经网络进行设计。一个标准的前馈神经网络(FNN)至少由三层结构,输入层、隐藏层 和输出层来构成:1)输入层,主要的作用是对特征矩阵进行输入,每个神经元上都是一 个特征向量;2)隐藏层,主要作用是用于让算法进行学习的网络层级,数据在隐藏层中 间逐层传递,本质是一个感知器嵌套的过程。隐藏层中上层的每个神经元,都与下层中 的每个神经元相连,因此隐藏层的结构随着神经元的变多可以变得非常复杂;3)输出 层,主要用于输出分类、回归等预测结果。

    多层神经网络实现复杂函数逼近,深度模型实现“特征学习”功能。深度学习在标准 FNN 前馈神经网络上,参考人类的多层信息处理系统,通过更多层的神经网络传递来构 建更加抽象的特征表达。不同于普通前馈神经网络对复杂函数的表示能力有限,深度学 习可以通过多层神经网络的叠加架构,实现复杂函数逼近,并展现了强大的从大样本中 集中学习数据集本质特征的能力,最终利用“深度模型”这一手段来实现“特征学习” 的目的。

    2.2.3. 专注人类逻辑思维模式,NLP 成为 AI 重要应用领域

    人类逻辑以语言形式为主,NLP 成为 AI 研究重要领域。因为通用 AI 系统的复杂 性,研究人员的主要精力放在专用领域 AI 的开发上。人类的逻辑思维以语言为形式, 绝大多数知识也是以语言的形式记载和流传,因此 NLP(Natural Language Processing) 自然语言处理,成为专用 AI 最为重要的研究领域。人类希望通过发展 NLP 来进一步了 解人类自身的语言能力和智能机制。同时,自然语言因为其歧义性、进化性、非规范性、 主观性、知识性等多方面的特点,给自然语言处理带来了极大的挑战。


    NLU 解决语言理解问题,NLG 解决语言生成问题。NLP 分为 NLU(自然语言理 解)和 NLG(自然语言生成)两个部分。其中:1)NLU 是所有支持机器理解文本内容 的方法模型或任务的总称,包括分词,词性标注,句法分析,文本分类/聚类,信息抽取 /自动摘要等任务,核心目的是准确识别用户的意图;2)NLG 是一种自动将结构化数据 转换为人类可读文本的软件过程,核心的目的是能够实现大规模的产生个性化内容,帮 助人类洞察数据,让数据更容易理解,加速内容生产等。 深度学习推动 NLP 发展。随着人工智能技术的发展,NLP 也经历了三次迭代:1) 基于规则的方法:通过总结规律来判断自然语言的意图;2)基于统计的方法:对语言信 息进行统计和分析,并从中挖掘出语义特征;3)基于深度学习的方法:代表方法有 CNN (卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)、TransFormer 等。

    2.2.4. 大规模无监督训练技术应用,推动 LLM 成为 NLP 中重要构成

    早期深度学习模型受限于特征抽取器能力,任务效果不够突出。在 2017 年之前, NLP 的核心技术主要是深度学习模型,通过大量的改进 LSTM 模型及少量的改进 CNN 模型作为典型的特征抽取器,以 Sequence to Sequence+Attention 作为各种具体任务典型 的总体技术框架。在以上核心技术的加持下,NLP 的主要研究方向,就是如何有效的增 加模型层深或者模型参数容量。但是,基于 CNN 和 LSTM 的特征抽取器,表达能力不 够强,不能在大数据中有效地吸收相关的知识,因此整体的任务效果并不突出。 2017 年谷歌团队发布论文《TransFormer is all you need》提出 TransFormer 结构, 此后基于 TransFormer 结构的 LLM(Large Language Model)语言大模型 Bert/GPT 先后 发布,使得 NLP 的特征抽取器逐步从 LSTM/CNN 统一到 Transformer 上。其中,Bert 通 过“双向语言模型预训练+应用 Fine-tuning”模式,主要针对自然语言理解类任务;GPT 通过“自回归语言模型+Zero /Few Shot Prompt”模式,主要针对自然语言生成类任务。

    TransFormer 模型强大的特征提取能力,Bert 和 GPT 相关模型不再通过大量的标注 后数据来生成模型,而是通过大量的非标注数据(如维基百科),通过预训练提取相关的 数据特征属性,这种学习方式是无监督的模型。在微调阶段继续使用预训练好的模型参 数,采用自身标注数据在此基础上完成最后一步的监督学习。

    2.3. TransFormer 架构提升学习效率,推动大数据预训练成为可能

    2.3.1. CNN(卷积神经网络)提取数据特征,适用静态图像识别+分割

    在深度学习早期发展的过程中,卷积神经网络(Convolutional Neural Networks,简 称 CNN)是推动深度学习能力发展的主要动力,特别是在图像识别领域。 CNN 的核心是通过合理的神经网络结构来有效的降低神经网络中的参数个数:1) 卷积层中每一个节点的输入只是上层神经网络的一小块,通过卷积层会使得矩阵变的更 深;2)池化层不会改变矩阵的深度,但是可以缩小矩阵的大小,主要功能就是逐步减小 表征空间的尺寸从而减小参数量和网络中的计算复杂度;3)全连接层通过连接所有输 出层的特征信息,并对这些信息进行汇总整理完成输出。


    模拟人类感知过程,通过局部信息抽象特征。在传统的图像处理过程中,通过经典 的神经网络模型,需要读取整幅图像作为神经网络的输入(全连接的方式),当图像尺寸 越大,则连接的参数会变得很多,从而导致计算量非常大。CNN 的连接方式模拟人类对 外界的感知,从局部向全局进行扩散,在图像中局部范围内的像素联系较为紧密,而距 离较远的像素则相关性较弱,因此 CNN 的核心原理就是:对局部信息进行感知,抽象 出特征,并在更高层将局部的信息综合起来得到全局信息,从而降低神经网络中的参数 数目。

    基于 CNN 的基础假设(人类的视觉总是关注视线内特征最为明显的点),因此在机 器学习的神经网络应用中,它主要应用在图像识别中较多。

    2.3.2. RNN(循环神经网络)解决全局记忆,完成 Seq2Seq 问题

    增加时序关系,赋予 RNN 记忆能力。不同于 CNN 的架构,循环神经网络(Recurrent Neural Network,简称 RNN)指在全连接神经网络的基础上增加了对于前后时序上的关 系,可以更加好的处理机器翻译等与时序相关的问题。在传统的神经网络模型中,从输 入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的,这种 结构对于一些问题无能为力,比如预测下个单词是什么,而 RNN 的本质是:像人一样 拥有记忆的能力。

    在 RNN 的循环结构中,每一步输出的结果,会作为下一步的新的输入,也就是上 一个时刻的网络状态将会作用(影响)到下一个时刻的网络状态,表明 RNN 和序列数 据密切相关,从而对于数据具备一定的记忆能力(虽然可能随着序列增加导致前面部分 特征不断遗忘)。同时,对于 RNN 来说并不是每一个步骤都需要有输出,这样可以实现 Sequence to Sequence 这样的不对称输入和输出关系,用来解决机器翻译等问题。 RNN 结构虽然具备记忆能力,但是因为自身结构的原因,每个时间序列中采用相同 的参数,对于序列中出现的所有信息都会尝试记住,这样导致不同重要性的信息具备同 样的权重值。在 RNN 的基础上,LSTM(Long Short Term Memory)模型被提出,它的 核心思想就是:设计一个记忆细胞,通过遗忘门、更新门、输入门、输出门等结构互相 配合,可以选择性的记忆重要信息,过滤掉噪音信息,减轻记忆负担。


    2.3.3. TransFormer 并行计算加速学习效率,成为重要特征提取器

    2017 年 Google 实验室发布论文《Attention Is All You Need》,基于 Encoder-Decoder 架构,由 Attention 的机制来实现 TransFormer 模块。相较于原来的 CNN/RNN 模型结构, 解决了输入和输出的长期依赖问题,并且拥有并行计算的能力,大幅度减少了计算资源的消耗,后续进一步提出的 Self-Attention 机制,让源序列和目标序列做了“自关联”, Muti-Head Attention 模块使得 Encoder 端具备并行计算能力。 注意力机制给予不同权重,输出结果参考输入信息。传统的 Encoder-Decoder 机制 (用于实现 Seq to Seq 任务),所有的输入最终汇聚成唯一的语义编码 C,并且作为 Decoder 的唯一输入,这样对于 Decoder 输出时,所有的输入贡献度权重是一样。在引 入注意力(Attention)机制之后,对于不同的输出会分配不同的语义编码 C,对不同的 输出给予不同的输入权重,从而让系统从众多的输入信息中选择出对当前任务目标更为 关键的信息,将注意力放在上面。

    Attention 机制中,语义编码 C 的权重计算取决于输入 X 和输出 Y 两者所有的元素 之间,但是自注意力机制(Self-Attention)的权重计算无关输出相关元素,只是输入相 关元素之间的 Attention 机制。

    对于 Self-Attention 来说,从输入到输出过程中,对于 Q/K/V 三个向量的生成可以 看作 Wq /Wk /Wv 三个向量的点积。最终的输出可以看作 Q/K/V 三个向量矩阵的点积结 果,因此整个 Self-Attention 的计算过程可以通过并行矩阵计算进行实现,很大程度上提 升了深度学习的计算效率。

    自注意力机制在 Self-Attention 机制上进化出了(Multi-Head Self Attention)多头注 意力机制,通过这个结构(双头或者更多头)可以提高注意力机制的空间分辨度,从更 多的维度对数据特征进行提取,因此也在 TransFormer 模型结构中得到应用。 基于多头注意力机制、Encoder-Decoder 等架构搭建的 TransFormer 模型,能够很好 的完成对于大量数据的特征提取和内容生成,相较于 RNN 网络结构,它没有时序上顺 序依赖,无需逐步递归才能获取全局视野,同时并行计算的优势也提升了系统的计算效 率,因此取代了 CNN/RNN 成为 NLP 中最为重要的特征抽取器。


    2.3.4. 预训练大模型问世,生成式技术路线成为主要趋势

    基于 TransFormer 特征提取器,NLP 发展出两类大参数预训练(Pre-Trained)语言 模型,BERT 和 GPT,其中 BERT(Bidirectional Encoder Representation from Transformers) 的实质是采用 TransFormer 模型的 Encoder 结构,通过“填空题”的方式来完成预训练, 它的优点包括:1)预训练模型,泛化能力较强;2)端到端模型,无需调整网络结构; 3)基于 TransFormer,可以实现快速并行;4)双向模型,可以结合上下文进行训练。 采用 Encoder 结构,通过掩码进行预训练。Bert 模型在 2018 年由谷歌实验室提出, 在 11 项 NLP 任务中均取得 SOTA(state-of-the-art)结果,因此 Bert 以及预训练模型获 得了广泛的关注。Bert 采用的是 Encoder 层的结构,通过自编码(Auto-Encoding)的方 式,能够同时获取到上下文的信息,通过掩码(Masked)来对模型进行预训练,遮掩掉 部分有效数据,训练模型的预测能力,并且对训练完成后的模型通过微调(Fine-Tunning) 的方式来对最终的下游任务进行适应。

    谷歌官方为 Bert 发布了两个版本,Bert_Base&Bert_Large。其中,Bert_Base:L=12, H=768,A=12,Total Parameters=110M;Bert_Large:L=24,H=1024,A=16,Total Parameters=340M。L 为神经网络的层数即深度,H 代表输出的维度,A 表示 Multi-Head Attention 中 Head 的数量,两者参数分别是 1.1 亿和 3.4 亿,属于初代大模型范畴。 除了 BERT 之外,OPEN AI 推出了 GPT(Generative Pre-Training)模型,它是基于 单向的 TransFormer 的解码器模型,GPT 模型中,输入的序列首先被通过一个嵌入层转 换成向量表示,然后输入到 Transformer 解码器中,每个解码器层都由多个注意力头和 前馈神经网络组成,用于逐步生成下一个词语的概率分布。最初的 GPT 模型,也是通过 预训练+微调的方式来解决下游任务。初代 GPT 具备 12 层神经网络,每层具备 12 个 Head,词编码长度为 768,模型参数约为 1.17 亿。


    2018 年刚刚推出的时候,GPT 的自然语言处理能力弱于 Bert,Bert 主要面对自然 语言理解任务,然后完成自然语言生成任务,GPT 跳过自然语言理解任务,直接面向自 然语言生成任务,但随着大模型参数和数据的不断增长,GPT 的技术路线开始“量变引 起质变”,GPT 所代表的生成式大模型逐步成为主流的技术路线。 大模型的生成能力持续提升,结合前文提到的多模态的输入和输出能力,不仅仅在 NLP 领域,大模型在图像处理、语言处理、视频处理等多个维度的应用在不断的加强, 也有望给整个汽车智能化趋势进一步赋能。

    2.4. TransFormer+BEV,加速推动 L3 智能驾驶落地

    2.4.1. 模块化&端到端,智能驾驶两大算法框架

    智能驾驶算法的框架主要有两大类:1)模块化智能驾驶算法方案;2)端到端的解 决方案。截至 2022 年,业界采用最多的自动驾驶架构还是模块化自动驾驶系统,它的 优点是整个架构非常简洁,通过感知层、决策规划层和执行控制层三层来解决整个系统 的感知、决策和执行工作。同时,每一层还可以细分成不同的模块和子模块,这样对于 每个模块的输出结果可以单独进行监控。在自动驾驶开发过程中,不同的子模块可以交 由不同的团队来并行开发,有效提升开发效率。但是缺点就是系统非常复杂和庞大,需 要人工设计所有的模块,并且受困于算力所限,无法对所有的子模块都采用深度学习网 络进行升级。因此对于模块化自动驾驶系统,可能用很少的精力就能够解决大部分的自 动驾驶场景,但是少部分的 Corner Case 会耗费大量的精力去进行一一的标准解决。

    另一种自动驾驶的系统方案是端到端(End to End),核心就是车辆把采集到的信息 (图像数据、点云数据等)直接送入统一的深度学习网络,经过其处理之后直接输出自 动驾驶汽车的驾驶命令(方向盘转角、方向盘转速、车速等)。相较于模块化的系统,它 设计难度低+硬件成本小,易于获得不同场景下的泛化性,但是是一个完全的黑盒,不 具备解释分析性,可靠性和灵活性较差,工程师无法对其进行系统化的解释分析,从而 难以保障系统的安全。

    2.4.2. 借助 TransFormer 模型,特斯拉感知系统全面升级

    实时建图完成环境搭建,协助车辆进行决策。作为纯视觉方案的代表企业,特斯拉 为了更好的通过摄像头来了解其所处环境,并且摆脱高精度地图频繁更新带来的较高维 护成本,希望通过实时建图的方式来完成周围环境的搭建,帮助车辆更好的进行决策。

    在 2021 年 AI Day 上,特斯拉发布了 BEV(Bird’s Eye View)+TransFormer 算法, 将摄像头的二维图像空间(包含景深信息)通过 TransFormer 模型转换成向量空间,使 得多传感器(摄像头、毫米波雷达等)的信号输入能够转换到统一的俯视角度进行处理。

    统一俯视视角共享图像特征,提升算法开发效率。在这样的一个统一的俯视视角下 具备很多的优势:1)解决多传感器融合问题,方便下游任务共享图像特征;2)在 BEV 视角下没有物体变形问题,使得模型集中精力解决分类问题;3)融合多个视角解决遮挡 问题和物体重叠问题。同时,BEV 能够把传统感知方案中 3D 目标检测、障碍物实例分 割、车道线分割、轨迹预测等多项任务在一个算法框架内实现,大幅的减少人力需求, 提升算法开发效率,可以说在感知算法的层面实现了端到端的架构开发。

    BEV(2D)->占用网络(3D),全面提升感知效率。BEV 算法通过 TransFormer 实 现了多传感器二维空间特征往向量空间融合的过程,但是整个 BEV 鸟瞰图是一个 2D 图 像,缺少高度信息,无法真实的反映出物体在 3D 空间实际的占用体积是多少,即使识 别也是通过矩形框进行标记,这种方式会导致细节的损失。为了解决上述问题,特斯拉 在 2022 年 AI Day 上发布 Occupancy Networks(占用网络),它核心思想是把 3D 空间分 为大小一致的 Gridcell,然后判断每个 Cell 是否被占用,它是 BEV 网络在高度方向进行 了进一步的扩展。这种算法带来几个优点: 1)实现了 BEV 从 2D->3D 的优化; 2)有效的解决了垂直高度上不同立方体的空间占用情况; 3)可以实时预测被遮挡物体的状态; 4)10ms 内可以完成计算,处理频率很高; 5)解决了目标检测的长尾问题,即使某些物体不存在于训练集中,但是因为算法 本身进行的是空间占用的检测,不进行目标检测,因此从根本上避免了这个问题。

    参考语言大模型架构,7500 万参数生成矢量地图。特斯拉 FSD 算法在矢量地图生 成过程中也采用了 TransFormer Decoder 算法,把车道相关信息包括车道节点位置、属性 (起点,中间点,终点等)、分叉点、汇合点,以及车道样条曲线几何参数进行编码,做 成类似语言模型中单词 token 的编码,然后利用时序处理办法进行处理,从而获得车道 线之间的拓扑连接关系,在这个基础上进行行驶路径规划,整个矢量地图生成过程中涉 及到 7500 万个参数。

    3. 海内外政策逐步完善,有望加速实现突破

    3.1. 抢占自动驾驶“智高点”,各国加速相关法规政策布局

    汽车产业发达国家高度重视自动驾驶政策布局。自动驾驶技术处于科技应用和产业 创新的最前沿,主要汽车制造大国如中国、美国、德国、日本和韩国等正在积极出台法 规政策以推进自动驾驶商业化部署。目前针对自动驾驶出台的政策可分为四大类:一、 优先开展城市智能网联汽车道路测试,探索构建高级别智能驾驶车辆标准与规则,例如 我国在部分城市地区建立智能网联汽车测试区与划定测试道路;二、强调机动车强制安全标准,推动自动驾驶汽车结构性升级,例如美国调整车辆强制标准等措施,以安全防 护能力为准则促进汽车安全性能提升;三、修订《道路交通法》等法律,明确高级别自 动驾驶中的责任义务,例如德国、日本等修订《道路交通法》等顶层法律,推动高级别 自动驾驶的责任划分与依法应用;四、开展小批量自动驾驶汽车认证,探索自动驾驶车 辆注册与销售规则,例如欧盟允许成员国在特定区域特定场景下开展无人驾驶车辆的注 册与销售,推动相关法规与技术规范的创新。

    目前海内外高级别自动驾驶政策落地正在同步加速。根据我们不完全的统计,仅 2023 年我国就有超过 17 条以上直接面向高级别智能驾驶相关的政策法规发布,其中上 海地区占据了绝对的数量优势。工信部、经信委、交通委等部门纷纷出面牵头制定相关 的政策法规,自动驾驶政策体系不断完善。2023 年 6 月,美国加州机动车管理局(DMV) 批准了奔驰 L3 级别自动驾驶系统的上路行驶申请,今年 1 月,内华达州已经批准了相 关的系统上路行驶申请。国内外监管部门共同发力,有望推动 L3 级别自动驾驶尽快落 地量产。

    3.2. 国内:中央+地方协同完善政策,道路测试+数据安全并举

    央地协力持续完善自动驾驶法律法规体系。2021 年 7 月,工业和信息化部、公安部、交通运输部联合发布《智能网联汽车道路测试与示范应用管理规范(试行)》允许在 充分开展道路测试的基础上开展载人载物示范应用;2022 年 9 月工信部发布的《国家车 联网产业标准体系建设指南(智能网联汽车)(2022 年版)》提出,到 2025 年要制修订 100 项以上智能网联汽车相关标准。国家层面的大力推动得到地方政府的积极响应,2022 年 8 月深圳发布国内首部关于智能网联汽车管理的法规《深圳经济特区智能网联汽车管 理条例》,2023 年 3 月上海浦东实施全国首部“智能网联”地方性法规《上海市浦东新 区促进无驾驶人智能网联汽车创新应用规定实施细则》,无锡、阳泉、德清、成都等地也 积极出台地方政策持续完善自动驾驶汽车监管体系,目前全国已有 50 多个省市出台智 能网联汽车测试规定。

    自动驾驶道路测试先行,加速推动商业化落地。2021 年 4 月,《北京市智能网联汽 车政策先行区总体实施方案》指出,北京将正式开放高速公路场景,开展自动驾驶测试, 同年 10 月北京正式开放无人化测试场景,首批向百度、小马智行两家企业颁发无人化 道路测试通知书,在经开区 20 平方公里范围内、共 100 多公里城市道路上开展无人化 测试。2022 年以来,上海、武汉、杭州等地陆续出台法规对智能网联车辆测试明确监管 要求,截至 2023 年 5 月全国累计发放道路测试和示范应用牌照超过 2000 张,开放测试 道路超过 10000 公里,测试总里程超过 4000 万公里。

    测试规模的累积推动自动驾驶从测试示范迈入商业化探索。北京、上海、广州、深 圳等 10 余个城市已经允许自动驾驶汽车在特定区域、特定时段从事出租汽车、城市公 共汽(电)车等商业化试运营,且应用规模不断扩大。 国内自动驾驶数据合规趋严。2022 年 8 月 30 日国家自然资源部《关于促进智能网 联汽车发展维护测绘地理信息安全的通知》要求高精地图的测绘和制图仅能由国家颁发 导航电子地图制作甲级测绘资质的企业合法操作。2023 年 5 月 12 日北京市高级别自动驾驶示范区工作办公室正式发布《北京市智能网联汽车政策先行区数据安全管理办法 (试行)》,这是全国首个自动驾驶示范区数据安全管理办法,详细梳理了重点数据类型 的合规风险,要求在地理信息安全方面,严格把关相应资质、技术保护与境内范围等要 求。2021 年 5 月特斯拉宣布在中国建立数据中心,实现数据存储本地化,众多跨国车企 陆续在中国建立数据中心,数据本土化成大势所趋。


    3.3. 海外:加快构建规范自动驾驶发展的政策法规框架

    美国强调机动车安全标准,加快调整监管政策。2021 年 6 月美国国家公路交通安 全管理局(NHTSA)要求配备 L2 级别高级辅助驾驶系统 (ADAS)或 L3-L5 级别自动驾 驶系统(ADS)车辆的制造商和运营商,需要提交涉及车辆碰撞事故的报告。2022 年 3 月 NHTSA 出台了首个针对无人驾驶车辆的乘客安全技术规定,强调自动驾驶车辆必须 提供与人类驾驶传统车辆同等水平的乘员保护能力。截至 2023 年 5 月,美国本土已有 40 个州出台了自动驾驶相关法规政策。2023 年 5 月,美国加州通过奔驰 L3 级别自动驾 驶系统上路申请。

    欧盟立法开展小批量无人驾驶车辆的型式认证。2022 年 7 月欧盟强制普及新车辅 助驾驶功能,法规要求汽车制造商在新认证车型上强制配备包括 6 项 ADAS 功能在内 的 30 种安全功能。同年 8 月,欧盟发布自动驾驶车辆型式认证法规,系全球首个允许 成员国批准注册和销售高级别自动驾驶车辆的技术法规,目前此法规只适用于欧盟范围 内小批量的车辆型式认证,大批量的车辆型式认证已纳入欧盟委员会的工作计划中,预 计在 2024 年 7 月之前完成。 德国英国加快完善自动驾驶顶层法律。2021 年 5 月德国正式通过全球首部《自动 驾驶法》,为自动驾驶车辆上路提供合规保障,自 2022 年开始德国允许具有高级别自动 驾驶车辆在德国的公共道路上和指定区域内行驶。在《自动驾驶法》框架下,德国奔驰 获得德国联邦汽车运输管理局允许其销售 L3 级自动驾驶汽车的许可,为奔驰自动驾驶 技术全球推广奠定基础。2022 年 8 月,英国政府发布《网联和自动化出行 2025:英国 实现自动驾驶汽车的收益》,提出了政府在 2025 年之前促使自动驾驶车辆更广泛地的 普及,制定新的自动驾驶立法框架。报告还提出政府将向议会提出新立法,以明确在现 行法律基础上规定制造商需要对自动驾驶车辆的行为负责。

    日韩加速推动自动驾驶商业化落地。2019 年 5 月,日本通过新的《道路交通法》, 允许 L3 级自动驾驶车辆上路;次年 10 月,日本警察厅公布的《道路交通法》修正案允 许 L4 级别自动驾驶车辆上路,于 2023 年 4 月 1 日起正式实施。2022 年 9 月,韩国政 府公布《移动创新路线图》制定自动驾驶普及“三步走”计划,即到年底成为继日本和 德国后,第三个允许 L3 级(有条件自动化)自动驾驶汽车上路的国家;到 2025 年实现 L4 级(高度自动驾驶)自动驾驶巴士、摆渡车商业化;到 2027 年推出 L4 级乘用车。

    持续更迭自动驾驶政策法规已经成为促进自动驾驶技术落地的重要举措。国内有条 件(L3 级别)自动驾驶技术商业化落地的主要难点在于相关责任定义的缺失,在实际操 作中较难界定驾驶员和车企的责任。2021 年 3 月,公安部发布《道路交通安全法(修订 建议稿 )》首次从法律上对自动驾驶汽车的道路测试、通行以及违法和事故责任分担等 进行了规定,尽管 2021 年 4 月《道路交通安全法》并未体现上述规定,但是修订意见稿的发布已经体现了我国对推动自动驾驶实际落地采取的积极行动。目前我国中央+地 方国内相关的政策法规逐步完善,明确 L3 级别自动驾驶功能的责任划分,在限定工况 下责任由提供自动驾驶功能的车企或者第三方供应商承担。清晰的责任认定划分能够有 效的区分车企在智能化维度的能力边界,有望推动智能化行业进程。

    4. 新技术方向确认,产品周期加速助推智能化

    纯视觉方案具备成本优势,多传感器融合用于长尾场景。在之前的智能化进程中, 车企主要分为以特斯拉为代表的纯视觉方案,和其它车企所采用的多传感器融合方案, 相较来说基于纯视觉的方案在成本维度具备更好的优势,但是因为对于 Corner Case 或 者长尾场景的担心,使得绝大多数车企依然采用激光雷达+毫米波雷达+摄像头方案来实 现高级别自动驾驶功能。

    全新架构 FSD 版本开始推送,改善多种自动驾驶场景。特斯拉 FSD V11.4.1 版本在 2023 年 5 月面向北美用户开始推送。根据马斯克的透露,这次的改动在架构上有了非常 大的变化,应该是采用了基于 BEV+ TransFormer + Occupancy Network 的方案。感知能 力在城市街道场景+36%、交叉场景+44%、合并场景+27%、转弯场景+16%。

    特斯拉引领技术方向,高级别自动驾驶方案有望实现降本。特斯拉全新的自动驾驶 架构一经推出,迅速获得业界各家企业的认可,国内主流车企包括理想、小鹏、赛力斯、 比亚迪等车企都纷纷采用 BEV+TransFormer 的方式对全新一代自动驾驶感知方案进行 建模。理想汽车和赛力斯(华为 ADS 2.0)均采用了占用网络的技术,在算法架构上全 面向特斯拉看齐,虽然基于安全考虑,目前推出的城市 NOA 功能都搭配了激光雷达作 为冗余感知配置,但随着算法的成熟,有望降低对于激光雷达的依赖,大幅降低整套系 统的成本,进一步推动高级别自动驾驶渗透率的提升。 新一轮产品周期窗口,城市 NOA 助推智能化功能加速。根据我们的统计数据,2023 年 H2 以及 2024 年是车企智能化新车加速投放的窗口期,其中城市 NOA(类 L3 级别自 动驾驶)功能成为区分车企智能化的关键能力,随着政策法规的落地,有望加速推动汽 车智能化行业的发展。


    (本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

    精选报告来源:【未来智库】。「链接」

    次阅读
    5评论
    32赞同
    收藏
    分享
    5评论
    32赞同
    收藏
    分享

    评论·0

    头像头像
    提交评论
      加载中…

      热门资讯