2024汽车智能化行业报告:智驾算法突破与产业趋势
一、何谓“大模型”?
机器学习:以设定规则+数据喂养驱动算法自成长
机器学习>神经网络>深度学习≈深度神经网络。机器学习用于解决由人工基于if-else等规则开发算法而导致成本过高的问题,想要通过帮助机器“发现”它们“自己”解决问题的算法来解决;机器学习可以分为有监督学习、无监督学习和强化学习等三类。
深度学习是基于深度神经网络的,而神经网络算法是机器学习模型的一个分支,包 括 卷 积 神 经 网 络CNN/循环神经网络RNN等等,自注意力机制(Transformer)则是基于全连接神经网络和循环神经网络的衍生。
深度学习使用多层神经网络,从原始输入中逐步提取更高层次更抽象的特征用于后续算法识别,处理大规模数据是其核心优势。当前,深度学习已经应用到包括图像识别、自然语言处理、语音识别等各领域。
大规模参数赋能神经网络,持续优
AI大模型是指具有超大规模参数(通常在十亿个以上)、超强计算资源的机器学习模型,其目标是通过增加模型的参数数量来提高模型的表现能力,它们能够处理海量数据,完成各种复杂任务。AI大模型的原理是基于神经网络和大量数据的训练,模型通过模拟人脑的神经元结构,对输入数据进行多层抽象和处理,从而实现对复杂任务的学习和预测。AI大模型的训练主要分为:数据预处理、模型构建、横型训练、模型评估等几大步骤,如下:
首 先 , 需 要 对 原 始 数据 进 行 清 洗 、 整 理 和 标 注, 以 便 为 模 型 提 供 合 适 的输 入 。 这 一 阶 段 可 能 包 括去 除 噪 声 、 填 充 缺 失 值 、归 一 化 等 操 作 。
接 下 来 , 根 据 任 务 需 求, 设 计 并 搭 建 一 个 神 经 网 络。 神 经 网 络 通 常 由 多 个 层 次组 成 , 每 个 层 次 包 含 若 干 个神 经 元 。 神 经 元 之 间 通 过 权重 连 接 , 用 于 表 示 输 入 数 据与 输 出 数 据 之 间 的 关 系 。八个步骤2将 经 过 预 处 理 的 数据 输 入 到 神 经 网 络 中 ,按 照 权 重 计 算 得 出 各 层神 经 元 的 输 出 。 这 个 过程 称 为 前 向 传 播 。
在 神 经 网 络 的 每 一 层 之 后, 通 常 会 使 用 激 活 函 数(如R e L U、S i g m o i d或T a n h等)对 输 出 进 行 非 线 性 变 换 , 以增 加 模 型 的 表 达 能 力 。
为 了 衡 量 模 型 预 测 结果 与 真 实 目 标 之 间 的 差 距, 需 要 定 义 一 个 损 失 函 数。 损 失 函 数 会 计 算 预 测 误差 , 并 将 其 作 为 优 化 目 标。 常 见 的 损 失 函 数 有 均 方误差( M S E )、 交 叉 熵 损失( C r o s s-E n t r o p y L o s s )等。
根 据 损 失 函 数 , 选 择合 适 的 优 化 算 法(如梯度下降 、 随 机 梯 度 下 降 、A d a m等)来 更 新 神 经 网 络中 的 权 重 和 偏 置 , 以 减 小损 失 函 数 的 值 。 这 个 过 程称 为 反 向 传 播 。
重 复 执 行 上 述 步 骤 , 直 到横 型 在 训 练 集 上 达 到 满 意 的 性能 。 为 了 防 止 过 拟 合 , 还 需 要在 验 证 集 上 评 估 模 型 的 泛 化 能力 。 如 果 发 现 模 型 在 验 证 集 上的 表 现 不 佳 , 可 以 调 整 网 络 结构 、 超 参 数 或 训 练 策 略 等 。
当模型在训练集 和 验 证 集 上 表 现良 好 时 , 可 以 将 数据 模 型 进 行 部 署 和使用。
大模型:强泛化为核心优势,聚焦自然语言处理
AI大模型能够处理以下几类核心问题:1)自然语言处理:以GPT-3和BERT为例,AI大模型通过学习海量的语料库和上下文,让计算机更加准确地理解和处理自然语言,如翻译、问答、分词、文本生成等领域。2)计算机视觉:以ResNet和EficientNet为例,AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络,使计算机能够对图像进行更加准确的识别和分析,包括目标检测、图像分类、语义分割等领域。3)语音识别和生成。通过以上几类问题的解决,AI大模型可以进一步通过自动化和智能化的方式提高生产效率,在部分工业领域可以实现人机合作或自动化,减少人力成本。
Transformer:架构变化的核心,多模态理解的关键
Transformer是本轮大模型颠覆全行业算法架构的核心,也是多模态模型相比之前单一文本理解模型提升的关键,Transformer赋予算法更精准的特征提取能力,强化理解和识别功能,其独特的自注意力机制是灵魂,即Attentionisallyouneed。
Transformer的优势在于:1)自注意力机制赋予的长依赖语义问题(捕捉间隔较远的词之间的语义联系问题);2)支持并行计算,可极大的提升大模型数据处理效率。
由理解内容至生成内容,多模态大语言模型持续进化。多模态模型是一种能够处理多种类型数据(如文本、图像、音频和视频)的人工智能模型。这种模型的目标是通过结合不同类型的数据来提供更全面、更准确的信息。在自然语言处理(NLP)领域,多模态模型可以用于机器翻译、情感分析、文本摘要等任务。在计算机视觉领域,多模态模型可以用于图像分类、目标检测、人脸识别等任务。多模态大语言(MM-LLMs)即是将多模态模型与具备强大推理和生成能力的大语言模型结合的产物,其难点在于如何对齐本不兼容的图像/视频/文本等的编码器。
视觉表征主框架由CNN切换Transformer,即ViT,其多头自注意力机制赋予模型并行高效计算以及把握前后长时间依赖关系的能力,能够同时接收来自文本/图像/音频/视频的特征Token,并接入全链接层服务于下游的分类任务。ViT成功的秘诀在于大量的数据做预训练,如果没有这个过程,在开源任务上直接训练,其效果仍会逊色于具有更强归纳偏置的CNN网络。
ViT步骤分为三大步:
图 形 切 块PatchEmbedding; 位 置 编 码PositionEmbedding;
特 征 提 取ClassToken;注 意 力 权 重 赋 予TransformerEncoder;
多头输出MLPHead。
CHAT GPT横空出世,持续进化引领AIGC浪潮
GPT1:用Transformer的解码器和大量的无标签样本去预训练一个语言模型,然后在子任务上提供少量的标注样本做微调,就可以很大的提高模型的性能。
GPT2:Zero-shot,在子任务上不去提供任何相关的训练样本,而是直接用足够大的预训练模型去理解自然语言表达的要求,并基于此做预测。但GPT2性能差,有效性低。
GPT3:few-shot learning,兼顾少样本和有效性。用有限的样本,模型可以迅速学会任务。
GPT4:GPT1~3本质还是通过海量的参数学习海量的数据,然后依赖transformer强大的拟合能力使得模型能够收敛,因此不具备文本生成能力。ChatGPT则在此基础上,依赖指令学习(Instruction Learning)和人工反馈强化学习(RLHF)进行训练,对原有模型进行有监督的微调(人工优化数据集)+强化学习对模型生成结果进行打分,提高泛化能力,在此基础上loss持续迭代,生成正确结果。相比GPT3规模大幅提升,从1750亿提升至1.8万亿,算力需求大幅提升。图:ChatGPT模型的训练过程12
GPT4o:完全统一多模态。o即omni,意为“全体”、“所有” 或“全面的”,打通多模态间输入交互,延迟降低并完全开放免费,并进一步增强推理能力。但其依然是基于Transformer架构去实现对于模态信息的理解和生成,因此并未有底层架构的创新。
Sora发挥DiT模型优势,利用大数据实现文生视频
Sora模型充分利用扩散模型(DiffusionModel)精细化生成能力以及Transformer的前后文全局关系捕捉能力,实现视频每一帧的图像精确生成以及前后的时空一致性。
Sora可以理解为是OpenAI大模型技术的完全集成,其原理可以分为三步:1)首先,模型将视频压缩到低维潜在空间中,然后将其分解为patch(类似于GPT中的Token),从而将视频完全压缩。2)其次,视频patch在低维空间中训练,扩散模型通过在训练数据上逐步添加高斯噪声并学习如何逆向去除噪声的过程来生成新数据,并整合了Transformer的多头注意力机制和自适应层归一化,提升扩散模型在处理连续大规模视频数据时的稳定性和一致性。3)最后,模型通过对应解码器,将生成的元素映射回像素空间,完成视频生成任务。
Sora的核心DiT模型:Transformer架构取代原有UNet架构(本质为CNN卷积神经网络),提升长时间性能的同时具备可扩展性+灵活性,并支持跨领域扩展,或可应用至自动驾驶领域。
视频生成VideoGeneration是世界模型WorldModel的基础,Sora的成功使得DiT扩散模型收敛为视频生成的主导方式。基于对历史信息的理解生成对于未来的预测进而合理表征,并结合可能的行为action进一步辅助预测可能的结果,可应用于包括直接的视频生成以及自动驾驶和机器人等通用人工智能多个领域。
基于数据,超越数据。传统大模型要适应新的精细任务时,必须基于数据对模型参数进行全面微调,依赖【预训练】环节,不同任务与不同数据一一对应,模型专业化。相比过往大模型强调的模态信息理解的能力,世界模型更加注重【因果和反事实推理、模拟客观物理定律】等规划和预测的能力,并具备强泛化和高效率等性能表现。
传统的多子函数模块化算法演变为世界模型数据闭环训练,持续优化提升算法认知。世界模型在进行端到端训练的过程为:
观测值经过V(基于Transformer的VisionModel,图中为早先采用的VAE架构)提取feature,然 后 经 过M(基于LSTM的Memory)得到h(预 测 值),最后预 测 值 和 历 史 信 息 合 并 至C(Controller)得到动作,基于动作和环境交互的结果产生新的观测值,保障车辆做出合理行为。
二、车端:大模型重塑智驾算法架构
智能驾驶软件分类:底层调动支持+上层应用赋能
底层调动支持:1)异构化底层软件配合SoC异构芯片支持不同类型的功能实现落地。用于智驾域控的SoC异构芯片是高度集成化的,除多核CPU外,还会集成DSP/NPU或其它专用计算加速单元。在此硬件上进行匹配的异构软件,多核CPU经过虚拟化之后,可以在不同的虚拟机上运行不同的操作系统,例如运行Linux来充分利用Linux社区丰富的软件生态,运行QNX/VxWorks来达到更好的实时性。2)SOA中间件提供标准化接口服务。SOA中间件能屏蔽不同服务间软硬件异构平台的差异性,一方面让异构平台都能够以SOA的方式交互,另一方面让通用的功能逻辑能在不同硬件平台之间移植。
比如将DSP或NPU的使用封装在特定的库中,对外呈现为标准SOA服务。3)软件框架:即可复用的设计构件,它规定了应用的体系结构,代表已经完成项目的底层开发基础搭建,可以在其基础上差异化开发的半成品。可以让使用者减少很多重复的代码、让代码的结构更加清晰,耦合度更低,后期维护方便。
上层应用赋能:算法:即解决某一类问题的特定策略机制,不同算法解决同一问题时的质量优劣不同,这将影响程序的效率。一个算法的评价主要从时间复杂度和空间复杂度来考虑。
What:传统汽车时代,狭义的操作系统指操作系统内核;当前智电汽车域控时代,系统更加复杂,因此需要基于内核进行大量工程优化以后方可直接开发上层应用软件,中间件和功能软件即由工程优化算法标准化后所得。当前广义操作系统包括内核以及中间件和功能软件等几部分。
How:高性能、高安全、跨平台、高效开发应用。操作系统要求较强实时性,系统任务调度时钟周期在毫秒级;且提供高可靠性和较强功能安全。未来,行业舱驾一体化等集中式EE架构还要求操作系统保证合理共享算力资源,支持系统快速OTA迭代。
底层支持软件相对标准化,通用性较强。1)操作系统内核(Kernel):即为狭义操作系统,如OSEKOS、VxWorks、RT-Linux等。内核提供操作系统最基本的功能,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定着系统的性能和稳定性。2)中间件:处于应用和操作系统之间的软件,实现异构网络环境下软件互联和互操作等共性问题,提供标准接口、协议,具有较高的移植性,如POSIX/ARA(自适应AutoSAR运行时环境即中间件API接口)和DDS(分布式实时通信中间件)。3)功能软件:主要指自动驾驶的核心共性功能模块。
上层应用算法:感知-规控-执行三大模块
车端上层应用算法分为感知(Perception)/规控(PlanningandDecision)/执行(Motionandcontrol)三大模块。感知模块的输入可以是各种传感器:摄像头、激光雷达、毫米波雷达等,同时感知也会接受车身传感器的信息来对感知结果进行修正。决策规划模型又分为行为决策、轨迹规划、轨迹生成等模块。控制模块主要分为横向控制与纵向控制,横向控制主要是控制转向系统,纵向控制涉及油门与刹车的控制。
模块化的软件算法早期具备可解释性强、安全性强、灵活性高的优点,但过于依赖先验数据,无法实时更新,且穷举法终究没办法覆盖所有长尾场景,因此随智驾等级提升,正逐渐被大模型端到端所取代。
算法持续升级,多模态大模型重塑车端算法架构
多模态数据喂养软件算法,驱动功能进化。硬件端升级提供多样化数据,智驾传感器由单目视觉向双目视觉以及视觉+雷达的方向演变,多传感器支持对周围环境的更精确识别,图像/点云等数据呈现方式多样化,数据赋能算法升级,支持智驾功能由L3级别以下向L3及以上迭代升级。
场景泛化是智驾能力提升的重要方向,数据需求量激增驱动算法由小模型切换为大模型。智驾软件上层应用算法中,感知能力提升核心系场景识别能力的泛化,规控能力提升核心系场景处理逻辑的泛化,均以有效数据量为核心驱动,数据处理/利用等是瓶颈。DNN/CNN/RNN小模型切换为Transformer大模型赋能多模态数据处理,重塑车端算法架构,以支持更高级别智驾功能。
世界模型(自学习,强泛化,高效率)或为通向L4级完全自动驾驶的必由之路。数据赋能催化模型自学习,理解物理世界基础运行规律,模型“认知能力”提升,或可实现完全自动驾驶。
产业对于智驾功能持续迭代的诉求驱动车端/云端算法持续升级。1)阶段一:L3以下。OEM搜集数据清洗标注后训练,算法基于特定规则,场景泛化能力较差,数据以及标注工程师均为瓶颈。2)阶段二:L3级别。Transformer赋能,大模型端到端算法落地,自动化标注多模态数据,并快速提升数据利用效率,数据与算法能力形成正循环,场景识别的泛化能力提升。3)阶段三:L3以上。车端算法完全端到端,Learning-base主导算法训练,强化算法感知以及规控端的泛化能力,算法认知规划能力提升,逐步支持完全自动驾驶。
精确感知为跃升L3的瓶颈,BEV+Transformer架构上车支持产业化解决方案落地。L1-L2:智驾迭代主要集中在感知维度的升级,不包含规控以及执行端底盘的变化。由L2-L3的过程,则是由以人为主体逐步切换为人车共驾,【外部环境的精确感知问题】为瓶颈。当前,低成本的软件算法升级(BEV+Transformer)基本取代高成本解决方案(激光雷达+高精地图),推动产业化。
传统CV小模型架构下,感知能力升级更依赖硬件。依赖摄像头+激光雷达/毫米波雷达等能够感知三维深度的硬件实时描绘周围环境,并配合高精度地图提供的先验信息辅助判断;算法领域,以CNN卷积神经网络进行图像的特征提取和目标识别,RNN大规模记忆处理时间序列数据。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)