2024自动驾驶行业报告:技术突破与市场展望

自动驾驶需求确定性高,商业模式构建进行时

高阶自动驾驶密集落地,汽车智能化下半场加速演进

车企纷纷加码汽车智能化,冲击自动驾驶高地。在智能化时代,车端的功能日益丰富,汽车正转型向智能移动终端;随着自动驾驶技术路线逐渐明朗,车企纷纷布局以人工智能为核心的自动驾驶,以在智能化时代取得先机并扩大影响力:比亚迪宣布将在智能化领域投入1000亿元,目前整车智驾团队工程师已有超4000人;华为智能汽车解决方案BU成立至2023年累计投入超300亿元,研发团队规模达到7000人;小鹏汽车公布其每年对包括智能驾驶的AI技术研发投入约35亿,现有团队近3000人,2024年将要扩展到4000人;理想汽车也表示其智驾研发团队在2024年底将扩张到2000人;此外,上汽、蔚来、吉利等车企也在持续布局自动驾驶领域。车企正加速布局自动驾驶领域,车辆自动驾驶能力迅速提升。

2024自动驾驶行业报告:技术突破与市场展望

自动驾驶待跨鸿沟,消费者需求意愿至关重要

技术采纳生命周期理论认为,新技术/产品被用户接受是分阶段的。根据该理论,高阶自动驾驶仍处于早期市场。根据乘联会、汽车工业协会等数据计算,2023年乘用车L2辅助驾驶(不含高阶自动驾驶)搭载率约38.96%,L2辅助驾驶因其较低的价格与简单可靠的功能,已经取得用户的信任,实现鸿沟的跨域;但是高阶自动驾驶仍处于早期市场阶段,2024年1-2月高速NOA与城市NOA的渗透率约7.62%与3.85%,到主流市场仍需要跨越巨大的鸿沟,首要任务是博得实用主义大众的选择。高频使用、无感体验、高用户粘性是满足消费者驾驶场景偏好的重要因素。(1)高频使用:反映产品是否满足驾驶场景的功能性需求,高频使用的产品一定是场景中最必不可少的产品,其功能是围绕核心需求展开。(2)无感体验:决定产品能否在驾驶场景被优先选择,消费者愿意为以最少方式提供最大便利的产品买单。(3)用户粘性高:产品深入消费者习惯,稳定用户群体加速渗透率增长,当产品具有一定规模的稳定用户后,则会产生一定的扩散效应,观望中的消费者通过口口相传或亲身体验,快速转化为用户,愿意为产品买单的人有望滚雪球式增多。

自动驾驶需求确定性强,渗透率有望快速提高

动驾驶契合消费者需求,逐渐成为影响消费者购车的重要因素(1)高频使用:根据亿欧智库调研数据,在车辆具有高速NOA功能的用户当中,有41.1%的用户每周使用高速NOA功能2-3次,有35.7%的用户每周使用该功能高达8-10次;在车辆具有城市NOA功能的用户当中,有40.6%的用户每周使用城市NOA功能2-3次,另外更是有25.0%的用户每周使用该功能高达8-10次。


(2)无感体验:人驾会大量消耗驾驶员的体力与精力,长时间开车带来的驾驶疲劳不可避免。与以往汽车的发展迭代相比,自动驾驶最大的不同在于将人从驾驶中解放出来,驾驶员不仅不用机械重复动作、时刻集中注意,还能够节省出大量的时间与精力用于更有价值的事情,自动驾驶技术为驾驶员提供了极大的便利。当前,驾驶员可以不知道车上传感器如何工作、车辆如何决策,但在可以使用的路段,高阶自动驾驶已经能够暂时替代驾驶员的大部分职能。伴随着互联网成长起来的千禧一代已经成为汽车购买的生力军,消费者所看重的不再只有汽车的功能性与实用性,舒适性与个性化也成为重要考量因素。减轻驾驶疲劳是当前消费者最急迫的需求,而自动驾驶能够缓解驾驶疲劳,带来出行的无感体验,具有极大的用户价值。


自动驾驶契合消费者需求,逐渐成为影响消费者购车的重要因素(3)高用户粘性:当前的辅助驾驶功能已经具有高用户粘性,反映了功能正在塑造用户习惯,逐渐成为不可替代的功能,这是消费者接受自动驾驶技术最直观的展现。在用户层面,根据亿欧智库调研数据,在车辆具有高速NOA功能的用户当中,有42.9%的用户在每次途径高速与高架时都会开启高速NOA功能;在车辆具有城市NOA功能的用户当中,有31.2%的用户在任何场景都会开启城市NOA功能。在行驶里程渗透率层面,依据小鹏汽车数据,2023年在能够使用NGP与XNGP的路段,已经有40%的里程都是辅助驾驶系统自己行驶。除此以外,在行驶里程上,根据特斯拉的数据,截至2024年4月,特斯拉FSD累计行驶里程已经突破10亿英里,并且还在持续扩张中。用户使用自动驾驶功能的里程不断增加、使用的频率不断增加,成为用户习惯的一部分,反过来也塑造了用户对于购车的选择。


消费者自动驾驶付费意愿出现倒挂,功能完成度是关键未来智能驾驶配置渗透率有望持续提升,且随自动驾驶功能向高级化发展,三大因素将逐级强化,与消费者贴合将更加紧密。L2辅助驾驶主要聚焦在单一路段的单一功能,具有有限的ODD(设计运行范围),因而需要大量接管,消费者仍不愿为普通L2功能花费更多;高速NOA相对于普通L2功能ODD扩大,对用户来说能够在高速场景一直使用;而根据小鹏汽车数据,一位车主的平均总用车里程和用车时间中,城市道路占比高达71%和90%,城市NOA能够覆盖更广的使用场景,意味着用户疲劳的进一步降低,消费者使用自动驾驶的机会将更多,消费者培育新习惯的时间也将缩短,消费者买单的意愿理应更强。从现实层面看,消费者付费意愿与功能完成度挂钩。消费者对高阶自动驾驶已经具有初步的认知,对城市NOA等功能的兴趣也在提升。但总体上,消费者仍认为城市NOA没有高速NOA重要,这也导致非常普遍的“自动驾驶华而不实”观点,在付费意愿上出现“越高级,越不买单”的倒挂现象。我们认为这一现象的原因是当前阶段代表自动驾驶最前沿的城市NOA功能发展仍不成熟、尚未达到“可用”标准,产品价值并没有体现;反观高速NOA已经基本达到“好用”水平。

2024自动驾驶行业报告:技术突破与市场展望

降本:科技平权,供给驱动向需求驱动演变的关键

自动驾驶的角逐渗透至20万元以下乘用车市场。早期大众多是实用主义者,其最重要的特点是希望看到竞争,其中一个原因是为了降低购买成本,因而对价格相当敏感。目前高阶自动驾驶功能的价格区间正在不断下探,2023年的新能源车中,高速NOA功能已经渗透至10-20万区间,城市NOA功能也已经下探至20-30万区间。根据中国乘用车市场的价格结构来看,2024年1-2月20万元以下价格区间的乘用车零售销量占到总销量达到70.5%,高阶智驾功能仍有广阔的渗透空间。


小鹏汽车宣布将推出10-15万级别的A级汽车,并且将高等级的智能驾驶带入其中,未来也将推出十几款车型使便宜的自动驾驶时代快速到来。大疆宣布极致压榨硬件性能和算法优化成行平台方案能够在100TOPS算力内实现的“无图”城市领航功能,技术将逐渐普及至15万元级别及以上的各类车型,而整套方案成本仅为7000元。


L2及以上辅助驾驶功能搭载车型价格不断下沉,软硬捆绑为主要收费方案。根据高工智能汽车数据,搭载L2(含以上)功能的车型,其交付均价已经由2018年的33.61万元下探到了2022年的25.15万元。在自动驾驶成为竞争焦点的当下,L2功能成为车企难以忽视的智能化标签,车企也愿意更多车型搭载L2功能以增加卖点。车企多采用软硬捆绑方案,即L2功能的价格包含在车价中,购车后无需单独付费开通L2软件功能。尽管L2功能的成本在下降,但是软件与硬件的成本并不为0,可以发现在2023年上半年,搭载L2(含以上)功能的车型的交付均价回升至26.62万元,一定程度反映出在价格战愈发激烈的市场环境中,价格敏感的中低端车型会对L2功能进行更多的选装,以获取更强竞争力。


车企对于城市NOA的标准收费方式可以分为四类,短期以价换量,长期将回归价值,有望实现自动驾驶软件盈利。城市NOA尚未广泛渗透,对于车企来说,当前阶段使得更多的用户能够触及自动驾驶,形成用户基本盘是首要任务,培育消费者对自动驾驶的认知已经成为市场共识,因而车企在各自的城市NOA收费基础方案上都做出力度相当大的优惠活动长期来看,随着消费者与车企对自动驾驶的价值达成共识,作为产品的自动驾驶或将成为主流,在实现一定的规模后,靠“卖软件”实现自动驾驶的盈利将成为可能。

Sora与世界模型共舞,智能驾驶升级加速

Sora横空出世,世界模拟器惊艳世人

Sora凭借惊艳的视频生成效果和分钟级的时长引领市场。前述视频生成模型所遇到的问题在Sora诞生后出现根本改变。2023年2月16日凌晨,OpenAI发布了文生视频大模型Sora,能够根据用户提供的文本描述生成长达60秒的视频,同时视频精准反应提示词内容,复杂、逼真、效果惊艳,引燃市场热情。对比其他的视频生成工具,Sora的性能优异呈现出碾压式的优势。


(1)视频时长:可生成时长长达1分钟的视频,并且品质优异、内容稳定;(2)场景复杂内容逼真:可生成主题精确背景细节复杂的场景,视频效果逼真。(3)语言理解能力优异:能够深入理解提示词并且精准、忠实表达。(4)灵活度高:可随意生成不同时长、长宽比、分辨率的视频。Sora是扩散模型和Transformer以及视频压缩网络的综合体。Sora的主干网络是DiffusionTransformer模型,在训练过程中采用了特殊设计的编码器将图像和视频信息进行编码,之后将视频数据压缩为隐变量,输入DiffusionTransformer模型中对模型进行训练。推理的过程中,将自然语言(文字)或者图像乃至视频作为提示词输入到模型中,通过扩散模型输出相应的去噪之后的隐变量并通过解码器将信息解码成为视频,即可输出品质优越的视频结果

2024自动驾驶行业报告:技术突破与市场展望

在对Sora进行大规模训练的过程中,OpenAI还发现模型具有更多的能力,即对现实世界的基础规律产生一定的理解。这使得它可以模拟现实世界中的人物、动物、环境等。(1)空间一致性:Sora能够生成带有动态摄像头的运动视频,随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。(2)时间一致性:在Sora生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。(3)因果一致性:Sora生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能在汉堡上留下痕迹。(4)Sora还能够模拟人工过程,如视频游戏,可用基本策略控制《我的世界》,无需特殊的微调,在Sora中提示“我的世界”即可实现。

世界模型——预测未来的“梦境”近期自动驾驶领域掀起开发世界模型的热潮,关于世界模型,谷歌在2018年发表了影响深远的论文《WorldModels》,对世界模型进行了定义——即根据世界运行的规律可以预测未来的“梦境”。人类的思考和行为会参考大脑中的“世界模型”,甚至人的感知亦是对外部世界的抽象和预测,而最简单的世界模型构成即为感知+记忆模块,将外部环境的信息压缩并理解进而预测未来。对自动驾驶而言,世界模型具有重要的意义:(1)可以构建闭环的验证测试体系,对端到端算法来说,构筑闭环的验证体系难度大且必要性强;(2)可以作为训练数据的生成器,生成诸多长尾场景供自动驾驶算法训练时使用;(3)可以直接作为自动驾驶算法的决策器,当模型可以预测未来路况,其实也可以预测驾驶员应当执行的行为。目前已经有诸多玩家如特斯拉、英伟达、Wayve等玩家开始构建自己的世界模型。


特斯拉在2023CVPR上对其端到端模型进行了简单的介绍,希望能够构建一个完整的4D神经网络,能够理解世界运行的规律。具体而言,世界模型可以根据过去的视频预测未来场景的演化,具体而言拥有几大功能:(1)预测未来;(2)在没有本体实体的情况下帮助网络学习;(3)行动本身可以作为生成的条件;(4)车辆本身的行为会影响生成的效果,比如左转右转会分别生成不同的视角。(5)可以用于仿真;(6)可以生成图像、几何空间的信息、语义信息等;(7)泛化性比较好。世界模型呈现出对物理世界一定程度的模拟。特斯拉发现网络可以联合预测汽车周围8个摄像头的信息;同时各个摄像头的颜色保持一致,表明可以更好地预测传感器的特性;此外尽管开发者没有要求它以三维或者非三维的方式进行计算,但是网络自行理解了三维空间的概念,视频中运动的物体也具有一致性,通过自然语言的提示,模型可改变视角;其可根据要求以相同的起点生成不同的结局;对视频语料的适应性好,可以通过行驶记录、油管或者自己手机中的数据来训练这个模型。


GAIA-1亦可实现对场景的理解。英国的端到端自动驾驶公司Wayve.ai在2023年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频。模型可以生成分钟级的视频,同时可以生成多种合理的未来,帮助自动驾驶模型的训练和仿真。多模态数据训练后的模型亦呈现出对驾驶场景出人意料的认知。GAIA-1模型呈现出一些有趣的特点:(1)学习到了高级结构和场景动态:可以生成连贯的场景,其中的对象位于合理的位置并且展示出合理的交互状态,如路灯、道路规则、让路等,表明模型不仅记住统计模式,还理解控制世界上物体的排列和基本规则。(2)拥有强泛化性和创造性:可以产生训练集中尚未明确出现的的对象和场景。(3)拥有情景意识:可以根据上下文的信息生成连贯的动作和响应,并展示出对3D几何的理解以及道路使用者决策过程中的因果关系的理解,如可反应道路不平整引起的视角俯仰等作用。


英伟达的基础模型基于多模态数据训练,可生成逼真且灵活变化的驾驶场景视频。英伟达在近期2024年GTC大会上也展示了其在世界模型领域的新进展,通过将多模态数据输入模型训练并让模型预测未来驾驶场景,自动驾驶基础模型可以稳定生成多个摄像头拍摄到的逼真的驾驶场景演变,此外通过语言提示词也可以使得模型呈现的场景灵活变化,如告诉模型视角为前视摄像头,汽车正行驶在雪天的道路上,两侧道路的树木被雪覆盖,道路上也有雪散落,模型可以生成逼真的驾驶场景。

Sora和世界模型殊途同归,互相促进推动自动驾驶前行

模拟真实世界,预测未来是共同的目标。OpenAI给自己的Sora模型起名叫做Worldsimulator(世界模拟器),无独有偶,视频生成公司Runway在接连发布了Gen-1和Gen-2视频生成软件后,表示将进军通用世界模型的构建,以更好的理解和预测视觉世界及其动态。在视频生成领域,要想实现进一步的视频生成效果提升,让模型理解物理世界的规律似乎为必经之路。


在自动驾驶领域包括特斯拉、Wayve等公司均通过视频训练来构建自己的世界模型,各类玩家逐步走向相似的方向。技术上来看,算法架构存在共性。从模型结构来看,无论世界模型、Sora,都采用编码器将复杂的外部世界编码、压缩成为潜在空间的向量,在潜在空间中预测未来,并将结果通过不同类型的解码器解码成为所需要的信息形式如点云、视频、控制信息等。而自动驾驶和视频生成的目标均为长时间的生成稳定性、前后一致性高的视频信息。集结最优秀人才和资源,产业发展有望加速。我们已经看到Sora出现后,OpenSora、Vidu等新兴视频生成算法表现出优异的性能。我们认为视频生成、大模型领域以及自动驾驶领域汇集全球最优秀的人才和最丰富的资源,有望互相促进,Sora的构建和发展有望为自动驾驶带来启发,推动产业加速前行。

端到端成为共识,大模型时代到来

端到端自动驾驶已经成为市场共识算法从基于规则逐步走向基于学习,从模块化走向端到端。自动驾驶逐步从基于规则走向基于神经网络,从感知到规控,越来越多的环节人工代码被神经网络所替代,模型的能力和适应性不断提升。端到端算法基本形成三大方向目前端到端的自动驾驶算法逐步形成三大方向:(1)显式的端到端模型+自动驾驶:将不同的自动驾驶算法环节神经网络化,并进行拼接形成端到端算法。(2)基础模型(隐式端到端)+自动驾驶:采用大的神经网络,输入端对接传感器数据,输出端对接轨迹输出或控制信号输出。(3)大语言模型+自动驾驶:通过对多模态的大语言模型进行提示,让大语言模型实现场景理解、决策、行为输出等步骤进而实现自动驾驶。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024食品饮料行业:估值底部与增长潜力分析

2024-06-10
下一篇

2024年电动车行业财务分析报告

2024-06-10