2024年智能驾驶行业分析报告

特斯拉FSD的发展历程——化繁为简

1.1.1FSD是特斯拉辅助驾驶方案中功能最完整的产品

特斯拉的自动驾驶方案包括基础版自动辅助驾驶(AP)、增强版自动辅助驾驶(EAP)、以及完全自动驾驶(FSD);其中,FSD全称FullSelf-Driving(完全自动驾驶),是特斯拉辅助驾驶Autopilot产品组合中功能最完整的产品。u功能上来看,特斯拉FSD除基础的主动巡航及车道维持居中外,还可以实现:1)自动辅助导航驾驶,包括自动驶入和驶出高速公路匝道或立交桥岔路口,超过行驶缓慢的车辆;2)自动辅助变道,包括高速公路上自动辅助变换车道;3)自动泊车,包括平行泊车与垂直泊车;4)智能召唤则是在合适的场景下,停在车位的车辆会响应召唤、驶出车位并前往车主所在位置;5)交通灯、标志识别;6)市区自动辅助转向,检测车道、车辆和障碍物,并操作车辆进行转向;7)自动速度偏移调整,可根据不同的环境和场景,自主调整车辆的行驶速度。

1.1.2特斯拉作为纯视觉方案引领者,摄像头是FSD智驾的核心

不同于大部分国内厂商多传感器融合方案,特斯拉FSD自动驾驶是以摄像头为核心的纯视觉解决方案。u纯视觉方案的最初设计灵感来自对人类视觉的研究;即人眼睛搜集的信息到达视网膜后,经过大脑皮层的多个区域、神经层,最终形成生物视觉,并在脑中生成图像。特斯拉的目标就是通过算法、软件及硬件来设计汽车的视觉皮层,建立像人脑一样的、基于视觉的计算机神经网络系统。u首先,在特斯拉汽车行驶过程中,车辆通过摄像头收集环境图像信息;特斯拉HW2.0/2.5/3.0版本硬件都配备了8颗监测不同方位的摄像头,分别为三颗前置摄像头(其中1颗主摄像头、1颗广角摄像头、1颗窄视长焦摄像头)、2颗前侧摄像头、2颗后侧摄像头、以及1颗后置摄像头。

2024年智能驾驶行业分析报告

可以看到,车辆周围的8个摄像头通过神经网络生成三维向量空间;向量空间中包含了自动驾驶所需要的信息,如线条、边缘、路缘、交通标志、红绿灯、以及汽车的位置、方向、深度、速度。流程来看,由“眼睛(摄像头)”获得的上述信息将在神经网络“大脑(处理器)”中进行处理判断,然后给“腿脚(行驶车辆)”下达动作指令。


自动驾驶的算法模块通常分为“感知”、“决策规划”、“运动控制”。其中,“感知”模块是自动驾驶的核心,大部分的技术升级都集中在感知模块,其目的是让车辆对驾驶环境的“感知”达到人类感知的级别;而“决策规划”则是基于“感知”模块输出的结果,通过规划汽车行为和行车路径,使得汽车达到指定目的地,且尽可能确保行车安全性、效率性和舒适性。u感知层面,特斯拉经历了由“特征提取网络RegNet”向“BEV+Transfomer”、再向“BEV+Transfomer+OccupancyNetwork”转变,决策规划层面则自2021年由“Rule-based”向“Machinelearning-based”逐步倾斜;直至2024年1月,特斯拉通过推出FSDV12Beta,成为全球首个“端到端”神经网络量产上车的企业,实现了感知、决策、规划相融合。


1)2016-2018年:特斯拉采用常规的骨干网结构,并对数据采取人工标注。u2014年特斯拉发布的第一代硬件Hardware1.0,软硬件均由Mobileye提供;然而在2016年特斯拉发生的“全球首宗自动驾驶致命事故”,导致双方合作结束。u2016年特斯拉开启自研算法阶段,首先对数据采用人工标注,并通过Facebook提出的特征提取网络RegNet进行物体识别。初始的数据都是需要人工来标注,如将图像中的物体(人、车、马、狗等)形态、类别及对应坐标一并输入到神经网络中,神经网络就对上述物体有了一定的认知。随后,采用特征提取网络RegNet进行物体识别;在该特征提取网络中,最底部有着极高的分辨率和较低的通道数用于检查图像细节,而在顶部有着极高的通道数和较低的分辨率则用于理解场景上下文语义信息。比如分辨率最高的一层看到一辆车、但不太确定,最后一层分辨率最低的就通过语义关联告诉第一层这极有可能是一辆车,这样就完成了一次识别。


2018-2019年:构建多任务神经网络架构HydraNet(“九头蛇网络”)。u特斯拉构建了多任务学习神经网络架构HydraNet,能够基于相同的视频输入,分别进行若干任务(检测或判别);将上述任务聚合在新的架构布局中,使他们拥有共享的Backbone(骨干),并将分支分成若干个Head(头部),这种架构被称为HydraNets。HydraNet能够减少重复的卷积计算,减少主干网络计算数量,还能够将特定任务从主干中解耦出来,进行单独微调,比如车道识别、红绿灯识别等任务都有专门的Head来负责,减少不同任务间的相互干扰。出现的问题:1)自动驾驶依靠过去的「2D图像+CNN」实现全自动驾驶的可能性较低,主要系摄像头采集的数据是2D图像,但自动驾驶需要面对的却是三维真实世界。2)随着数据的逐步增加,出现人工标注效率低、且沟通成本高等问题。


3)2019-2020年:感知层引入BEV+Transfomer架构实现图像升维,并使用自动标注系统;FSD首次发布并上车内测。u在特斯拉看来,2D图像升维的最佳方式是BEV(鸟瞰图),目的是建立一个从空中俯瞰的平面图,来描绘车辆周围的事物以及他们的位置关系。那么需要做的是,将8个摄像头拍摄的画面物体投射到2D画面当中,画中的像素就相当于大语言模型中的分词,像素与像素之间、或者说是特征与特征之间存在长距离依赖关系,由此通过Transformer中的注意力机制把每个像素映射到相对应的地方;而且,即便是某个摄像头的画面像素被暂时地遮挡,也可以根据依赖关系继续存在。Transformer的引入,使得BEV视角在自动驾驶领域得以实现;而3D空间的引入,也使得自动驾驶的思维方式更接近于真实世界。u2018年特斯拉自建了标注团队,人员规模超过1000人;随着数据的扩大,人员及成本压力较大。2020年开始,特斯拉研发并使用了数据自动标注系统;在车辆行驶过程中,摄像头收集的路面信息,打包上传到服务器的离线神经网络大模型,由大模型进行预测性标注,再反馈给车端各个传感器;特斯拉进入“半自动标注”阶段。资料来源:汽车之心、Bilibili、智驾最前沿、第一财经、华金证券研究所图:特斯拉通过采集2D图像建立鸟瞰平面图u软件方面:1)2020年10月,特斯拉FSDBeta版本首次发布并开启内测;2021年初,马斯克宣布FSDBeta编号从V8.1开始。2)FSD功能基本在V8版本中奠定;功能涵盖NOA导航辅助驾驶、Summon智慧召唤、Autopark自动泊车、识别交通灯和停车标志并作出反应、城市街道自动转向等。


)BEV仍然是对瞬时的图像片段进行感知,汽车只能根据当前时刻感知到的信息进行判断,自动驾驶存在一定的安全隐患。例如,在感知时刻如果行人正好被汽车遮挡,则无法识别到穿行的行人;而人类司机在面对类似场景时,则会根据此前看到行人在穿越马路的记忆,能够意识到行人有继续穿越马路的意图,从而选择减速或者刹车避让。2)算法无法识别或认全所有事物,存在长尾情况。例如当自动驾驶遇上超载车辆,算法通常将其识别为一般的三轮车,但对车后拖载的货物,既不显示、也不识别;当自动驾驶的车辆进行超车变道时,极易发生剐蹭等事故。

1.2.4算法4.0:OccupancyNetwork的应用降低计算复杂性,时序信息的引入则将图像识别推向4D

(4)2021年-2022年:感知算法方面,时序信息的增加和OccupancyNetwork的应用,视频数据升至4维;决策规划方面,特斯拉开始向“Machinelearning-based”倾斜;软件方面,得益于FSD进入公测、且公测范围不断扩大,V9/V10/V11版本加速更新优化。u2021年,特斯拉感知网络架构引入了时空序列特征层,使用视频片段,而不是图像来训练神经网络,为自动驾驶增添了短时记忆能力。时序队列的使用赋予了神经网络获得帧间连续的感知结果的能力,与BEV结合后则使FSD获得了应对视野盲区和遮挡,选择性地对局部地图进行读写的能力,正因为有了这样的实时的局部地图构建的能力,FSD才能不依赖高精地图进行城市中的自动驾驶。u2022年,特斯拉又将BEV升级到了OccupancyNetwork(占用网络),由过去的2D真正升级为3D;在OccupancyNetwork之下,原本的BEV空间被分割成无数的体素,即使无法识别物体的类别,也能通过预测每个体素是否被占用来更好执行驾驶任务,如估算单辆车或单个人在BEV网格图中将占多少个方块。


从画面中来看,OccupancyNetwork并不能识别周边物体具体是什么,只显示大致轮廓,但OccupancyNetwork具有很强的泛化能力,可以在仅有少量标注数据的情况下,实现高质量的物体检测和重建;相较处理大规模的3D特征图可能会非常耗时和计算密集,OccupancyNetwork的应用能够有效降低计算的复杂性。与此同时,FSD基于光流法来判断时间流,像素间的迁移也使得OccupancyNetwork最终带来的投影升级为4D。


决策层面:2021年,特斯拉开始在路径规划层面部分加入神经网络的元素,推出“蒙特卡罗树搜索算法”,通过路径选择概率和局面评估来输出决策;但该阶段仅少部分使用神经网络,大部分依然是人工规则代码。2022年,新推出的“交互搜索网络”将蒙特卡罗算法结合应用到Occupancy网络中,计算出的每个轨迹都会有一个成本函数来优化树搜索给出候选目标较多等问题,该函数取决于碰撞概率、舒适度、干预可能性和人类操作相似性这四大因素;交互搜索网络成功将计算耗时从1到5毫秒降低到100微秒;但函数部分仍然是基于规则的代码。u软件方面:2021年马斯克宣布FSDBeta编号从V8.1开始。从大版本号升级来看,基本维持一年一更新的节奏;更新频率来看,则呈现较为明显的加速迭代,由期初的两月一更,逐步演变为每月两到三更、甚至每月四更。伴随着测试范围的扩大及驾驶数据的增加,V9/V10/V11版本主要聚焦在功能的优化上,不断加深智能驾驶的拟人化程度。

2024年智能驾驶行业分析报告

1.2.52024年感知决策规划大融合,“端到端”成为全局最优解

2024年1月,特斯拉推出FSDV12Beta,算法进入“端到端”阶段;同时,FSDV12Beta是全球第一个实现“端到端”的AI自动驾驶系统(FullAIEnd-to-End)。u在此之前,特斯拉采取的“模块化”技术路线,即每个模块负责特定问题,独立进行开发和训练,然后再将不同模块系统集成以完成自动驾驶任务。而新推出的“端到端”技术路线实现了从多维传感器数据输入,直到操作指令输出的整个流程;一方面将感知、预测、规划的多模型组合架构变成了“感知决策一体化”的单模型架构,简化系统,减少错误传递,另一方面让神经网络完全代替了人工规则编写,替换掉了超过30万行C++代码,实现了从规则驱动到数据驱动的转变。u随后,国内多家企业跟进特斯拉采取“端到端”技术路线。1月30日,何小鹏表示小鹏智驾未来将实现端到端模型全面上车;蔚来也表示将在今年上半年推出端到端架构的主动安全功能;3月17日,元戎启行宣布已经成功将端到端模型适配到量产车上,该批量产车将于今年投入消费者市场;此外,毫末智行也表示正在进行端到端模型的研发。

1.3硬件端迭代:高度依赖摄像头,对其他传感器则倾向于做“减法”

特斯拉于2014年推出FSDHW1.0,后续约2-4年更新一次(14年HW1.0,16年HW2.0,19年HW3.0,23年HW4.0);目前,正处于向HW4.0的迭代阶段。u从硬件配置上,特斯拉FSD坚持纯视觉方案,高度依赖摄像头进行感知。根据FSDHW1.0–HW4.0配置对比分析来看,摄像头数量持续增加、由期初HW1.0的2颗增至最新HW4.0的12颗,同时清晰度也大幅提升、HW4.0摄像头已由过去的120万像素升级为500万像素。相对而言,特斯拉对其他硬件倾向于做“减法”,2021年5月曾宣布移除毫米波雷达(但受制于安全性等问题,HW4.0毫米波雷达回归),2022年10月宣布取消超声波雷达。u在端侧处理器方面,特斯拉持续增加配置、强化算力。HW1.0阶段基于1颗MobileyeEyeQ3和1颗英伟达Tegra3;HW2.0阶段切换到了由1颗英伟达ParkerSoC和1颗英伟达PascalGPU组成的NVIDIADRIVEPX2计算平台;2017年的HW2.5阶段又在HW2.0基础上新增了1颗NVIDIAParkerSoC;HW3.0阶段特斯拉首次搭载2颗自研FSD1芯片、内核数量为12;HW4.0自研芯片升级为FSD2,同时提升至20核、内核数量提升66.67%。


基于英伟达芯片的第2.5代驾驶辅助硬件;相当于第二代版本的更新,主要用于冗余和略微提高可靠性。Ø使用8个摄像头、单个毫米波雷达、以及12个远程超声波传感器;传感器数量不变,但改采用大陆毫米波雷达。Ø新增两个功能:行车记录仪和带有本地保存视频的哨兵模式。

2024年智能驾驶行业分析报告

4.0版本中,毫米波雷达的回归主要为提升FSD现有的安全性及可靠性u此前弃用毫米波雷达的原因(1)一方面系传统毫米波雷达低分辨率造成融合感知性能下降;特斯拉人工智能总监曾表示,对于低分辨率雷达来说,通过类似立交桥这样的场景时,由于雷达的仰角分辨率很低,很难分辨出立交桥和下面停着的车辆,极易导致碰撞。(2)另一方面则系毫米波雷达信道数量限制了其感知能力的提升;相较而言,摄像头能够产生大量数据,软件的改进可以使这些数据得到最大限度的利用。u而对于毫米波雷达的回归,主要系(1)高精度4D毫米波雷达的分辨率大幅提升;2021年起,NXP、TI等雷达芯片方案商,以及大陆集团采埃孚、博世等雷达系统供应商都在加快推动4D成像毫米波雷达的量产落地;新的4D毫米波雷达分辨率性能大幅提升,具备点云输出(与视觉或激光雷达更好的融合,以及可能的分类识别能力)以及全天候等性能,成为了高阶方案的选择项之一。(2)能够弥补纯视觉方案的风险;特斯拉被大众诟病的“幽灵刹车”问题(毫无征兆地刹车),主要系传感器的感知缺陷造成的,由于夜间或大雾或大雨等恶劣天气条件下、摄像头的性能较差;同时,摄像头反应时间通常也较毫米波雷达长,往往需要几帧来识别物体的速度变化。而相对的,毫米波雷达根据发射频率和接收频率的差值测量距离、相对速度和方向,在夜间、逆光、雾、雨、雪环境下也能使用。

2.1受益于数据量、算力、硬件适配度方面的领先,特斯拉FSD的技术竞争力较强

1)数据量:AI模型的效果取决于输入数据的数量及质量,输入的优秀行驶数据越多,AI模型便能做出更适合、更优异的行驶决策。FSD自2020年10月开始北美地区内测,随着FSD推送地区及推送用户的增多,特斯拉拥有的行驶数据会呈指数级上涨;在数据量上,国内厂商的追赶难度较高。2024年4月,特斯拉宣布其全自动驾驶(FSD)技术助力下的汽车已经行驶了超过10亿英里、相当于16.1亿公里,而国内厂商方面,暂无达到该里程数的企业。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024华润啤酒行业报告:高端化战略与市场前景分析

2024-06-28
下一篇

2024原油市场分析:需求增长与油价走势预测

2024-06-28