【安信证券】AI专题报告之十二:人形机器人的AI算法,如何借力于自动驾驶FSD.pdf

2023-08-20
42页
4MB

1.安信智能科技研究框架

当下,我们正处于下一代计算平台构建成型的起点上,以“智能”的真正实现为总纲,技术 维度的要素创新,包括混合虚拟现实(MR)、人机共生/协同(AI)两个方向,其中 MR 本质上 是重构时空,人机共生/协同本质上是混合平台,混合平台又包括不同的工程方案——人形机 器人(以机器为智能载体)、脑机接口(以人为智能载体)。 工程方案理论上会有无穷多,具象的工程方案探索,严格意义上仍在初期(目前仅基于视觉 的技术探索),但所有的工程方案都可以收拢到具体的技术路径中,任何技术路径的目标是实 现虚拟现实,即模糊掉虚拟与现实之间的边界。目前主流的技术路径为,一是以 AR 的技术路 径去实现,但现阶段 AR 相关技术仍待攻克;二是先 VR 再迭代至 MR,以 VR 作为过渡。 混合平台是智能实现的另一条技术路径。如果将人的身体看作“硬件”,智能的实现过程,也 是新智能交互硬件层出不穷、旧硬件迭代甚至是重塑的过程。因此,未来的智能硬件不仅包 括冷冰冰的电子器件本身,也包括人类和电子器件之间不同程度的耦合,即指向人机共生/协 同。在这条技术路径上,脑机接口与人形机器人是不同的工程方案,即智能的实现分别以人、 机器人为载体。


2.产业趋势:机器智能“模型”系统迎来拐点,“行动”系统蓄势待发

根据陆奇对于人工智能进化路径的理解,人作为最成熟的通用智能体,在处理外部环境时依 次用到了“信息”系统、“模型”系统、“行动”系统,分别获取数据信息、分析处理信息并 做出决策、基于决策目标做出行动。机器如果想要发展成为像人一样的通用智能体,则也需 要有这三个系统,其演进的过程可以简单的概括为机器感知世界、理解世界、参与世界。而 前沿科技研究转化为生产力有一定的过程,引发生产力大变革的拐点在于当应用这项技术的 边际成本转化为某些特定公司固定成本时,产业浪潮出现。(资料来源:奇绩创坛)我们认为 这背后原因是当应用技术的边际成本转化为固定成本的时候,行业可以发挥规模效应分摊技 术成本,且减少了重复资源浪费。


回溯机器智能的进化史进行梳理,互联网时代推动“信息”系统成熟化,使得今天信息获取 的成本极低;“模型”系统正走过拐点,大模型所带来的泛化能力使模型生产的边际成本下 降,转化为特定大公司如 OpenAI 背后的算力、人才、数据成本;仍有待突破、充满挑战的 是“行动”系统的智能化:


1)互联网时代推动“信息”系统成熟化——机器能够感知人类世界


现实物理世界的信息以各种形式存在,如纸质的文字、对话、图像等,机器如果需要和物理 世界进行交互,识别信息是第一步。1995 年进入互联网时代,PC、互联网的普及加速了信息 的线上化,使物理世界能够转化为机器可读取的信息,目前物理世界的线上化率已经达到较 高的水平,体现为: 过去十年移动互联网发展进一步加速了用户上网率的提升,截止 2022 年,全球互联网用户 规模为 53.9 亿,相较于 2013 年增长 92.5%,上网用户的渗透率达到 67.9%;2022 年中国互 联网用户为 10.67 亿,较 2013 年增长 72.65%,中国上网用户的渗透率高于全球水平,达到 75.6%。




互联网上覆盖了丰富多元的用户场景,以中国互联网应用为例,2022 年网民使用率排名前五 大的应用类别为即时通信、网络视频、短视频、网络支付、网络购物,分别为 97.2%、96.5%、 94.8%、85.4%、79.2%,涵盖了通讯、娱乐、购物的用户需求。此外线上办公、网约车、互联 网医疗场景应用的网民使用率也分别达到了 50.6%、40.9%、39.6%,也体现出用户生活的全 面线上化趋势。


用户规模增长及线上用户场景的多元化也在推动数据量的快速增长,从而提供了海量的信息 供机器进行学习。根据 Statista 给出的数据,2016-2020 年全球产生的数据量依次是 18ZB、 26ZB、33ZB、41ZB、47ZB,数据量增长的复合增速是 27.11%。我们认为随着各类应用的用户 使用率提升,未来全球产生的数据量规模也将加速增长。


2)大模型展示出泛化能力,“模型”系统正走过拐点——机器能够理解人类世界


得益于数据、算力滋养,神经网络模型能力逐步显现,行业主流模型从 CNN、RNN 走向 Transformer。2006 年提出深度学习算法后,神经网络结构经历了 RNN、CNN 等几代的进化, 在视觉领域取得了非常显著的突破,2014 年 3 月,香港中文大学多媒体实验室自主研发的 DeepID 系列面部识别算法准确率达到 98.52%,在全球范围内首次超过人眼识别准确率,突 破工业应用的红线。因为语序对于语义理解很重要,而不同语言间语序的重心又有所不同, 因此在小模型阶段 CNN、RNN 算法在语言模型并未取得显著进步,因此这一阶段人工智能技术的突破主要体现在计算机视觉领域。2016 年 AlphaGo 打败世界围棋冠军李世石,进一步引 爆了人工智能的浪潮,推动人工智能应用在金融、安防等场景的渗透率提升及全球人工智能 创业热潮。但这一阶段均为小模型,需要针对不同场景重新标注数据对模型进行训练,人工 标注成本较高且模型泛化能力较差,导致拓展项目边际成本较高而收入增长速度缓慢。2017 年谷歌在论文《AttentionIsAllYouNeed》中提出了 Transformer 架构,Transformer 架构基 于自注意力机制,通过赋予权重能够并行化处理序列间关联关系,在自然语言处理领域中得 到了广泛的应用,如机器翻译、文本分类和生成模型等。


GPT 系列模型提出“预训练-微调”的模式,表明训练模型具备规模效应。OpenAI 在 Transformer 架构的基础上又进一步提出 GPT 模型,其突破在于训练时采用“预训练-微调” 的模式,先采用大量无标注的语料预训练语言模型,然后对预训练好的语言模型进行微调, 将其迁移到有监督学习的任务上。我们认为这种模式所产生的价值在于提供了将训练模型的 边际成本转化为固定成本的模型架构,针对更底层通用的能力抽取出来训练大模型共担成本, 而针对特定场景的部署只需要少量数据就能够进行训练,从而体现出规模效应的可行性。


从 GPT-3 开始表现出涌现能力,大模型不仅具备规模效应,还产生了能力跃迁。随着模型参 数增加及语料库的丰富,到 GPT-3 上模型参数达到 1750 亿,模型开始体现出涌现能力,即不 仅体现出训练成本的规模效应,还带来模型能力的增加,这推动了学术界、产业界对于大模 型的追捧,比如谷歌的 BERT、智源悟道、百度文心、华为盘古、阿里达摩院 M6 等大模型。 GPT 系列模型取得的成果给计算机视觉模型也带来了很多启发,被用于图像分类、图像切割 等领域,例如商汤目前拥有 320 亿参数的视觉大模型,是亚洲最大的视觉大模型之一。


GPT-4 实现多模态能力,感知能力极大提升。GPT-1 到 GPT-3.5 均为语言大模型,GPT-4 增加 了视觉模型,并实现了语言与视觉跨模态信息的对齐,类似于人类认知世界时,眼睛看到的 图像信息会帮助我们加深对事物的认知,而反过来因为具备认知能力,看到不认识的事物时 也能知道其功能,会提升视觉识别信息的能力,因此多模态能力的建立帮助机器提高了感知 能力,并为复杂场景中的决策规划打好了基础,进而机器能够发挥计算优势,给出更好的行 动方案。




3)基于“信息-模型“系统,“行动”系统到来有望加速——机器智能参与人类世界 指向“行动”系统,我们把执行操作的场景分解为物理世界与数字世界:


在数字世界:体现为机器基于特定目标,自主完成任务并且自我迭代,对应于当前研究 热度较高人工智能代理 Agent,目前已经出现的产品包括 Auto-GPT、Baby AGI、Agent GPT、Microsoft Jarvis、ChaosGPT 等;


在物理世界:交互需要借助相应的躯体,由此引出具身智能的概念。具身智能指智能体 (可以是生物或机械),通过与环境产生交互后,通过自身的学习,产生对于客观世界的 理解和改造能力,自动驾驶、智能机器人等即为典型的智能硬件产品。在实际生活中已 经出现了很多机器人,如工业场景的码垛机器人、搬运机器人,商业服务场景的送餐机 器人等,我们认为其与智能硬件的区别在于,传统机器人是基于固定坐标系进行特定执 行操作的机器人,并不具备实时感知能力。传统机器人若想要向智能机器人升级,其优 势在于执行控制模块具有优势积累,需要补足感知及决策模块。


特斯拉人形机器人是目前最激进的智能硬件,且产品迭代速度很快。与现有机器人不同,特 斯拉人形机器人以自动驾驶 FSD 为支撑,实时获得环境信息并进行决策规划,最终输出行动 指令,形成了“感知-决策规划-运动控制”的实时交互反馈机制。为了增强机器人的普适性, 将其设置为人形,是因为现实物理世界是基于人的视角、交互习惯所设置的,采用人形能够 用第一视角理解环境场景。从 2021 年 8 月特斯拉在其首届 AIDay 上首次公开展示人形机器 人的概念机 TeslaBot 至今,其研发迭代速度非常快: 2021 年 8 月,首届 AIDay 公开展示人形机器人概念机 TeslaBot; 2022 年 2 月,推出人形机器人原型机,并作为开发平台进行深度研发; 2022 年 8 月,第二届 AIDay,展示实体版本人形机器人,可以直立行走、浇花、搬运东 西等,但灵活度相对较低,上下舞台时需要一定的人员协助; 2023 年 5 月,特斯拉 2023 年投资者大会发布人形机器人最新研发进展,其已经学会了 缓慢前行。


机器人潜在应用场景空间广阔。在 2022 年特斯拉的 AIDay 上,马斯克提出特斯拉机器人最 初的定位是替代人们从事重复枯燥、具有危险性的工作,但远景目标是让其服务于千家万户, 比如做饭、修剪草坪、照顾老人等。随着硬件成本下降,有望推动用户需求增长,我们认为 推驱动用户买单的主要原因包括但不限于劳动力成本上涨、劳动力短缺、安全考虑等。此外, 由于涉及的场景较为广泛,我们判断除了人形机器人外,未来可能还会衍生出更多不同形状 的智能硬件,其核心在于实时感知与交互性,而外在躯体的样式可以根据所处场景进行适配, 采用不同的执行器,可以预见机器人未来的市场空间非常广阔。 一旦人形机器人落地,“行动”智能系统产业化拐点或将加速到来。从软件层面看,参考人是 目前最强大的通用智能体,人形机器人的算法难度最高,若算法能在人形机器人上实现,向 其他场景泛化本质上是降维;其次从硬件层面,执行器等零部件若能共用产线,会因为量产 规模的增加而带来单个零部件的成本下降。因此综上,我们认为人形机器人达到一定成熟度 后,面向不同场景需求而研发具有“行动“系统的智能交互硬件的边际成本也将显著下降, 从而推动产业化浪潮的加速来临。


3.自动驾驶 FSD 有望迎来量产落地

特斯拉人形机器人的软件算法建立在自动驾驶所积累的数据、算法架构基础之上,由于目前 官方披露人形机器人的算法相关数据相对较少,我们将先以自动驾驶 FSD 算法为基础进行原 理的解释,进而说明人形机器人与整车算法的不同来帮助理解人形机器人算法研发所处阶段。 参考前述“三位一体结构化模式”,自动驾驶方案主要有感知、决策规划、运动控制三个模块, 其中感知层相当于自动驾驶的“眼睛”,帮助汽车理解所处的外部环境,感知模型的输出是基 础;建立在准确、可靠的感知输出结果上,决策规划模型相当于“大脑”,对自车及周边环境 轨迹进行预测,通过打分机制筛选出最优运动轨迹输出给运动控制模块;获得行动轨迹后, 运动控制模块将其分解为方向转向、行车速度等操作指令,将其传输给方向盘、油门、刹车 等执行器进行操作,最终实现对汽车的控制。而运动控制一旦发生,必然产生空间位移,这 需要感知模型实时获取空间位移信息变化,重新评估决策形成正向反馈。在上述处理流程中, 数据、算力发挥重要支撑作用。


特斯拉自动驾驶自研方案经历四次重要迭代,当前形成了“BEV+Transformer+时序信息+占 用网络”的核心架构。特斯拉自动驾驶方案早期由供应商 Mobileye 提供,2016 年双方终止 合作后,特斯拉经历了与英伟达短暂合作后,转向全栈自研,从技术落后到引领行业发展, 特斯拉的技术方案主要经历了以下四次关键的技术迭代升级: 2018 年构建了多任务学习神经网络架构 HydraNet,相较于此前单一目标检测遵循一个 通用的网络结构,HydraNet 能够完成多头共用的任务,减少重复计算; 2020 年特斯拉团队对底层代码进行重写及网络重构,引入了 Transformer 的架构,将 2D 图像复原至3D视角,使得自动驾驶方案环境感知的能力有了质的飞跃,BEV+Transformer 的架构解决了行车过程中大多数共通的场景,但驾驶的安全性仍受到很多长尾场景的挑 战; 2021 年至今特斯拉 BEV+Transformer 架构输出的 3D 空间基础上使用视频信息作为训练 模型的数据集,引入了时序信息,使 3D 空间转化为 4D 空间,这样能够很好的解决物体、 行人被遮挡的场景; 2022 年 AIDay 上特斯拉引入了占用网络,环境中的物体无法用模型穷举实现识别,占用 网络通过将空间分割为体积不等的体素,预测其是否被占用,从而解决通用障碍物的识 别的问题。


3.1.感知层:进入“4D 重建+占用网路”阶段,感知体系已较为成熟


在自动驾驶传感器领域,一直分为视觉派和雷达派两大派系,最简单的区别就是:前者主张 使用高清摄像头+视觉识别算法,后者主张除摄像头外,再加入激光雷达、超声波雷达、毫米 波雷达等感知硬件提高信息冗余以保证系统稳定。


特斯拉坚持第一性原理,是视觉派的坚定拥护者。特斯拉认为就像人只需要眼睛和大脑就可 以完成对周围环境的感知一样,自动驾驶也只需要借助摄像头和算法就能够实现这样的能力。 早期由于算法能力不足,特斯拉传感器套件中除了八个摄像头外,还包括一个前置雷达和车 辆周围的几个超声波传感器。2021 年特斯拉宣布向 TeslaVision 方案过渡,从 2022 年 10 月 上旬开始,特斯拉为北美、欧洲、中东和中国台湾制造的所有 Model3 和 ModelY 不再使用超 声波传感器,而是完全依赖 TeslaVision 来实现自动驾驶功能。当前特斯拉车上共有 8 颗摄 像头,分别分布在左右前翼子板各 1 个,左右 B 柱各 1 个,后牌照上方各 1 个,前挡风玻璃 后各 3 个,8 颗摄像头视野范围达到 360 度,对周围环境的监测距离最远可达 250 米。每个 摄像头采集分辨率为 1280×960、12-Bit、36Hz 的 RAW 格式图像作为信息输入。


上述摄像头捕捉到的视觉信息作为感知层的输入,经过一系列神经网络的处理将输出 4D 向 量空间,其操作步骤依次如下:1)相机校准:对摄像头采集信息进行色温、位移的校准,调 整为标准虚拟相机数据,做校正变换后,之前模糊的图像会变得清晰;2)通过 RegNet、BiFPN 两个神经网络结构提取单视角图像特征;3)利用 Transformer 架构及占用网络对单视角特 征进行转换及三维重建,包括先将为每个相机对应的图像特征转换为 Key 和 value,再进行 表搜索找到关联关系进行空间拼接,之后根据摄像头、IMU 等传感器采集的时序特征进行时 空联合对齐,最终转化 4D 空间(包含空间中的 x、y、z 坐标及时间 t),之后会采用反卷积 的方式将其对应到 8 个摄像头中,若存在偏差则继续修正重建效果。




在上述感知操作的流程中,我们强调三个关键的技术:


1) HydraNets:共用主干网络,模型训练边际成本低使业务拓展性强


特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈部(Neck)与头部(Head)共同 组成,早期在图像检测任务中,特斯拉针对每个任务都设计了一套神经感知网络,分别由各 自的 backbone-neck-head 构成。2019 年对架构进行调整,提出多头任务处理架构 HydraNets, 简称九头蛇网络,这种架构是将主干网络合并,由一个共同共享的主干并分支成多个头。与此前的架构相比,其好处在于:可以避免不同任务间重复计算,提高运行效率;拓展性极强, 当需要优化的新场景出现,只需要针对其特定的需求进行单独微调,既不影响现有任务运行, 同时也能有效降低新业务研发的边际成本。比如针对大车开过会带起尘雾的场景,特斯拉会 用自己的车队采集特殊场景数据,进行训练后加载 Head 部分即可。


2)Transformer 架构:推动感知从 2D 视角走向 4D 重建,提高感知效率与可靠性


Transformer 架构优势是使用注意力机制处理输入和输出之间的依赖关系,通过赋予权重找 到关联关系。特斯拉 2020 年将 Transformer 引入感知模型,2020 年特斯拉 AIday 上介绍展 示了如何将检测到的物体、可驾驶空间和其他物体放入 BEV 鸟瞰图中,实现了环境感知从局 部到整体的统一对齐,早期受限于数据质量、算力等诸多因素,BEV 的输出仍为 2D 俯视图, 与车所面临的 3D 物理空间中还是存在很大的不同,进而产生很多问题,比如无法估计物体 的高度,以及在高度方向上如有多个障碍物可能检测不到等。随着数据、算力等综合能力的 提升,Transformer 架构能够处理参数量及数据量增加,帮助 BEV 鸟瞰图从 2D 俯视图升级为 3D 空间,更进一步地,由于坐标系相同,还可以进行时序融合形成 4D 空间。


Transformer 架构完成了从摄像头捕捉的 2D 信息向 4D 向量空间的转换,使感知可靠性、标 注效率大幅提升。早期特斯拉在感知层做标注时是基于单张 2D 图片进行标注,这种情况下 标注误差很大,比如在图片中标注远处车道线时可能会出现位置偏移,从而导致汽车行驶过 程转弯时间预估不准确或者压线等情况出现。在依托 Transformer 重建的 4D 空间下所带来 的好处是:1)降低标注误差,4D 空间相较于 2D 单视角图像对空间的认知更加全面,而且在 被数学表示的空间,对于长度、速度等环境信息的认知更具体;2)提高标注效率,在 4D 向 量空间中可以对建模后的场景进行拖拽、旋转等数字化的操作,为自动标注打好了基础。从 而提高标注效率,根据特斯拉披露信息,2021 年后在重建好场景中对单个 clip 进行标注的平均时间小于 0.1hrs,对单个 clip 计算的平均时间为 0.5hrs,相较于早期的图像标注效率 有了大幅提高。


3)占用网络:解决通用障碍物识别问题,为安全兜底


特斯拉在 2020-2022 年围绕 4D 空间重建取得的进步,为占用网络的实现带来了可能性,只 用网络指预测汽车周围所有物体的体积占用率,即将世界划分为一系列 3D 网格单元(也被 称为体素)后,预计 3D 空间中的每个体素或连续点都有被占用的概率以及它的未来运动。 2022CVPR 及 AIday 上,特斯拉对占用网络 OccupancyNetwork 进行了详细的介绍,其实现的 关键包括: 在提取图像特征后利用 transformer 机制计算得出 3D 空间的占据体积概率,定义哪个 单元被占用,哪个单元是空闲的;在获得空间占用情况后,再结合里程计信息融合时序 信息,构建 4D 向量空间; 对于单个物体而言,网格单元的大小可以被调整,以保证尽可能多地包裹到所有的物体; 4D 空间中除了反映空间占用情况外,还用不同的颜色表示物体的速度、方向等信息;若 物体之间若存在关系,还有一条有语义信息的边; 基于 4D 空间所描述的特征及预测的轨迹方向,最终输出 occupancy Volume 及动态的 occupancy flow。


占用网络帮助特斯拉解决了通用障碍物识别的问题,增强了自动驾驶的安全性。在行驶的道 路上,会遇到许多 cornercase,其中可能包含很多数据库中并不存在的物体,比如侧翻的大卡车等,基于视觉感知的方案因无法获取其信息而决策失误发生事故。在占用网络下,类似 情况会将其标注为空间占用,并根据感知信息为其赋予速度等值,根据以上信息车便能进行 做出避让等操作,因此我们认为占用网络是对数据库之外的信息识别的有效补充,进而为安 全兜底。 经过上述感知过程,特斯拉感知模块最终有三个输出,分别是占用网络、车道线 Lane 及障 碍物信息 objects,得益于特斯拉大量的细节工作,输出的结果质量好、精度高,其将作为 决策规划的输入,决定了后续工作的高度。


3.2.决策规划:系高维非凸问题,引入神经网络求解效率提升


自动驾驶问题是高维度空间中的非凸问题,求解最优路径挑战很大。自动驾驶决策规划模块 需要解决的问题是在接收到感知模块输出后,在其所重建好的空间中找到一条轨迹可以最大 限度地提高汽车的安全性、舒适性和效率,将车辆规划至目的地,因此其本质是找到一条满 足约束的最优路径,如果用数学方法求解,自动驾驶的规划求解是在高维空间中解非凸问题, 求解后得出的最优解可能只是局部最优,但考虑到安全问题,自动驾驶决策规划必须要尽可 能达到全局最优。


特斯拉决策规划的工作可以简单的理解为两部分工作,一是通过决策树生成潜在路径,二是 通过打分机制对决策树剪枝,找到最优路径。 在决策树生成时,特斯拉参考蒙特卡洛模拟生成了交互树,其生成是由粗到细的:1)在感知 输出的占用网络、车道线、车道拓扑关系基础上粗生成行驶目标,给出车可能到达的车道线及行驶区域;2)利用传统优化算法,生成可能到达目标的行驶路径;3)动态博弈,考虑 t+1、 t+2 等时间内与周边障碍物的交互博弈,继续生成新的轨迹。 模型被引入决策树生成,显著缩短规划路径生成时间。在决策树生成的过程中,特斯拉以数 学优化为主,特斯拉针对优化求解进行了诸多工程上的优化以缩短决策规划时间,能够在 1- 5ms 内完成计算,但是如若面对更复杂的城市场景中可能仍无法满足需求,2022 年 AIDay 特 斯拉介绍在生成网络时使用了轻量化的神经网络帮助快速生成规划路径,标志着模型被引入 了决策规划中,在模型助力下,目前可以在 100us 内生成一个候选规划路径。


决策树剪枝是第二步,在有限的时间内完成响应需要拒绝掉一些偏差较大的方案。特斯拉也 同样运用了传统优化方法及数据驱动下的神经网络模型结合的方式,其评价的维度主要包括 了碰撞可能性、舒适度分析、类人程度、被接管的概率等。基于这些评分维度,最终筛选出 最优的规划轨迹,作为决策规划的输出。 综上,特斯拉的决策规划方案在解决自动驾驶高维非凸问题上是结合了优化与神经网络的算 法,如何平衡决策效率与安全性是当前决策规划任务的关键挑战。其中采用优化求解是建立 在工程师可解释的人类驾驶规则上进行编码,保证了算法的可解释性,相对更安全可控;而 结合神经网络计算是为了提高生成及筛选最优轨迹的效率,同时也能对不可建模的驾驶经验 进行建模,从而推动自动驾驶走向更类人化的步骤,但由于模型是黑盒,具有不可解释性, 在安全失误率容忍度极低的驾驶场景的应用仍较为谨慎。 决策规划输出的轨迹体现在特斯拉中控屏幕上为长度、方向变化的指示线,其本质上包含了 目标位置、方向、速度及加速度等信息,这些信息被拆解为执行指令,作为运动控制模块的 输入,进一步给到执行器。


3.3.运动控制:仅执行决策指令,在工业上较为成熟


当决策规划模块输出轨迹后,由于其本身包含了方向、速度、加速度等信息,进一步地分解 为具体的指令,会交给域控制器 MCU 调用执行器进行操作。在运动控制方面,其承担的主要 角色是做执行操作,这里主要是传统的工控软件,在行业内都比较成熟,并不涉及特别多 AI 算法,因此本文在此不做展开。


3.4.数据及标注:特斯拉领先之关键,已建立强大自迭代体系


从上述“感知-决策规划-运动控制”三个模块的方案介绍中,我们可以看到数据是重要的原 料,如何得到大量、便宜且优质的数据对模型训练和结果输出都起到关键作用。 特斯拉自动驾驶方案的数据源包括车辆采集数据、仿真数据、影子模式三种,其中:1)自车 辆采集数据是特斯拉自有车队及量产出售给用户的车辆上的摄像头实时采集的数据,是特斯 拉训练模型的主要数据来源;2)仿真模拟数据是为了补充通过车端摄像头所无法采集到的长 尾数据,以尽可能补全模型训练时所可能遇到的场景;3)影子模式,指特斯拉的自动驾驶模 型部署到车端后在后台运行,其执行输出与驾驶员操作时的不一致数据,这部分数据作为很 珍贵的异常数据用于为模型纠偏,帮助模型训练结果更加类人。


数据来源一:车辆采集数据


车辆采集数据以 Clip 作为最小标注单元。在感知部分,我们详细介绍了特斯拉车上的 8 颗 摄像头所采集的视觉数据,该数据通常为一段 45-60s 的视频格式的路段数据。除了摄像头 视觉传感器之外,车上还包括惯性测量单元(IMU)、GPS、里程计等传感器,其中 IMU 是负责 測量物体在三維空間中的角速度和加速度,並以此解算出物体的姿态,主要用以保持平衡; GPS 用于导航定位;里程计是用于测量汽车的速度、加速度信息。综上摄像头、IMU、GPS、 里程计等传感器采集的数据会构成一个最小标注单元,被成为 Clip。 每个 Clip 数据都经过 RegNet、BiFPN 提取图像特征进行特征融合,结合位置、速度、加速度 以及时序特征等信息,用于实现将自身所处的物理世界转化至 4D 空间中,进而通过标注分 解出静态路网与动态障碍物等感知任务的结果,用于后续输出。


与需要自建车队,装配昂贵的激光雷达,雇佣工程师驾驶车辆采集数据的自动驾驶团队不同, Tesla 依靠实际卖出的车辆采集数据,不但获取车辆销售利润,还能依靠特斯拉车主来采集 数据。2018 年至今特斯拉每年车的销量持续提升,其中 2022 年、2023H1 的销量分别为 124.71 台、85.91 万台,分别同比增长 40.34%、57.42%。截止 2023 年 6 月底,特斯拉售出的车辆累 计达到 435.51 万辆。




上百万辆车在路上行驶帮助特斯拉产生了源源不断便宜的数据,特斯拉 FSDbeta 版本从上车 部署至 2022 年已经累计采集超过 20 亿英里的数据,而且预计随着 FSD 用户渗透率提升,所 能够采集的里程数将呈现加速增长。从数据的质量来看,由于数据来自于不同区域、不同驾 驶风格车主真实环境决策有关的感知数据,数据多元且价值也极高。


数据来源二:仿真模拟数据


仿真模拟数据在自动驾驶方案中非常重要:1)模拟现实中无法采集到的长尾场景、极端场 景,提高数据的多元性;2)对于长尾场景而言,实车采集与标注成本太高,可以通过仿真模 拟降低成本;3)除了直接在虚拟场景中进行仿真训练,特斯拉还希望可以在仿真环境中重现 真实世界场景,以便可以复现 FSD 失败的场景,实现在仿真环境下的优化迭代后再反哺汽车 算法模型,实现“数据闭环”。


在仿真环节,最核心的工作是对环境进行充分建模,特斯拉采用的是游戏领域非常成熟的渲 染引擎工具 UnrealEngine(简称 UE),其生成的物体非常逼真。特斯拉会在离线大模型上构 建的 4D 空间,先用 UE 生成静态物体,如车道线、建筑物、树木等,然后在上面增加车流或 者行人等动态流,以模拟所需要训练的场景数据。生成的仿真模拟数据作为重要的数据元之 一,用以训练云端大模型,以帮助特斯拉提高自动驾驶能力。根据 2021 年 TeslaAIDay 公开 的信息,特斯拉总共已经绘制了 2000+公里的道路环境,通过仿真获得的虚拟数据规模已达 到 37.1 亿张图片及 4.8 亿标注,且已实际融入车端模型中。 AIGC 兴起也在推动仿真模拟能力提升。自动驾驶方案供应商 Wayve 目前正在尝试利用 ChatGPT 等语言大模型结合生成环境指令,在虚拟环境中实现环境感知与模型训练,这能够 帮助降低采集数据的成本。我们认为基于此,仿真模拟的重要性或将被大幅提升,帮助完善 训练工具。


数据来源三:影子模式


影子模式是运行在特斯拉车辆上的后台程序,用户接触不到影子模式,但是在每台特斯拉车 辆上,影子模式“如影随形”,随时为数据采集做着准备。在影子模式下,特斯拉关注的是 FSD 版本运行时所作出的决策与人类驾驶员操作间的差异,会对产生偏差前后的数据进行重点采集并回传至云端,将这段异常数据作为输入,对训练好的感知、规控模型进行纠偏。影子模 式的引入及持续迭代下,推动了特斯拉的自动驾驶操作更加类人化。 得益对这三类数据的处理,特斯拉形成了持续正反馈迭代的数据引擎及强大的自动标注工具。 车辆采集数据、影子模式、仿真模拟数据有两个方面的作用:1)用于训练云端在线的感知、 决策、控制模型,训练好的模型会通过定期 OTA 的方式将新的版本推送至车端进行部署,车 端会基于新的软件版本处理,从而回传给云端更有价值的数据,形成迭代反馈;2)用于训练 离线大模型,离线大模型也在对感知的世界进行了 4D 重建,随着模型能力不断提升,模型对 于真实世界重建的准确度、精度持续提升,不断趋近于真值时,其可以被用作特斯拉自动标 注的工具,其本质是“对照标尺”,当新的数据流进入到大模型后,只要通过与“标尺”比对 就能快速完成特征识别,从而提高标注效率。如前文所述,2020 年引入 BEV 视图时进入了自 动标注的时代,针对每一个 Clip 标注时间由 2019 年的 3.5hrs 缩短至 0.1hrs。


同时特斯拉做了许多数据安全的工作:1)来自于车端的数据一部分作为训练数据进入模型, 还有一部分将验证数据集被保留,作为真值数据用于评判模型的能力;2)特斯拉在自动标注 的基础上也保留了手工标注。对于自动标注的数据,工程师会不断进行数据抽检,对于被标 记错的数据集,通过手工标注的方式进行修正。


总结来看,我们认为特斯拉的数据满足以下特点:大量、便宜、质量高且具备多样性,构成 其最核心竞争壁垒: 大量:如前所述,累积售出 450 多万辆车在路上行驶为特斯拉贡献了持续不断的数据; 其次随着算法能力升级,目前摄像头采集数据格式已经升级为视频,其中包含的信息量 将较之前更加丰富; 便宜:特斯拉车主相当于特斯拉“免费外包车队”,帮助其采集路网等真实世界的数据, 随着车辆的增加,获取某个长尾场景数据的概率变得更高,从逻辑上讲边际成本更低; 其次特斯拉数据-模型训练的正反馈机制也在推动仿真能力的提升,进一步降低数据获 取成本; 质量高:相较于手动在 2D 图像中标注,自动标注工具在 4D 空间中标注数据产生的质量 更高;其次安全校验及手动标注的工作也在持续提高数据质量; 多元性:销量背后意味着用户多元性,保证了数据集的差异性;特斯拉只关注有价值的 数据信息,比如在行程过程中大量顺利通过的道路数据对提高模型训练并不意义,可能 还会产生一定回传成本,特斯拉可能会直接丢弃;仿真能力使特斯拉具备主动生产长尾 数据的能力,从而补全数据种类。


根据特斯拉 2022 AI Day 上披露数据,特斯拉将这些有价值数据按照场景种类进行存储,训 练数据集达到 23.2 万帧,验证数据集达到 0.38 万帧。


3.5.算力:自研芯片性能可期,投产 Dojo 应对潜在增长需求


处理如此庞大的数据,强大的算力支撑也非常重要。在自动驾驶方案中涉及云端与车端算力, 其中云端算力主要用于训练大模型,包括感知、决策规划及控制算法模块,同时还需要训练 离线大模型作为标注数据的工具以及进行仿真模拟训练,在训练模型时因为需要不断调整参 数导致算力的需求非常大,而且对于并行算力的要求会较高;车端模型是对已经在云端完成 训练的模型进行部署,模型参数已经固定,仅对摄像头等传感器采集的数据进行运算即可, 对算力的消耗相对较小。


特斯拉芯片从采购转向自研,增强对硬件性能掌控力。在 HW1.0 时代,特斯拉采用了来自 Mobileye 的 EyeQ 系列芯片。进入 HW2.0 时代,特斯拉找到了英伟达作为 Mobileye 的替代, 采用定制版的英伟达 Drive PX2 自动驾驶计算平台(由 1 颗 Tegra Parker 芯片和 1 颗 Pascal 架构GPU芯片构成)。后来又升级为HW2.5,增加了一颗Tegra Parker芯片。但无论是Mobileye 还是英伟达,都无法满足特斯拉对于性能、研发进度、成本、功率方面的要求。而且随着硬 件量产出货所推动的算力需求增长,芯片供应链安全对于特斯拉的重要性愈发凸显,2016 年 前 AMD 首席架构师 Jim Keller 加入特斯拉,任职 Autopilot 硬件工程师总裁,特斯拉开始 走上芯片自研之路。


特斯拉 2021 年发布 D1 芯片及 Dojo 超级计算机:1)D1 芯片:制程工艺是 7nm,由台积电代 工, 设计参数为 645 平方毫米面积、500 亿个晶体管、11 英里的内部走线、400W TDP (Thermal Design Power 热设计功耗,指正常工作环境的负载功耗),单颗芯片有 354 个节 点,实现了超强算力和超高带宽;2)DOJO POD 云端机柜:每个 Dojo 都集成了 120 个训练模 块,单个训练模块包含 25 个 D1 芯片内置 3000 个 D1 芯片,拥有超过 100 万个训练节点,算 力达到 1.1EFLOP,相邻芯片之间延迟较低,配合特斯拉自创高宽带、低延迟的连接器,是世 界上首屈一指的超级计算机。整体来看,特斯拉的芯片虽然距离英伟达仍有一定差距,但得 益于自身业务体系对 AI 需求经验,其产品在 AI 训练应用上仍极具竞争力。




云端算力占用率较高,2023 年7 月正式投产 Dojo。特斯拉目前使用的是基于英伟达芯片的 超算集群,相当于 14000 块 A100 的算力。根据特斯拉首席工程师 TimZaman 对外表示,他们 的计算集群仅有 0.3%的空闲时间,其中 84%的时间都在处理高优先级的任务,因此急需更多 计算资源。2023 年 7 月特斯拉 Dojo 正式投产,预计 2024 年 10 月特斯拉的算力总规模将达 到 dato 投入资金规模为 56 亿。


在车端,以 HW3.0 提供 144TOPs 为主,预计未来将进一步提高算力。特斯拉硬件体系至今迭 代四版,从 2019 年发布的 HW 3.0 使用的是特斯拉自研的 FSD 车端芯片,2019 年上线的第一 代 FSD 芯片由三星代工,制程为 14nm,2023 年已经升级为 7nm 芯片。算力方面,单颗芯片 72TOPs,2 颗芯片算力共 144TOPS。对比国内自动驾驶车企的算力芯片,目前较为主流的是 NVIDIA Orin 芯片,其单芯片算力已经达到 250TOPS,而且如果未来决策规划模型化,可能占用更多的算力,因此硬件版本升级可能会给到更多的算力,来保证一定的硬件性能冗余以支 持后续模型能力的迭代升级。


4.人形机器人产业链

4.1.Optimus:以 FSD 体系为基础,指向人形对软硬件适配调整


与自动驾驶算法方案类似,智能机器人的软硬件构成上主要包括五大组成部分,分别是: 感知系统,包括摄像头、麦克风、距离感应器、压力感应器等,产品较为成熟,需要解 决精度等问题; 运算系统及其软件:理解及感知环境、拆解任务和路径规划、执行任务,难度在于数据 少、虚拟世界与物理世界存在适配问题 ; 驱动系统:分为液压驱动、电机驱动两种,要求轻便、灵活、体积小,抗摔、耐撞等; 末端执行系统:如关节执行器,如谐波减速器、无框力矩电机等,难点在于控制抓握力 度、灵活性等方面 ; 能源供应系统:主要是电池供应。


依据上述的模块,我们对特斯拉 2022 年 AI Day 及 2023 年投资者大会上公布的关于人形机 器人 Optimus 的参数进行汇总梳理如下: 人形机器人重量为 73kg,几乎与成年人重量相当,在静坐时的功率为 100W,快走时的 功耗为 500W;能源供应依靠电池,电池容量 2.3kWh 容量,支持 52V 电压,内置电子电气元件的一体单元。Optimus 的大脑由单块 FSD Chip 组成,若参照自动驾驶 HW 3.0 芯 片则预计算力为 72TOPS。


在感知算法层面,人形机器人依赖于自动驾驶 FSD 算法,也采用了纯视觉感知方案,共 配置有 3 颗摄像头,分别是左右眼各一个以及一颗鱼眼广角,同样也是提取图像特征后 进行 3D 重建,对于空间中的物体通过占用网络进行识别输出。对比自动驾驶中占用网 络,因为室内环境小目标比较多,我们可以看出机器人场景的单元格更加稠密。


视觉导航方面:与车一样,人形机器人也是基于关键点的视觉导航,但是不同于车在户 外有车道线,室内没有车道线,机器人对可通行空间也是通过矢量图描述的。


影子模式:与车类似,人形机器人也采用类似于影子模式的方法,一种模式是采集人在 执行操作时的发力大小、发力方向等信息,模拟人的执行动作;另一种方式是类似于比 下方右图,由工程师头戴摄像头将其所看到的桌面拍摄传输给机器人,其在仿真环境下 做出动作决策,与人的动作进行对比,从而获得差异数据用于训练机器人模型更类人。


运动控制:与自动驾驶类似,人形机器人的规划控制输出也是双足的运动轨迹,但不同 点在于,机器人给出运动轨迹之后,还需要根据轨迹预测脚掌的落地位置。


平衡控制:在波士顿动力的双足机器人中,推倒测试是常见的一种测试平衡的机制。类 似地,特斯拉人形机器人也做了相关测试,以测试机器人对外界环境的躲避及运动平衡 等。


硬件方面,人形机器人做了诸多仿生设计及针对算法的优化调整。Tesla Bot 基于特斯拉汽 车的工程技术,并且针对人形机器人做了针对性的调整,例如减少零部件的复杂度等。特斯 拉在参考生物学结构的同时,还通过软硬件配合的方式,让机器人进行多模态的学习,对机 械结构进行扭矩等力学方面的进行微调。目前整个躯干拥有 200+DoF 自由度,手部自由度达到 27DoF。


灵巧手:2022 年 AI Day 上公布的 Optimus 光手掌区域就用了 6 个驱动执行器,具有 11 档的自由度,拥有自适应的抓握角度、20 磅(9 公斤)负荷、工具使用能力、小物件精 准抓握能力等等。


膝关节:特斯拉希望 Optimus 的关节希望尽量复刻生物学上的非线性逻辑,也就是贴合 膝关节直立到完全弯曲时的受力曲线。为此,Optimus 的膝关节使用了类似于平面四杆 机构的设计,最终发力效果会更接近人类。


电机驱动:下图橙色部分均为 Optimus 的电机驱动器,相当于人的“肌肉“,也都是特 斯拉完全自研的。考虑到机器人运动的灵活度,Optimus 具有较多的自由度,因此其单 独的电机数量远远超过车的电机。


特斯拉希望尽可能地减少执行器的种类,降低软件标定难度,因此特斯拉举了 28 种人类常 见活动,比如抬举手臂、弯曲右膝等,通过分析这些活动反馈的云数据,找出各类运动的相 对共同点,然后就可以尽量减少专门设计执行器的种类,基于以上原因最终设计了 6 种各自 独特的执行器。


4.2.建立在智能驾驶体系之上,人形机器人导入速度预计很快


4.2.1.硬件架构无须破旧立新,共享汽车零部件供应体系


在硬件本体上,人形机器人无须破旧再立新,可以直接采用中央式架构。车的电子电器架构 经历了从分布式走向集中式的架构。汽车作为百年工业,已经形成了非常标准的零部件体系, 但是其是分布式架构,相当于零部件的控制“各自为政”,但是到智能化阶段,分布式架构使 信号传输有很多的问题,使模型计算的能力无法快速下达到执行器,因此逐步走向集中式架 构,特斯拉 2012 年开始交付 Model S,至 2017 年交付 Model 3 才全面开启电子电气架构的 变革。不同于整车成熟的产品体现,人形机器人是过去并不存在产品,无须破旧再立新,这 使得特斯拉可以完全根据自身对产品的定义进行零部件设计及选型,对产品的形态、研发量 产节奏有了更强的掌控力。


得益于汽车供应链的积累及大规模零件的生产经验,特斯拉能够为 Optimus 挑选尽可能保证 成本、效率的原材料。根据我们对产业的调研,特斯拉在选择人形机器人零部件的供应商时 会优先选择整车供应商,因为彼此具备更扎实的合作信任关系,而且在同种零部件上,由于 车与机器人共用同一种零部件,会因为零部件量产规模的上升而带来硬件成本的下降。三花 智控系特斯拉整车供应商,根据公司公告,公司已经在对机器人机电执行器方面展开持续研 究和产品开发工作。


4.2.2.与智能汽车本质均为智能交互硬件,复用算法模型及数据体系


人形机器人与智能汽车本质上都是具备实时感知能力的智能交互硬件,可以直接复用自动驾 驶模型及数据体系。我们认为自动驾驶为人形机器人搭好了“场”,人形机器人可以复用的部 分包括:1)感知模块的 4D 重建、占用网络;2)数据及自动标注工具;3)仿真模拟环境; 4)共享强大的云端算力设施及芯片能力。在以上可复用的部分,只需要针对人形机器人场景 采集相应的数据训练即可,不存在技术性的难度,难度在于工作量的积累。两款产品的不同 是因为所处的场景及面对的任务不同导致规控体系差异,特别是机器人高达 200 多个自由度 导致其规控更加复杂,但是自动驾驶所积累的工作是地基,0-1 的工作很难,而扎实的基础 将使 1-10 的工作加速迭代。根据 2023 年股东大会上马斯克透露信息,特斯拉已经打通了 FSD 和机器人的底层模块,实现了一定程度的算法复用。


自动驾驶积累的工程化经验有利于加速机器人正向研发。自动驾驶方案使特斯拉已经积累了 智能硬件开发中所需要的“发现问题、采集数据、标注数据、训练模型、解决问题”的工程 化经验,能够加速机器人正向研发过程。体现在:1)如前文所述的九头网络架构,在一定程 度上,人形机器人与自动驾驶可以共用感知的 backbone,所处理的任务主要体现在 neck、 head 层的差异,而在处理尘雾等场景时积累的经验能够帮助机器人迭代;2)在规控、安全 性等方面,两款硬件也具备一定的借鉴经验,比如基于汽车的碰撞模拟软件,能够为 Optimus 编写跌倒测试软件。


4.2.3.大模型加速智能驾驶方案迭代,机器人大模型领域成果频出


以 ChatGPT、AIGC 为代表的大模型热潮对自动驾驶行业掀起了新一轮变革。马斯克此前在社 交网络称将推出 FSDv12.0 端到端版本,并于近日透露团队已经在对规控模块进行 AI 化,其 是完全自动驾驶的最后一块拼图,一旦完成,将推动自动驾驶方案迎来下一阶段的质的飞跃。 得益于大模型能力,国内车企也在积极推动 BEV+Transformer 这套无图方案在量产车上的落 地,并给出了无图方案扩城的规划,比如小鹏提出 XNGP 将在下半年拓展到全国 50 城。可以 预见。自动驾驶方案的突破将大大推动人形机器人方案的实现。




以李飞飞具身智能研究、谷歌 RT-2 为代表,机器人大模型领域成果频出。李飞飞团队研究 实现了零样本的日常操作任务轨迹合成,也就是机器人从没见过的任务也能一次执行,连给 他做个示范都不需要。可操作的物体也是开放的,不用事先划定范围,开瓶子、按开关、拔 充电线都能完成。7 月 29 日,纽约时报记者在谷歌实验室看到新推出的 Rt-2 模型驱动的机 器人,桌子上放着狮子、鲸鱼和恐龙三个塑料雕像,当工程师给机器人发出指令“捡起灭绝 的动物”,机器人抓起了恐龙。


以上的突破主要来自于语言大模型的助力,具体来看体现在:


增强对于环境感知的能力


首先,语言大模型能够帮助机器人更好的理解人类指令。在大模型时代到来之前,人们训练 机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准 确地从各个角度、各个光线下识别这种玩具,抓取成功。而让机器人意识到自己有抓取玩具 的任务,也需要对机器人进行编程才能解决。 其次,基于语义理解物体,人形机器人面临更多开放的场景,涉及到不同的物体,如果只依 赖于数据标注的方式识别物体效率较低,能基于语义对应该物体的属性、特征,能够提高对 环境感知的效率,快速做出决策。比如,为了更准确高效应对车道线,特斯拉借用语言模型 编写了一套车道语义拓扑图,对于车道线的连通性,用一个时序模型建模(自然语言模型) 将 整个路口用若干格子表示;自车在起始点坐标为其赋任务指示 token‘start’, 路标检测信 息、移动轨迹矩阵作为特征,将不同路口间的连接关系储存为节点的配对,从而建立语义网 络。


多模态对齐推动端到端方案落地


加速自动驾驶与人形机器人方案端到端的实现。基于前述介绍,我们把“感知、决策规划、 运动控制”划分为三个相对独立的模块,前者的输出作为后者的输入,依次完成操作,但是 参考人在开车时的模式,我们看到外界环境做出反应时并不会反映静态路网、运动轨迹,而 是直接输出转方向盘,加速或者减速的操作,其本质是三个相对独立的模块融合成为一整个 大模型,我们认为它其实也体现了不同模态数据的对齐。我们认为特斯拉提出的端到端的方 案是本质上就是在完成视觉图像输入到方向盘转向及加减速之间的对齐。 类似的,谷歌的 RT-2 模型本质上实现“语言-视觉-动作”三个模态的对齐。谷歌 RT-1 是个 视觉-语言模型(VLMs),实现的功能是将一个或多个图像作为输入,并生成一系列通常表示 自然语言文本的标记。而 RT-2 通过将 VLM 预训练与机器人数据相结合,直接控制机器人, 形成强大的视觉-语言-动作(VLA)模型,使机器人可以进行推理、问题解决并解释信息,以 在真实世界中执行各种任务,其或将成为构建通用机器人的一把钥匙。


因此,综合上述软硬件的积累及优势,我们认为人形机器人的产业链导入速度可能会比此前 自动驾驶的产业导入速度更快。


4.3.开放场景人形机器人相较于自动驾驶面对更多挑战


4.3.1.特斯拉缺乏语言大模型能力,需要补齐语料数据


如前所述,李飞飞具身智能、谷歌 RT-2 的成果依赖于语言大模型的推动,包括理解人机交互 指令,以及基于语义理解识别家庭场景中种类繁多的物体,还需要对不同物体背后的功能、 重量、硬度等属性进行了解,才能做出决策规划,比如是否需要避障等。而语言大模型的训 练需要大规模的语料数据,谷歌得益于搜索引擎积累了大量优质的语料数据,而特斯拉在过 去缺乏相关语料资源的积累,因此仍需要一定的时间对其进行补充。我们认为特斯拉收购 Twitter 的原因与之有关,将获得大量的语料数据帮助提升人形机器人的能力。


4.3.2.人形机器人运动控制具有极大难度


首先,机器人 200 多个自由度,规划求解可能会导致计算量暴增。根据莫拉维克悖论,对计 算机而言实现逻辑推理等人类高级智慧只需要相对很少的计算能力,而实现感知、运动等低 等级智慧却需要巨大的计算资源,其背后的原因是求解难度非常大。我们在前面介绍自动驾 驶决策控制时解释了车的算法是高维的非凸问题,其实车上只有 6 个自由度,分别是表示位 置坐标的 x、y、z、时间 t、速度、加速度,而人形机器人所对应的机械原理会更加复杂和精 细,全身有 200 多个自由度,这意味着在优化求解时计算量将暴增。而且机器人在更开放的 场域,可能面对更强的安全约束条件,所以如何在计算时能够使其收敛至最优解也会面临较 多的挑战。 假设决策规划通过模型化实现,我们认为如果采用影子模式进行模型训练,则还需要进行人 体运动控制的数据,比如握力方向、握力大小等,因此为了训练人形机器人达到更加类人的 效果,特斯拉还需要做大量的数据采集工作或者在仿真环境下进行模拟仿真。


第二,灵活性要求动态计算,对软硬件响应速度及配合提出较高要求。人形机器人如果想要 达到人类操作的灵活性,所需要做出的运动控制都是实时且连续的,这就意味着在极短的时 间内发生了位移,就需要感知算法在动态的情况下进行连续计算,计算时间差缩短对硬件的 灵敏度、软件计算速度都提出很高的要求。 第三,硬件降本产生的零部件调整,与软件算法稳定性之间存在平衡。2022 年 AI day 上马 斯克提出人形机器人未来的售价将为 2 万美金,我们预计仍需要一段时间完成硬件的降本, 因此目前部分结构件仍处于正向研发阶段,以保证达到降本的需求。但由于软硬件方案是相 互耦合的,硬件降本导致零部件方案变化,会导致人形机器人算法跟着调整,影响软件方案 的开发节奏;其次,由于软件算法与硬件的稳定性与精度有很高的要求,这在一定程度上会 推高硬件成本,因此研发的过程就需要不断在算法稳定性与硬件降本间进行平衡,对工程师 团队带来一定的挑战。


4.3.3.对特斯拉自研算力提出更高的要求


如前所述,自动驾驶汽车出货量增长使得当前特斯拉超算中心达到了较高的占用,而人形机 器人的感知、规控模型均比自动驾驶更复杂,可能在训练期间消耗更多的算力,因此对特斯 拉目前的超算中心的算力提出了更多要求。在各业务均处于算力需求快速增长的情况下,若 一旦出现机器人业务与自动驾驶业务的算力冲突,考虑到自动驾驶业务更成熟,存在量产出 货需求,优先自动驾驶业务对算力资源的需求,则可能影响人形机器人算法能力的迭代,进 而拖慢整体开发进展。目前 Dojo 处于投产建设中,我们判断其投入使用的时间节点也对人 形机器人业务有较重要的影响。 总结以上对于特斯拉人形机器人所面临的挑战,我们判断人形机器人的难度更高,距离产品 成熟仍需要一定的周期,因此我们认为人形机器人的产业链导入也将经历智能度逐步升级的 过程。自动驾驶通常分成 6 个级别,从 L0、L1 一直到最高 L5,等级越高智能化程度越高。 L0 只提供部分预警,L5 则是完全状态下的汽车自动驾驶。质的变化的出现在 L3 级别,在这 个状态下,驾驶员在驾驶位上可以聊天看视频,但是不能睡着,车辆遇到问题报警,驾驶员 需要在规定时间内接管车辆。目前自动驾驶行业正处于从 L2 向 L3 迈进的阶段。类似于自动 驾驶,我们认为人形机器人可能会先在一些相对标准、简单、狭窄的场景中落地,逐步推向 通用型的人形机器人。


5.预测:人形机器人落地节奏及市场规模

站在人形机器人发展早期,去推演其后续的发展节奏,可以自动驾驶汽车智能化迭代的节奏 作为参考: AP1.0 时期(约 24 个月):特斯拉 2014 年 9 月发布 Autopilot,并在 Model S 上使用。 这一阶段特斯拉选择 Mobileye 作为供应商,为其提供 ADAS 服务,而当时的方案能够在 车上进行自适应巡航等功能; AP2.0 时期(约 10 个月):2016 年特斯拉转向自研算法模型,发布了 AP2.0,并推出配 备 AP2.0 的车型,所有车辆都将支持自动驾驶硬件,期间激活 FSD 的智能汽车的渗透率 达到 10.86%; P2.5 时期(约 19 个月):2017 年 7 月中旬发布 AP2 硬件的更新,该版本变化并不大, 较之前没有明显的功能优势;这个阶段主要是小规模的迭代、版本的细化,但体现出明 显的 FSD 渗透率提升,期间激活 FSD 的智能汽车占比达到 19.02% ; AP 3.0 时期:2019 年 3-4 月份开始在车上发布 AP 3.0 硬件,支持完全自研的 FSD,将 原有的 Autopolit 整合为一个体系,但这一阶段由于出货量的增加,特别是 Model 3 等 相对低端车型的推出,使得 FSD 的渗透率又有一定下降。造成这一指标下降的原因一方 面与用户群体的扩散有关,另一方面也与自动驾驶功能展现出一定阶段的瓶颈有关。


结合汽车智能化发展阶段、人形机器人的需求场景、人形机器人算法进展以及我们前述观点 ——人形机器人导入速度更快,但是难度更高,距离产品成熟仍需要一定的周期,我们基于 以下假设对人形机器人 2023-2030 年间的市场规模做出测算:


1)潜在场景及对应需求


从当前时间点看,推动机器人发展的根本原因在于劳动力替代,发生概率较大的两大场景, 一方面是工厂场景下的劳动力替代,主要系人口老龄化、劳动力成本上涨等因素造成的劳动 力短缺;另一方面是家庭场景下的家人陪伴、养老需求。在这两类机器人中,此前工业型机 器人的发展较为成熟,而服务型机器人仍处于相对高增长的阶段,我们预计未来服务型机器 人仍有望维持较高增速,而工业型机器人的增速有所放缓,假设 2021-2030 年服务型机器人 销量的复合增速为 25%,工业型机器人销量的复合增速为 5%。




2)量产节奏及对应市场规模分析


结合对智能驾驶汽车历史回溯及前述对人形机器人、自动驾驶技术难度的分析,我们对人形 机器人未来市场空间及量产节奏进行预测: 研发阶段(2023-2024 年):这一阶段需要完成软硬件方案的固化,包括软件算法成熟度 提升以及硬件降本,由于人形机器人建立在自动驾驶的软硬件体系之上,我们预计该阶 段时间将较自动驾驶缩短,假设经历 2 年时间至 2024 年底; 产业链导入期(2025-2026 年):当软件算法达到一定高度且成本下降到一定水平时,假 设特斯拉先启动小规模试生产,这一阶段由于“尝鲜心理”可能会带来短时间内渗透率 的快速提升;但系早期产品价格会相对较高;预计需要 2 年时间。 渗透率逐步提升(2027-2030 年):随着软硬件成熟度提升,人形机器人无论是用于服务 型还是工业型场景都将进入业务落地阶段,这一阶段产品的渗透率与软件迭代速度有关, 我们认为人形机器人是更开放的场景,且自由度更多,因此产品达到成熟阶段需要较长 的时间,因此预计2027-2030年人形机器人渗透率将小幅提升。相较于服务型场景而言, 工业型场景相对标准,对人形机器人的要求相对较低,其渗透率的提升幅度会相对更快。 从价格端看,硬件的降本推动销售价格逐步下降。


基于以上关键假设,我们对 2023-2030 年人形机器人的发展节奏及市场规模进行预测如下, 得出,预计 2025 年市场规模为 119.1 亿,至 2030 年市场规模为 1134.9 亿,市场空间广阔。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

AI专题报告:人形机器人的AI算法,如何借力于自动驾驶FSD.pdf

中科创达研究报告:全球领先智能操作系统提供商迎终端AI机遇.pdf

澜起科技研究报告:DDR5渗透提速,AI助力互联新品持续发力.pdf

传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf

Astera Labs公司研究:数据中心连接方案独角兽,产品受益于AI服务器强劲需求.pdf

业务视角的中国企业AI+学习发展报告,燃动智火.pdf

机器人行业专题报告:人形机器人与科技新革命.pdf

人形机器人行业专题报告:AI加速具身智能落地,关注电机、传感器部件.pdf

行星滚柱丝杠行业研究:高精技术集成之作,人形机器人线性关节.pdf

人形机器人金属材料行业深度报告:人形机器人加速发展,钕铁硼、镁合金显著受益.pdf

新材料产业深度报告:人形机器人带来新材料机遇.pdf

2024自动驾驶出租车Robotaxi商业化趋势报告.pdf

4D成像毫米波雷达行业专题报告:自动驾驶最佳辅助.pdf

自动驾驶出租车行业(Robotaxi)商业化趋势展望2024:多元共进,聚变开新.pdf

汽车行业专题报告:数据驱动时代“车路云一体化”加速自动驾驶商业化进程.pdf

汽车零部件行业2024年智能驾驶年度策略:自动驾驶开始由创造型行业转向工程型行业.pdf

【安信证券】AI专题报告之十二:人形机器人的AI算法,如何借力于自动驾驶FSD.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00