【财通证券】AGI+机器人行业深度报告：AGI赋能人形机器人，具身智能时代有望加速到来.pdf

2023-11-11

32页

2MB

1 AGI 的关键拼图：起于大模型，终于具身智能

1.1 大语言模型百家争鸣，推动弱人工智能向通用人工智能跃升

AGI（Artificial General Intelligence），即通用人工智能，也称强人工智能（Strong AI），指的是具备与人类同等甚至超越人类的智能，能表现出正常人类所具有的所有智能行为。这种人工智能系统可以比人类更好更快地学习和执行任何任务，包括人类无法处理的任务。并且由于机器在速度、内存、通信和带宽方面的巨大优势，未来，通用人工智能在几乎所有领域都将远远超过人类的能力。《Artificial Intelligence: A Modern Approach》给出了人工智能的最新定义，即设计和构建智能体，这些智能体从环境中接收感知并采取影响环境的行动。如果以人类为中心来定义人工智能，即以人类的智能水平执行任务，那么人工智能需要感知、推理、推断、知识构建、决策和规划、学习、沟通以及高效改变和操纵环境的能力。人工智能大致分为三个主要层次——弱人工智能（ANI）、强人工智能（AGI）和超人工智能（ASI）。与 AGI 相比，传统的基于中小模型的弱人工智能聚焦某个相对具体的业务方面，采用相对中小参数规模的模型以及中小规模的数据集，然后实现相对确定、相对简单的人工智能场景应用。

AGI 技术实现突破，离不开 LLM 大模型和多模态能力，在两者结合下，AI 具备了创造力。大语言模型（LLM）是一种基于深度学习技术的大型预训练神经网络模型，与传统机器学习相比，LLM 具有更强的泛化能力，在复杂任务理解、连续对话、零样本推理等方向有了突破进展。但大语言模型还不符合通用人工智能的要求：（1）处理任务方面的能力有限，LLM 只能处理文本领域的任务，无法与物理和社会环境进行互动；（2）不具备自主能力，它需要人类来具体定义好每一个任务；（3）不具备理解人类价值或与人类价值保持一致的能力，即缺乏道德指南针。因此，单靠 LLM 是无法实现 AGI 的，需要让模型接触到更多的模态数据。每一种信息的来源或者形式，都可以称为一种模态，例如人有触觉、听觉、视觉等。多模态，即从多个模态表达或感知事物，而多模态机器学习，指的是从多种模态的数据中学习并且提升自身的算法。基于 Transformer 的 ChatGPT 出现之后，之后的 AI 大模型基本上都逐渐实现了对多模态的支持：首先，可以通过文本、图像、语音、视频等多模态的数据学习；并且，基于其中一个模态学习到的能力，可以应用在另一个模态的推理；此外，不同模态数据学习到的能力还会融合，形成一些超出单个模态学习能力的新的能力。

萌芽期是以 CNN 为代表的传统神经网络模型阶段；探索沉淀期是以 Transformer 为代表的全新神经网络模型阶段，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升；迅猛发展期是以 GPT 为代表的预训练大模型阶段，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。

尽管 AGI 仍处于发展早期，但其已在包括文字、代码、图像、语音、视频等诸多领域和场景实现应用。目前，以谷歌、微软为代表的国际科技巨头和以百度、阿里等为典型的国内互联网集团纷纷押注大模型研发，旨在以更广的数据及语料规模驱动 AGI 更广泛的商业化落地。据红杉资本预测，AGI 有望提升 10%人类生产力，或产生数万亿美元的经济价值。

1.2 具身智能助力 AGI 走进现实

具身智能是迈向通用人工智能（AGI）的重要一步。具身智能 (Embodied AI) 指的是有身体并支持物理交互的智能体。简单来说，就是让 AGI 从数字世界走向实体世界，落地在机器人、机械臂、无人车、无人机上，让实体世界中的机器人或仿真人具有智能，像人一样与环境交互感知，执行各种各样的任务。

在基于 Transformer 的大语言模型浪潮带领下，微软、谷歌、英伟达等大厂，以及斯坦福、卡耐基梅隆等高等学府均开展了具身智能的相关研究。微软基于 ChatGPT 的强大自然语言理解和推理能力，生成控制机器人的相关代码；英伟达 VIMA 基于 T5 模型，将文本和多模态输入交错融合，结合历史信息预测机器人的下一步行动动作；谷歌具身智能路线较多，包括从 PaLM 衍生来的 PaLM-E，从 Gato 迭代来的 RoboCat，以及最新基于 RT-1 和 PaLM-E 升级得到的 RT-2；苹果内部已经建立了大语言模型 Ajax，并推出了一个被称为 Apple GPT 的内部聊天机器人来测试其功能。斯坦福大学李飞飞团队研究指出，通过大语言模型加视觉语言模型，AI 能在 3D 空间分析规划，指导机器人行动，其最新研发成果 VoxPoser 可以在没有额外数据和训练的情况下，将自然语言指令转化为具体行动规划；加州大学伯克利分校的 LM Nav，则通过视觉模型、语言模型、视觉语言模型 CLIP 等三个大模型，让机器人在不看地图的情况下按照语言指令到达目的地。

国内具身智能的相关研究也正持续推进。达闼机器人在世界人工智能大会上发布了首个机器人领域的多模态人工智能大模型“RobotGPT”，能使接入云端大脑的机器人基于人工反馈的强化学习而不断提升学习能力，实现机器人理解人类语言，自动分解、规划和执行任务，进行实时交互，完成复杂的场景应用，推动具身智能的自主进化，让云端机器人成为通用人工智能的最佳载体。智元机器人团队实现了自然语言端到端到机器人的映射，可以用自然语言让机器人编排整个任务，还能动态调整任务。

2 人形机器人是 AGI 最佳载体，业界研究进展加速

2.1 从 RT-1 到 RT-2，谷歌演进式打造全能机器人大脑

2017 年提出的 Transformer 架构是大语言模型（LLM）的最底层的基座，但 Transformer 不止可以应用于大语言模型中，也可以用于训练其他类型的数据。在大语言模型（LLM）中，语言被编码为向量，研究员们为模型提供大量的语料，使其具备上下文学习、指令遵循和推理等能力，借此生成语言回答。而在视觉语言模型（VLM）中，模型可以将图像信息编码为与语言类似的向量，让模型既能理解文字，又能以相同方式理解图像。研究员们为模型提供大量的语料和图像，使其能够执行视觉问答、为图像添加字幕和物品识别等任务。视觉和语言数据属于被动数据，可由人类提供，而机器人的动作数据属于主动数据，来源于机器人自身，获取难度大、成本高。RT-1 是迈向视觉语言动作（VLA）模型的一个尝试，它的数据集包含了视觉、语言和机器人动作三个维度，但 RT-1 的能力很大程度上由数据集和任务集决定，对新指令的泛化仅限于以前见过的概念的组合，且要进一步扩大数据集规模是一件非常困难的事。

通过从大型的、多样化的、与任务无关的数据集中迁移知识，现代机器学习模型能够以较高的性能解决特定的下游任务，但这种能力在机器人领域仍有待进一步的应用考证。主要的挑战有两点：1）缺乏大规模和多样化的机器人数据，这限制了模型吸收广泛机器人经验的能力；2）泛化能力不足，缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。 2022 年 12 月，谷歌推出了 RT-1（Robotics Transformer 1）,有效应对以上两点挑战，推动机器学习在机器人领域的应用。RT-1 建立在 Transformer 架构上，它能从机器人的相机中获取图像历史记录同时将以自然语言表达的任务描述作为输入，通过预训练的 FiLM EfficientNet 模型将它们编码为 token，然后通过 TokenLearner 将大量标记映射到数量更少的标记中，实现标记压缩，最后经 Transformer 输出动作标记。动作包括手臂运动的 7 个维度（x、y、z、滚动、俯仰、偏航、打开夹具），移动底座的 3 个维度（x、y、偏航），以及在三种模式（控制手臂、底座或终止）之间切换的 1 个离散变量。

RT-1 通过吸收大量的真实数据，让机器人胜任不同环境下的多种任务，从而提升机器性能和泛化能力。RT-1 是在一个由 13 台机器人历时 17 个月收集的包含 13 万个事件和超过 700 个任务的大型真实世界机器人数据集上训练而成的。RT-1 的性能优于之前发布的基线，能够以 97%的成功率执行 700 多条指令，并能有效地泛化到新的任务、对象和环境中。此外，RT-1 可以成功吸收来模拟环境和其他机器人的异构数据，不仅不牺牲在原始任务上性能，还提高了对新场景的泛化能力。

2023 年 7 月 28 日，Google DeepMind 推出全球首个控制机器人的 VLA 模型 RT2（Robotics Transformer 2），可以从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令。RT-2 以两个已接受网络规模数据训练的视觉语言模型（VLM）PaLM-E 和 PaLI-X 为支柱，相当于赋予机器人规模足够大的数据库，使其具备识别物体和了解物体相关信息的能力。进一步，RT-2 还使用了 RT-1 的数据集进行联合微调，通过加入机器人动作数据进行训练，使其具备动作执行能力。具体来说，研究人员将机器人的动作表示为另一种语言，可以将其转换为文本标记，并与互联网规模的视觉语言数据集一起进行训练。在推理过程中，文本标记被去标记化为机器人动作，从而实现闭环控制。

通过将视觉语言模型与机器人操作能力结合，将网络规模预训练的 VLM 在语义和视觉上的泛化、语义理解和推理等能力有效转移，实现机器人版 ChatGPT。因而在泛化能力之外，RT-2 还具备三个涌现能力：1）推理（Reasoning）： RT-2 的核心优势，要求机器人掌握数学、视觉推理和多语言理解三大技能；2）符号理解（Symbol understanding）：能将大模型预训练的知识，直接延展到机器人此前没见过的数据上；3）人类识别（Human recognition）：能够准确识别人类。

与基线相比，RT-2 在泛化能力和涌现能力上均有明显提升。在泛化能力上，对于未见过的物体、背景和环境，RT-2 的表现均明显优于基线，平均泛化性能大约为 RT-1 的 2 倍；在涌现能力上，从符号理解、推理和人类识别这三个细分能力看， RT-2 的两个变体都比基线好很多，平均性能最高可达 3 倍以上。

具有思维链推理能力的 RT-2 能够执行更复杂的指令。研究人员对 RT-2 的一个变体与 PaLM-E 进行了微调，并对数据进行扩充，增加了“计划（Plan）”步骤，该步骤首先用自然语言描述了机器人将要采取的行动的目的，然后是实际的行动符号。定性结果表明，具有思维链推理能力的 RT-2 能够执行更复杂的指令，因为它可以先用自然语言规划自己的行动。

2.2 OpenAI 升级迭代 GPT，推动机器人“大脑”升级

GPT（Generative Pre-Training）是 OpenAI 于 2018 年推出的第一代生成式预训练模型。此前，NLP 任务需要通过大规模数据集来进行有监督的学习，需要进行成本高昂的数据标注工作。GPT 通过将无监督的预训练和有监督的微调结合，为 NLP 任务提供一种普适的半监督学习方式。

GPT-4 是 OpenAI 发布的最新 GPT 系列模型，是目前最强的文本生成模型。它是一个大规模的多模态模型，可以接受图像和文本输入，产生文本输出。GPT-4 突破纯文字的模态，增加了图像模态的输入，具有强大的图像理解能力，复杂任务处理能力大幅提升，同时改善幻觉、安全等局限性，其能力已在各种专业和学术基准上表现出了人类的水平。

2023 年 9 月 25 日，OpenAI 宣布推出 GPT-4V(ision)，新增语言、图像交互功能。 GPT-4V 的开发完成于 2022 年，并在 2023 年 3 月开始提供早期体验。GPT-4V 的训练策略与 GPT-4 保持一致，首先采用大量的文本和图像资料进行初步训练，随后通过人类反馈的强化学习进行细化调整。训练后的 GPT-4V 允许输入图像、子图像、文本、场景文本和视觉指针，展现了指令遵循、思维链和上下文少样本学习等学习能力。同时，OpenAI 正式官宣 ChatGPT 升级为多模态通用大模型。多模态 ChatGPT 的主要更新点包括：（1）图像分析：升级后的多模态 GPT3.5 和 GPT4 能够解读图片中的内容，并根据图像信息进行响应。（2）语音处理：增加了语音交互功能。其语音识别采用 OpenAI 的 Whisper 模型。对于语音合成功能，OpenAI 采用新颖的“文本转语音模型”。（3）推理能力：较之 ChatGPT，GPT-4 能解决逻辑更为复杂的问题。

类 GPT 技术为机器人带来最核心进化是对话理解能力。具备了多模态思维链能力的 GPT-4 模型具有一定逻辑分析能力，已经不是传统意义上的词汇概率逼近模型。此外，在机器人研发和制造环节，类 GPT 技术也促进机器人研发制造环节效率提高。机器人接入 GPT 的可以粗略分为 L0~L2 三个级别：

GPT-3、GPT-3.5 以及 GPT-4 发布之后，Engineered Arts 便将它们接入到了 Ameca 机器人的“大脑”中。有了 GPT-3/3.5 的 Ameca 可以像专家一样与工程师们谈笑风生，也能快速对答网友的提问，而不再是此前实验室里只会做 20 多种丰富表情的仿生机器人，它有了自主性。而有了 GPT-4 意识能力加持的的 Ameca 已经可以通过丰富表情来让人类形成多层对话意图的理解，成功从一个快问快答急于表现的“聪明人”，变成了一个深邃娓娓道来的“智者”。

英伟达基于 GPT-4 打造 Eureka，可自动训练实体机器人的动作指令，具备零样本生成、编写代码和语境改进等能力，可对强化学习的奖励设计流程、代码进行大幅度优化，达到人类专家级水平。Eureka 利用 GPT-4 生成出的奖赏设计方案可助力机器人的试错（trial-and-error）学习，并能够起到接替 80%人类专家的任务，从而使机器人平均训练效率提升超过50%。并且，在Eureka生成奖赏设计方案时，开发者不需要额外输入任务提示或撰写预定义的奖赏范本，只需结合人工修正奖赏使机器人动作更符合开发人员的意图。

2.3 Meta 与 CMU 联手打造 RoboAgent，用更少的数据训练更强的具身智能体

ChatGPT 获得巨大成功后，OpenAI 已然奔向下一个目标——AI Agents（智能体）。无独有偶，Meta 也看到了 AI Agents 的机会。今年 3、4 月份，Camel、AutoGPT、 BabyAGI、西部世界小镇等多个 AI Agents 产品陆续推出。 AI Agents 可以定义为基于 LLM 驱动的 Agent 实现对通用问题的自动化处理。AI Agents 代替人类与 GPT 等大语言模型（Large Language model, LLM）进行反复交互，只要给定目标，它便可以模拟智能行为，自主创建任务、重新确定任务列表优先级、完成首要任务，并循环直到目标达成。LLM 主要是一个被动的工具，但 AI Agents 可以在没有人类控制的情况下独立运行。通过接入 API，AI Agents 甚至可以浏览网页、使用应用程序、读写文件、使用信用卡付款等等。从架构来说，AI Agents 就是以 LLM 为大脑，再赋予任务规划能力、长短期记忆力、工具使用能力，即可实现自动化处理更复杂的任务。通过建立思维链来实现模型的连续思考和决策，AI Agents 可以分析复杂问题，并将其拆解成简单、细化的子任务。

“RoboAgent”是被来自 Meta、CMU 的研究人员用了 2 年的时间打造出的通用机器人智能体，突破了缺乏足够庞大的数据集来训练通用智能体和缺乏能够生成此类数据的通用智能体的困境。研究员们将重点放在开发一种高效的范例上，能够在实际数据有限的情况下训练一个能够获得多种技能的通用智能体，并将这些技能推广应用于多样的未知情境。为实现这一目标，Meta 和 CMU 开发了一个高效的系统——MT-ACT，即多任务行动分块转换器（Multi-Task Action Chunking Transformer）用于训练通用机器人。该系统的核心原理是，在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集，并采用一种具有高效策略表示的新型策略架构，以在数据预算范围内恢复高性能策略。在 MT-ACT 加持下，RoboAgent 能够在 6 大活动情景，38 个任务中，实现 12 个操作技能，能力泛化可达到 100 种未知场景。

RoboAgent 基于两个关键的阶段来学习低数据环境下的通用策略。它利用来自基础模型的世界先验知识来避免模式崩溃，并采用一种能够摄取高度多模式数据的新型高效策略表示法。（1）语义增强（Semantic Augmentations）：RoboAgent 通过对 RoboSet（MT-ACT）进行语义增强，将来自现有基础模型的世界先验知识注入其中。由此产生的数据集可在不增加人类/机器人成本的情况下，将机器人的经验与世界先验相乘。（2）高效的策略表示（Efficient Policy Representation）：由此产生的数据集具有高度的多模态性，包含丰富多样的技能、任务和场景。Meta 和 CMU 将动作分块适应于多任务设置，开发出 MT-ACT——一种新颖高效的策略表示，既能摄取高度多模态的数据集，又能在低数据预算设置中避免过度拟合。

从数据集 RoboSet 出发，经过数据/语义增强处理，进而经由 MT-ACT 策略处理，便是 RoboAgent 的核心原理。下面对各个部分和步骤进行详细介绍。用于训练 RoboAgent 的数据集 RoboSet (MT-ACT)仅包含 7500 条轨迹，比 RT-1 少 18 倍。该数据集由在商品机器人硬件（配备 Robotiq 夹具的 Franka-Emika 机器人）上使用人类远程操作收集的高质量轨迹组成，涉及多个任务和场景。RoboSet （MT-ACT）涵盖了几个不同场景中的 12 种独特技能。收集该数据集的方法是将日常厨房活动（如泡茶、烘焙）划分为不同的子任务，每个子任务代表一种独特的技能。该数据集包括常见的拾取-放置技能，也包括擦拭、盖盖子等接触性较强的技能以及涉及铰接物体的技能。

机器人数据+语义增强满足训练场景和数据多样性需求。一般来说，有用的机器人操纵系统需要能够处理分布以外的场景（例如不同的家庭和办公室）。研究人员使用两种场景增强技术——增强交互对象和增强背景，来使数据倍增，泛化到有不同的背景和不同交互对象的场景。同时，基于最近在分割和局部重绘模型方面取得的进展，研究人员从互联网数据中提炼出真实世界的语义先验，以结构化的方式修改场景，进一步满足训练对场景和物体多样性的需求。

MT-ACT 策略架构设计是一个有足够容量的 Transformer 的模型，可以处理多模态多任务机器人数据集，也是 RoboAgent 的核心架构。

2.4 特斯拉打通自动驾驶的 FSD 算法与机器人板块，Optimus 迎来新进展

特斯拉的 FSD 是指全自动驾驶系统，包含多个传感器、计算能力较强的计算机、先进的人工智能技术和算法，以及相应的导航和地图数据等组成部分，使得车辆在各类交通环境中具备感知、决策和控制的能力。而特斯拉机器人 Optimus 将使用与该公司电动汽车相同的 FSD 系统，FSD 和机器人的底层模块之间实现了链接。

Occupancy Networks 是特斯拉在自动驾驶汽车上的神经网络模型，这是让 Optimus 机器人感知并理解周围环境的重要技术，绿色代表人类，紫色代表地面，而白色则代表不重要的物品但不能碰到，暗红色则代表预设任务目标，蓝色代表的是工具，青色代表的自己身体。从演示的画面来看，在 Occupancy Networks 这套模型下的帮助下 Optimus 对环境空间有着相对精准的识别能力，通过基这套神经网络模型的学习和训练，Optimus 就能清楚的知道自己位置，具备分析与执行的工作能力，包括即将需要去做的工作，如何完成工作等。

2023 年 9 月 24 日，特斯拉 Optimus 迎来了新的进展，它可以自主地对物体进行分类了。其中的亮点是神经网络完全端到端训练：输入视频，输出控制，这类似于特斯拉自动驾驶 FSD V12 开发中的神经网络训练——处理所有输入信号，输出驾驶决策。精确的校准能力使 Optimus 更高效地学习各种任务，并且仅使用视觉，其神经网络完全实现了 on-board 运行。这样一来，Optimus 可以完全自主地将物体按颜色进行分类。团队资深软件工程师 Julian Ibarz 表示只需要收集更多数据，则无需更改任何代码就可以训练新的复杂任务。Optimus 并没有聚焦高爆发力、高动态扭矩这些通用化运动问题，而是在底层逻辑和算法方面，让 Optimus 初步具备了识别环境空间，以及完成标定任务等工作。

此外，Optimus 也展示了其基于端到端 AI 学习人类行为的过程，还展示了其从一个容器中拾取物体并将它放入第二个容器中。值得注意的是，操作员只是亲自完成任务，而机器人则从过程中学习，并非直接被操纵，这需要机器人看到物体、绘制出它们的 3D 形状、弄清楚如何更好地接近它们，然后选择合适的电机运动和角度变化抓住并抬起物体。Optimus 端到端训练的神经网络可以最大限度地提升 Optimus 的本地安全性。它需要使用遥控器或手机暂停，而不需要集中式的控制。 Optimus 在任务操作方面的先进性已初露锋芒，比起运动神经，它显露出更多“智慧”。这在很大程度上得益于特斯拉对其自动驾驶技术的复用，它加快了人形机器人的技术迭代速度。马斯克曾表示，机器人所采用视觉算法、计算芯片、电池均与特斯拉汽车产品线共用。他强调现在是推进研发人形机器人的绝佳机会，因为可以共享大量自动驾驶领域的软硬件技术成果，认为自动驾驶的本质其实就是机器人。

3 机器人拥抱大模型：迈向 AGI 的曙光与挑战

3.1 大模型+机器人：AGI 如何走向物理世界？

大模型之前的 AI 模型多是面向特定领域单独训练的，面对新场景通常需要“数据收集——标注——训练——部署——应用”等一系列流程，耗时长且通用性差。大模型的出现让高成本的垂直领域 AI 开发变成“预训练大模型+特定任务微调”的形式，大幅提高模型的泛化能力和开发速度，在面向各种精度要求不高的场合时具备了一定意义上的通用智能。人工智能大模型的语言处理能力可以被看作“大脑”，若想真正发挥通用人工智能的力量，未来的 AGI 需要有具身实体，让它能够和真实物理世界交互，完成各种任务，如此才能让技术带来更大价值。据图灵奖获得者姚期智所言，打造一个有泛应用能力的通用机器人，既要让它具备人类这一具身智能体所具备的身体、小脑、大脑三个主要成分，还要让它更适应人类社会环境，人形是最合适的形态。

目前进展最大也最有可能跟机器人深度结合的是大语言模型（LLM），有助于实现任务级编程/交互。只需要告诉机器人它要做的任务是什么，机器人就会理解需要做的事情，拆分任务动作，生成应用层控制指令，并根据任务过程反馈修正动作，最终完成人类交给的任务。整个过程基本不需要或者仅需少量人类的介入和确认，基本实现了机器人自主化运行，无需掌握机器人专业操作知识的机器人应用工程师介入。

任务级编程或者任务级交互落地之后，机器人的使用者从工程师变成了一般用户。在大模型之前，一般只有控制和反馈环节是由计算机自动完成，前面的任务定义、拆解和机器人运动代码生成主要是机器人工程师完成。大模型并不适合做底层精确的控制，更适合做相对模糊的任务级规划，通过大模型直接生成机器人应用级代码是目前看来技术储备最多，最有可能快速落地的方向，这就降低了机器人的使用门槛。当然，靠 AI 完全自主生成的机器人代码可能存在不完备、不安全的问题，这时候就需要人类介入（RLHF）进行确认、修改、调优等工作。

任何一个系统对外界的影响程度取决于它的输出能力，计算机系统的输出都是虚拟的，无法对现实世界产生物理的影响，而机器人的输出包含了虚拟和物理两种能力。多输入多输出能力是通用机器人平台的基础能力，也是机器人具备从事多种多样任务能力的硬件基础，也由此构成了机器人作为物理世界平台的基础。多模态大模型使得机器人开始理解如何合理使用多种输出能力来更好的完成任务。但语言大模型和图像大模型以及其他多模态大模型之间的知识如何映射、如何链接仍然是一个未能很好解决的难题。

3.2 大模型+机器人还在路上，AGI 道阻且长

根据 Stuart Russell 在 2023 北京智源大会上的演讲，我们离通用人工智能还很遥远，仍然存在许多尚未解决的重大问题。如果说通用人工智能是一件完整的拼图，大语言模型仅仅只是其中的一块，但我们并不真正了解如何将它与拼图的其他部分连接起来，甚至还有部分缺失的拼图没有被找到。

操作安全性可分为任务级安全性与操作级安全性。任务生成的安全性指的是大模型生成的任务动作是否能很好的适应新环境和新情境，不会对环境造成破坏或者引发安全性后果，本质上是模型产出的鲁棒性问题。虽然大模型具备很强的通识能力，但是如何保证每一次生成的任务都符合彼时情境的安全规范，仍然是一个需要持续优化的问题。除了需要常识就能解决的任务生成问题，在很多需要专业技能的领域机器人还要关注细微工艺动作是否符合安全规范，这就是操作动作的安全性。此外，机器人的发展需要收集很多数据，其中也面临很多安全隐私等方面的问题，即数据安全与信息安全。缺乏高质量训练数据也是大模型和机器人融合需要解决的难题之一。机器人需要通过多种传感器感知环境状态，然后执行实际动作来完成任务，因此训练用于机器人的大模型需要用到大量机器人在真实世界中与环境进行交互的数据集。相比图像和自然语言处理领域可以从网上大量获取训练数据或者通过人类标注快速低成本的获取数据，可用于训练机器人学会执行新任务新技能的高质量数据非常匮乏。一方面是由于机器人真实数据收集效率低且可能会对周围环境造成影响，另一方面是由于机器人保有量还太少。在欠缺优质数据的大背景下，仿真数据、真实机器人数据、教学视频、自然语言数据都有可能对训练机器人基础大模型有至关重要的作用。

展望未来，大模型会给机器人软件系统带来系统性的变革。随着 AI 大模型的发展，机器人的功能越来越多，机器人软件化的定义将愈加明显，机器人公司的软件能力和服务将成为新的评价指标。之前面向固定领域的工业机器人、协作机器人、移动机器人的产品形态将无法满足未来更多样任务的需求，多模态大模型必然需要多模态机器人。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）