【五矿证券】人形机器人报告（一）：大模型视角下人形机器人的现在和未来.pdf

2023-12-19

33页

4MB

人形机器人的核心价值来自通用性

工业机器人虽然技术成熟，但却无法解决泛化性的问题，不适应现代制造业柔性生产的需要。我们认为人形机器人将作为工业机器人的补充，与工业机器人共同推进制造业的智能化发展。如何增强机器人的泛用性是行业一直致力解决的问题。传统的工业机器人并不能直接使用，需要被系统集成商集成后使用。机器人的系统集成需要对客户工艺的深刻理解，是高度定制化的环节，同时也是严重依赖工程师经验的环节。系统集成不仅增加了工业机器人的使用成本，还使工业机器人失去了泛化性。在工业机器人被集成的过程中，工业机器人遵循编写好的程序运行，与应用场景高度绑定。一旦环境变化后，用户需要通过工程师重新部署、编程，无法通过简单操作实现场景适配。这注定了工业机器人适用于大规模、重复性生产，无法适应柔性化生产的需要。这严重限制了机器人的使用范围，阻碍了机器人行业的成长。2022 年工业机器人市场规模 585 亿，并不是一个非常大的市场。

尽管工业机器人已经广泛应用于汽车、3C、纺织、包装等行业，但在这些行业之中依然有大量环节离不开人工。以汽车行业为例，目前工业机器人在汽车行业主要应用于搬运、上下料、焊接、喷涂、切割和冲压。在打磨、清洁、检测、分拣、包装等领域依然依赖人工。在汽车的总装环节 95%依然是重人工。原因在于：1）汽车总装的时候需要工人进入车内空间操作，而车内空间是有限的、为人体设计的，工业机器人没有多余的施工空间；2）单个工人使用的工具超过 10 个，并非简单、单一的操作。

小米集团高级副总裁曾学忠认为，在未来智能制造体系里面，自动化设备、人形机器人以及人将以 7：2：1 黄金法则来组成。未来 70%的对制造质量和制造效率要求高的工作依靠自动化设备来完成；20%高复杂度、高柔性的场景需要人形机器人来完成；10%是工作还是要依靠人，因为最终数据与价值的管理还是要依靠人，人才可以定义价值。根据智研咨询，2022 年中国自动化设备的市场规模达到 2909 亿元，全球自动化设备达到 2308 亿美元。以此推算，仅在工业制造领域，人形机器人未来潜在市场规模约 660 亿美元（全球市场）。

人形机器人会带来整个自动化市场的扩张。我们希望机器人渗透到社会的方方面面帮助我们工作，但当前的工业机器人需要系统集成商去安装部署，所以很难渗透到非标准化的场景之中，这限制了整个行业的市场规模。我们认为，依赖人形机器人的泛用性，未来机器人可以从标准化工业场景进一步渗透到非标准化场景，也包括建筑、商业导览、医疗护理、教育培训、家庭服务等非工业领域。这将会给机器人行业带来远超之前的市场空间。 “人形”只是表象，通用+智能是人形机器人更为核心的价值。选择“人形”，只是因为我们活动的世界是为人的身体所创造的，人的形态可以操作一切工具，具有最广泛的适应性。通用+智能才是人形机器人的核心价值。人形机器人的发展也不是孤立的，而是从四足机器人、机械臂上衍化而来。人形机器人的“小脑”运动控制算法，是在四足机器人的基础上发展而来。人形机器人的“大脑”大模型，常被搭载在机器臂上进行研究。所以在讨论广义的人形机器人时，我们不局限于特斯拉 Optimus 这样的双足机器人，也会讨论波士顿动力 S pot 这样的四足机器人，甚至还包括谷歌 everyday robot 这样的轮式机器人。

人形机器人潜在的市场规模是巨大的。比亚迪 2022 年年报披露，比亚迪共有员工 57.01 万人，其中生产工人 44.21 万人，占比 78%。可见即使在高度自动化的汽车行业，依然有大量环节是工业机器人无法胜任的，需要依靠人工的力量。假设比亚迪的生产工人中有 10%（4.4 万人）被人形机器人按 1:1 比例替代，按单台机器人 20 万估算，仅一家企业就能贡献 88 亿元市场规模。

大模型加速人形机器人产业化落地

人形机器人出现多年，但功能一直集中于简单的跑跳、抓取，几乎没有可以落地的商业场景。以 chatGPT 为代表的新一代人工智能技术，让人形机器人的场景落地进度大大加快。我们认为人形机器人是 LLM+机器人领域的一种 AI Agent，是大模型落地的重要场景之一。 LLM 充当机器人的大脑，很好解决了以往机器人的两大难题：1）基于“常识”的语义理解， 2）复杂任务的分解。LLM 赋予人形机器人更好的人机交互能力、规划决策能力，解决了传统工业机器人的泛用性问题。

技术和成本限制人形机器人的产业化

早在 1973 年，日本早稻田大学就制造出了世界上第一台人形机器人 WABOT-1。WABOT-1 不仅能与人交流，还可以抓握和运输物体。WABOT-1 行走一步需要 45 秒，步伐也仅有 10 厘米左右。1984 年，WABOT-2 诞生。WABOT-2 具有与日本人进行自然对话的能力，还能用眼睛看乐谱，用手脚灵活地演奏电子琴，具有演奏中级难度音乐的能力。此外，它还可以识别歌声，自动进行转录。尽管人形机器人早已出现，但商业化落地始终没有成功。本田、波士顿动力曾尝试过人形机器人的商业化，均已失败告终。

本田的 ASIMO 机器人

本田的 ASIMO（中文名：阿西莫）机器人，是全球最早实现双足行走能力的机器人。 “ASIMO”的初代型号于 2000 年 10 月 31 日推出，但其前身可以追溯到 1986 年。 1986 年，本田制造的第一台机器人被称为 E0。E0 只有“下半身”而且走得很慢，有时需要 20 秒才能完成一个步骤，所以也被称为 “静态步行”。 1987 年，本田推出 E1，可以执行“动态步行”，更加类似人的步伐。 1991-1993 年，本田陆续推出了 E4\E5\E6。此时机器人已经可以轻松在斜坡、楼梯、崎岖不平的路面行走。 1993-1997 年，本田推出 P1/P2/P3 机器人，看起来更具“人形”，可以抓住物品、推动小车、在外力作用下保持平衡。 2000 年，第一代 ASIMO 推出，之后分别于 2006 年、2011 年推出了第二代、第三代 ASIMO。第三代 ASIMO 已经有高达 57 个自由度，可以实现 9km/h 的行走速度，可以上下楼梯、开瓶、倒水，还可以对周围人群或动物的位置、动作和行动路线进行预估判断。

尽管人形机器人可以行走、开瓶、倒水，但离实际应用还有一段距离。2011 年福岛核电站事故发生后，民众希望把 ASIMO 派到核电站进行灾后救援工作，但本田表示“现在还没有达到大家期望的技术水平”。同时，ASIMO 的高达 300-400 万美金的造价也决定了 ASIM O 很难商业化落地。2018 年 6 月 28 日本田汽车公司官方已经宣布停止人形机器人 ASIMO 的研发，以专注于该技术的更多实际应用。

波士顿动力

波士顿动力起源于 1983 年成立的 The Leg Laboratory。1992 年，创始人马克·雷波特（Marc Raibert）将波士顿动力从麻省理工学院独立出来，成为一家独立运作的公司。波士顿动力的早期项目大多是和军方合作。2005 年，波士顿动力和美国国防高等研究计划局合作的四足机器人 Big Dog 和用于逼真人体模拟的 DI-guy 问世，让波士顿动力名声大噪。之后，波士顿动力又陆续推出多个产品，其中有代表性的包括 LS3、cheetah、Atlas、Spot 等。

波士顿动力很多机器人都没有产业化，主要原因在于：1）应用场景，波士顿动力的机器人很多是以军用目的研发的，设计之初就不是以民用为目的。2）价格，由于以军用为目标进行研发更看重性能要求，波士顿动力的机器人采用了高成本的液压驱动的系统。液压驱动系统的优点是明显的——抗负载刚性大、驱动力大，但功耗高、自重更重，也很难降本。波士顿动力在 2020 年推出了首款商用机械狗 Spot，尽管采用了电驱动关节，但售价依然高达 7.45 万美元。彭博社报道 2020 年 spot 仅卖出了大约 400 台。与此同时，波士顿动力几经易手，估值大幅下调。2013 年，波士顿动力以 30 亿美元被 google 收购，被归入 Google X项目下。2017 年，日本软银以不公开条款收购了波士顿动力的股权。 2020 年现代集团斥资 8.8 亿美元收购了波士顿动力 80%股份，对应估值从 30 亿美元下降到了 11 亿美元。

LLM：人工智能迈出走向 AGI 的重要一步

基于对于智能的不同理解，人工智能产生了不同的流派。符号主义：符号主义认为智能是基于逻辑规则的符号操作，人的认知活动是符号计算的过程。智能的核心就是根据某套规则做出理性决策。1956~1986 年，符号主义经历了从一枝独秀到逐渐衰落的过程，对应人工智能发展的第一次浪潮。当时 AI 的主要成就是用机器证明的办法证明和推理一些知识，能够解开拼图或实现简单的游戏。但当时的人工智能却几乎无法解决任何实用的问题。联结主义：联结主义也被称为仿生学派，认为智能是脑神经元构成的信息处理系统。他们认为大脑是由神经元构成的神经网络联结而成，而人类智能的实现过程就是通过神经网络中神经元之间的交互而实现。70 年代，神经元联结网络模型突飞猛进，并在文字识别、字符识别、人脸识别等垂直领域获得了应用。联结主义贯穿第二次人工智能浪潮（1976-2006）和第三次人工智能浪潮（2006 至今）。两者的划分点在于深度学习算法：随着硬件瓶颈的突破、模型的进步，深度学习算法取得突破并在第三次浪潮中被广泛运用。

行为主义：行为主义也被称之为进化主义，认为智能是通过感知外界环境做出相应的行为。符号主义和联结主义并未真正解决智能体与真实物理世界交互的难题，在可解释性、鲁棒性方面也面临很大挑战。莫拉维克悖论（要让电脑如成人般地下棋是相对容易的, 但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的）就体现了很多学者的担忧。布鲁克斯从控制论角度出发, 强调智能是具身化和情境化的，智能体必须拥有“身体” 并通过与真实世界的交互来发育或进化出智能。行为主义希望能够通过模拟生物的进化机制，使机器获得自适应能力。在第三次浪潮中，人工智能又分化出 2 个研究主线：一个是 AlphaGo 为代表的判别式 A I；另一个是以 chatGPT 为代表的生成式 AI。

生成式 AI 的历史原型可以追溯到 20 世纪 60 年代的聊天机器人 Eliza，但直到 2014 年生成对抗网络 GAN 模型（Generative Adversarial Nets）被提出，它才开始了实质性发展。此后，随着 VAE 模型（Variational Auto-Encoder）、扩散模型等新训练方法的提出和应用，生成式 AI 迎来了高速发展。

生成式 AI 领域最大的突破还是来自于大语言模型（Large language models，LLM）。2017 年 google 提出 transformer ，为之后的大语言模型奠定基础。2022 年 11 月 open AI 上线了大语言模型 chatGPT，并在 2023 年 1 月活跃用户达 1 亿，成为历史上增长最快的应用。 2023 年 3 月，Open AI 推出 GPT-4，在 chatGPT3.5 的基础上进一步拥有多模态能力，可以接受图像输入并理解图像内容。

GPT 惊人的展现出了创造力，因而有观点认为 GPT 正在逐渐演化为一种“通用人工智能” （Artificial General Intelligence，AGI）,尽管这种观点并未达成一致。中科院院士张钹认为， “chatGPT 向通用人工智能迈出了一步”。微软也在《人工通用智能的星星之火:GP T-4 的早期实验》一文指出，“GPT-4 能力的通用性，与跨越广泛领域的众多能力相结合，以及它在广泛的任务范围上达到或超越人类水平的表现，使我们可以轻松地说，GPT-4 是迈向 AG I 的重要一步”。在 GPT 之前，AI 研究的主阵地是专用 AI 或者功能性 AI，发展路径走的是“先专后通”。先在下棋、计算、图像识别、语音识别等专业细分领域入手，在专业领域有足够积累之后逐步演化为通用智能，是以往人工智能发展的主流路径。大模型打开了一条“先通后专”的人工智能发展路径。AI 先具备庞大的先验知识库和通识理解能力，在此基础上我们再给 AI 赋予专业能力，会让很多原来不可能的任务变得简单。比如，让机器人把桌上垃圾扔到垃圾桶里，不再需要告诉它垃圾是什么、垃圾桶是什么，这些都在预训练的大模型里。

具备通识理解能力的大模型，将作为一项通用目的技术赋能各行各业，成为经济增长的重要引擎。现代经济增长理论有“通用目的技术”（General Purpose Technology，GPT）的概念。与之对应的则是“专用目的技术”（Specific Purpose Technology，SPT）。通用目的技术的影响范围广泛，对经济具有整体性影响，通常被称为“经济增长的引擎”。Bresnahan 和 Trajtenberg 认为通用目的技术应该具备的特点包括：1）普遍适用性；2）进步性，通过持续创新学习，通用目的技术的表现会随着时间推移改进；3）创新孕育性，通用目的技术的创新会促进相关应用技术的创新。Lipsey 等人在《Economic transformations: general purpose technologies and long-term economic growth》中曾对历史上的通用目的技术进行过专门的研究。研究结果显示，从公元前 9000 年至今，只有 24 种技术可以称为通用目的技术。陈永伟则在《作为 GPT 的 GPT：通用目的技术视角下新一代人工智能的机遇与挑战》一文指出，生成式 AI 也应当可以被认为是通用目的技术。

大模型问世后，具体如何应用落地一直有所争议，但近期基于 AI Agent 的落地方式逐步得到认可。 AI Agent 的核心意义在于补足了执行环节，强调大模型与真实世界的互动，从而构建了完整的信息闭环。完全基于互联网的文字、图片信息训练而来的 GPT 具有一定的通识能力和推理能力，展现出了智慧的火花。但这种智能是“纸上谈兵”，缺乏对现实世界复杂性和多样性的深刻。图文是一种抽象的、高度凝练的信息，在传递信息的时候也遗漏了很多信息，这从根本上决定了大模型存在一些难以避免的局限性。我们认为，大模型需要与真实世界产生互动，并通过“具身交互”构建多模态的“感知-认知 -执行”的完整信息闭环。AI 三大学派中的行为主义学派有类似的观点——行为主义学派认为，智能体必须拥有“身体”并通过与真实世界的交互来发育或进化出智能。

目前对 AI Agent 没有形成完全统一的定义。复旦大学团队在 The Rise and Potential of Large Language Model Based Agents: A Survey 提出，AI Agent 的框架包括三个部分：控制（brain）、感知（perception）、行动（action）。OpenAI 应用研究主管 LilianWeng 对 AI Agent 的形容是：Agent=LLM+记忆+规划+工具使用。其中 LLM 是核心大脑；记忆、规划、工具使用则是 Agents 系统实现的三个关键组件。一般认为，AI Agent 是具有自主性、反应性、积极性和社交能力特征的智能实体，本质是一个可以感知其环境、在给定目标下做出决策并采取行动的系统。

AI Agent 更强调“执行”，会带来人与人工智能交互模式的巨大改变。生成式 AI 至今与人的交互有三种模式，包括嵌入模式(embedding)、副驾驶模式（Copilot）和智能体模式（Agent）。嵌入（embedding）模式。用户使用提示词来设定目标，然后 AI 协助用户完成这些目标，比如普通用户向生成式 AI 输入提示词创作小说；副驾驶（Copilot）模式。人类和 AI 更像是合作伙伴，共同参与到工作流程中，各自发挥作用。智能体（Agent）模式。人类设定目标和提供必要的资源，然后 AI 独立地承担大部分工作，最后人类监督进程以及评估最终结果。

Embedding 模式和 Copilot 模型下，执行工作的主体依然是人，AI 只是起到提升效率的作用。但“协作”这种工作模式本身就有较高的沟通成本，加上 AI 的智能水平尚未达到完美，使用体验可能并不理想。而基于 Agent 的交互模式更为高效，将会更大程度的使人类从重复复杂的劳动中释放，带来更好的使用体验。面壁智能认为，大模型想要落地到具体场景，AI Agent 是重要路径，它代表的是比“裸”模型更拟人的使用体验；未来万物都会是 Agent，比如电饭锅可以是 Agent，放入食材后，我们跟它说要熬粥，它就会根据熬粥的逻辑，去设定相应的加热方式。目前学术界针对 LLM-based agents 的研究主要集中在社会科学、自然科技、机械工程三个领域。其中在计算机科学和软件工程、机器人和具身智能方面的研究成果相对较多。

我们认为，AI Agent 将会是大模型在各个场景落地的重要形式，同时也是通向 AGI 的重要一步。复旦大学论文The rise and potential of Large Language Model Based Agents: A survey 将 NLP 到 AGI 的发展路线分为五级：语料库、互联网、感知、具身和社会属性。目前的大语言模型已经来到了第二级。依靠 LLM-based Agents 感知和行动，人工智能将达到第三、第四级。进一步通过多个 Agent 互动，则有潜力来到第五级——代理社会。一个知名的案例是“西部小镇”。斯坦福的研究者构建了一个名为 Smallville 的虚拟小镇，里面有 25 个 AI Agents 在小镇上生活，他们有工作，会八卦，能组织社交，结交新朋友，甚至举办情人节派对，每个 agent 都有独特的个性和背景故事。

人形机器人：机器人领域的 AI Agent

我们把人形机器人理解为大模型在机器人领域的一种 AI Agent。通过大模型，机器人具备了自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力，这是之前的机器人所做不到的。

在 LLM 模型出现后，学术界进行了大量研究，把 LLM 的语义理解能力和推理生成能力引入到机器人，让 LLM 来充当机器人的“大脑”。在引入 LLM 的过程中，首先遇到的问题是：最初的 LLM 是一个语言模型，并不是以物理世界为基础的。这使得 LLM 会给出一些正确的，但和当时的情景格格不入、毫无用处的输出。

2022 年，google 提出的 SayCan 模型提供了解决思路。SayCan 分为两个部分：LLM 和 val ue function。收到一个任务后，LLM 会给出多个输出选项，并给每个选项生成一个相关性打分；同时 value function 还会对 LLM 每个输出选项的可执行性（affordance）打分。最后 SayCan 模型综合两个打分，给出最合适的结果。

研究人员以 Palm 和 FLAN 两个大模型为基础，构建了 2 个 SayCan 模型。研究员让 SayCan 模型执行了 101 个任务，结果显示两个模型都取得了较好的成果。在模拟环境下 P almSayCan 成功率为 84%，FLAN-SayCan 的成功率为 70%；在真实环境下 Palm-SayCan 的成功率为 74%，FLAN-SayCan 的成功率为 61%。

2023 年 2 月，微软发表了 ChatGPT for Robotics: Design Principles and Model Abilities。文章提出，可以利用 LLM 把用户纳入到与机器人交互的“循环”之中。考虑到 LLM 模型的输出内容是文字，不能操作机器人的动作，因此微软提出了使用 API 调用的方法：事先定义好各种任务相关的 API 库，让用户通过 LLM 的输出文本（prompt）调用 API 接口，最终实现通过自然语言控制机器人。微软指出，在这个过程中，API 的名字定义至关重要。好的 API 命名可以让 LLM 选择正确的 API 接口。文章中，研究人员要求 ChatGPT 编写一种算法，让无人机能够在不撞上障碍物的情况下到达空中的目标位置。ChatGPT 立即理解了研究人员的任务，并编码了算法的大部分关键构建块。一个好的输出文本（prompt）是大语言模型能否成果的关键。但 prompt 工程复杂且耗时，并且属于实证科学，缺少综合、可及的资源。微软为了解决这个问题提供了 LLM-Robotics 研究工具 PromptCraft，让用户贡献各种机器人策略的 prompt 和对话例子。

2022 年 12 月，google 发布了 RT-1 模型。RT，即 Robotics Transformer。谷歌通过 RT-1 第一次证明了，通过庞大的、多样化的、任务无关的数据，机器人也可以展现出泛化性，执行一些未曾见过的任务。Google 耗费 13 个机器人历时 17 个月，收集了超过 13 万个片段的真实世界数据。Google 也强调，因为收集真实世界机器人数据非常困难，因此模型的泛化和微调能力非常关键。 RT-1 是一个基于机器人数据的端到端模型，输入端是一小段图像序列和用文本描述的任务，输出端是动作指令，包括 7 个维度的手臂动作指令（arm movement）、3 个维度的基础移动指令(base movement)和 1 个维度的状态切换指令（modes）。 RT-1 构建了新的网络结构，包括三层：1）经过 FilM 网络进行预处理；2）使用 token learner model 计算出一组 token；3）使用 transformer 模型计算 token。

研究人员让机器人执行了超过 700 项任务，结果显示：在之前见过的场景、之前未见过的场景、被干扰场景、背景更换场景，搭载 RT-1 模型的机器人都展现出了更高的成功率。

2023 年 3 月，Google 发布了视觉语言模型 PaLM-E。PaLM-E 的名称来自于 googl e 之前发布的 PaLM 预训练算法，和机器人的身体 E（embodied）。谷歌和柏林工业大学称，PaLME 是迄今为止人类开发的最大规模视觉语言模型（Vision-Language Model，VLM），可以在不需要再训练的情况下执行各种任务。通过 PaLM-540B 语言模型与 ViT-22B 视觉 Transformer 模型相结合，PaLM-E 最终的参数量高达 5620 亿。 PaLM-E 的创新之处在于：PaLM-E 首次把具身信息（包括自然语言、视频、传感器状态等非文字信息）非文字信息 token 化，统一输入到模型之中。

PaLM-E 展示了 long-horizon 场景1下的能力。当研究人员要求机器人“把抽屉里的薯片拿过来”，PaLM-E 可以为一个有“手臂”的移动机器人平台生成行动计划，并自行执行任务。

PaLM -E 和微软使用大模型充当的是机器人的“大脑”,而没有介入“小脑”也就是底层的控制算法。微软、PaLM -E 模型最后输出的都是文字，并通过文字调用 API 来实现最终的控制。最底层的控制算法依然是传统的控制方法。目前主流的足式机器人控制方法是双层结构。最常见的方案是基于模型预测控制(Model Predictive Control , MPC)的上层轨迹规划和基于动力学模型的下层全身关节力控(Whol eBody Control , WBC)。这种方法的典型代表是 MIT 的 mini cheetah。但 MPC+WBC 的方法需要复杂的建模和繁琐的人工调参，生成的动作在自然度和灵活性上也有所欠缺。也有一些研究使用了强化学习（Reinforcement Learning，RL）的方法，好处是没有模型的限制，对复杂环境适应力更强。为了满足强化学习所需要的庞大数据，一般会把机器人放在仿真环境训练，之后再迁移到真实世界的机器人。由于仿真环境无法 100%模拟真实世界，因此会有 sim-to-real gap 的问题。

2023 年 7 月，Google 发布 RT-2 模型。RT-2 是一个视觉-语言-动作（VLA）模型。RT-2 通过海量的互联网数据对视觉语言模型进行预训练，然后再用少量的机器人的数据进行微调，并使模型直接可以输出机器人的动作。RT-2 的参数量高达 55B（RT-1 只有 35M）。

研究人员对 RT-2 模型进行了和 RT-1 一样的测试。结果显示，RT-2 的理解能力、推理能力、针对未知场景的泛化能力都显著优于 RT-1 模型。

RT-2 在未见过的场景下，表现明显要比 RT-1 好，说明 RT-2 拥有更好的泛化性。

特斯拉将 FSD 技术复用到人形机器人，率先开启产业化。马斯克表示特斯拉已经打通了 FSD 和 optimus 的底层模块，实现了一定程度的算法复用。Optimus 的神经网络是端到端的：输入视频，输出动作。

尽管当下时点来看，人形机器人的能力仍有不足，但已经显示出了非常快的进化速度，这背后是 2023 年以来人工智能技术的突飞猛进。还是以特斯拉为例，2022 年 4 月，optimus 迈出了第一步，还只能笨拙的蹒跚；而 2023 年 9 月的最新视频，optimus 可以做到：1）基于纯视觉和编码器定位四肢；2）根据颜色分类物块；3）较为流畅的行走并做一些简单的瑜伽动作。2023 年 12 月，特斯拉再次发布 optimus-gen2 视频，机器人的行动流畅度大幅度提升，搭配手部的触觉传感器可以用双指拿起鸡蛋。

人形机器人的落地需要具体场景

机器人引入大模型后拥有了“常识”，并带来了一定的泛化能力，解决了自然语言理解和任务规划的两大难题。但这种解决方案仍然有很多不足：

数据。机器人数据的可得行是最大的限制。OpenAI 在2021年解散了旗下的机器人团队，核心原因就是难以获取数据。由于互联网的发达，我们有丰富的文字、图像信息可供大模型训练，但可用于机器人训练的数据十分宝贵。Google 用于训练 RT-1 和 RT-2 的机器人数据是历时超过 17 个月在 13 个机器人上收集而来，成本高昂。虽然模型数据量的增加可以显著提升模型的泛用性和效果，但这样的数据采集效率明显无法支撑大模型的需求。针对这一问题的解决思路主要有：1）通过仿真软件模拟真实环境，从而获得数据。但是仿真软件毕竟无法完全模仿现实世界，在仿真世界训练的算法平移到现实世界后，模型效果会出现下降；2）采用类似 RT-2 的方法，基于互联网的文字、图片数据训练获得通识，然后再基于少量的机器人数据做微调。

场景。现阶段大多数论文都局限于桌面操作。虽然桌面上有很多难题，但当机器人移动时，情况通常会变得更加复杂。安全性。大模型内部是一个黑箱，无法保证安全性，但机器人要在真实环境运行，可能造成的潜在伤害更大。模型过大，训练成本过高。成功率。真实世界的应用场景中，一般需要 99%以上的准确性和可靠性。然而目前学术文章中大多数结果的最高成功率在 80%左右。而要进一步提升成功率，难度会指数级增加。长尾问题。训练数据很难覆盖所有可能性，这也导致模型可能会在一些极端情况下失效。尽管模型在泛用性上取得了一定的进展，但依然无法完美解决所有情况。边缘侧算力不足。通用人形机器人在控制周期需要达到 500Hz 的水平，而目前谷歌研发的 RT-2 模型在机器人控制周期上只能达到 3Hz。

人形机器人的商业化离不开具体的场景。基于大模型在当前时点的不足，我们认为想要制作出像真正人类一样，可以胜任多场景下复杂任务的机器人，是非常遥远的。但是，基于特定场景下的、具有一定程度泛用性的人形机器人则有很大概率落地。 1）人体具有 200 多个自由度来适应真实世界的各种环境。受限于技术，现阶段人形机器人最多也就几十个自由度，我们需要根据具体的使用场景简化机器人的设计、控制复杂度，降低对机器人泛用性的要求，使人形机器人更快落地。 2）尽管人形机器人具有一定的“常识”，但不能“无所不知”。所谓隔行如隔山，经济活动的复杂性要求机器人在一定“常识”的基础上具备具体场景下的专业知识。而专业知识需要基于具体的场景。 3）人形机器人在具体场景下的应用，可以提供宝贵的机器人数据用于迭代，使人形机器人的发展进入正向循环，是必经之路。

基于场景的人形机器人商业化思路得到政策认可。工信部在《人形机器人创新发展指导意见》中，明确提出把特种环境、制造业、民生作为人形机器人落地的三个重点方向。特种环境，主要是指恶劣条件、危险场景，包括要地警戒守卫、民爆、救援等。这些场景对人形机器人复杂地形行走的鲁棒性、态势感、决策能力、高精度操作能力提出挑战。制造业典型场景，主要是面向 3C 和汽车领域，包括装配、检测、转运、维护等工序，支撑制造业的柔性制造需求。民生领域，以医疗、家政、农业、物流为重点，重点在于提升人形机器人的交互可靠性和安全性。

企业主动明确应用场景，对接下游需求。小米为机器人规划的发展路径是从单点到多点，最终发展成为生态。短期小米的人形机器人扎根某一个具体场景，以完成 1-2 个工种为目标。中期人形机器人将融入小米制造的多个场景规模化应用。这个过程小米会搭建泛化平台，积累数据、迭代模型。长期小米的人形机器人将会扩展更多场景。

优必选在官网址列举了人形机器人 walker 的 6 大应用场景：展馆展厅、影视综艺、科研高校、家庭服务、仓储物流、办公场景。

2023 年 10 月，亚马逊宣布已在旗下物流仓库中试用 Digit。Digit 高约 1.75 米，体重约为 65 公斤，它具备双臂和双腿，能够从下蹲，能够拾取和搬运重达 16 公斤的物体。Digit 具备自主导航和感知能力，可以在繁忙的仓库环境中与人类员工协同工作。Digit 机器人的引入，则进一步提升了亚马逊的物流和仓储操作的效率。亚马逊表示，Digit 的身形非常适合在仓库移动。2023 年 12 月，Digit 机器人搭载了 LLM。研究人员使用自然语言给 Digit 发出命令之后， Digit 可以自主思考，拆解任务并完成。

未来推演：自动驾驶发展历程给人形机器人的启示

自动驾驶汽车和人形机器人作为具身智能的两大形式，在很多地方都有相通之处。何小鹏认为，自动驾驶本质上是机器人科学，智能汽车公司最终也会和机器人公司在技术、产品、生态等等方面融合。参考自动驾驶的发展历程，我们认为人形机器人的发展也会有 3 个趋势： 1）结合具体的落地场景可以简化机器人结构，规避技术难题，加快人形机器人落地； 2）随着人形机器人对大数据、大模型的要求越来越高，数据闭环能力越来越关键； 3）当前阶段区分规划算法、控制算法的多模块的方案将会更容易落地，但连接 LLM 和控制算法的 Prompt 是当前的瓶颈所在。端到端的方案规避了这一难题，但对数据量的需求巨大，需要大规模的机器人本体支撑。

自动驾驶在港口、矿山已经取得进展

自动驾驶的发展，也是从特定场景开始落地。在矿山、港口等特定场景，自动驾驶已经取得了亮眼的进展。

矿山自动驾驶

矿山环境不存在交通法规问题，且车辆路线相对固定，车速大多在 40km/h 以下，非常适合开展自动驾驶。此外，矿区生产运输车辆大、盲区多，夜晚作业疲劳驾驶，如何杜绝安全事故一直是生产企业关注的重点。中国矿区无人驾驶源于上世纪 90 年代，2014 年伴随着无人驾驶发展才逐渐成熟。矿山无人驾驶车辆落地过程一般分为三个阶段：工程师跟车作业阶段、安全员随车阶段及无安全员运行阶段。踏歌智行在 2018 年完成了无人驾驶矿卡和宽体车的应用，开始落地“安全员下车”。 2022 年，踏歌智行在国家能源、国家电投旗下煤矿，以及鄂尔多斯永顺煤矿等矿区先后实现了 24 小时无安全员常态化无人运输作业。矿山自动驾驶成了 L4 级别自动驾驶商业化落地的难得亮点。

目前从事矿山无人驾驶业务的主要企业包括踏歌智行、慧拓智能、易控智驾、伯镭科技等。据工信部赛迪顾问数据统计，截至 2022 年 6 月，踏歌智行在矿区无人驾驶领域市占率为 45.1%，位居行业首位。GlobalData 公布的 2023 年第一季度全球矿业新锐公司排名中，踏歌智行位列中国第一、全球第六，也是榜单中唯一的矿区无人驾驶科创公司。

港口自动驾驶

港口自动驾驶因为半封闭及标准化程度高等特点而被视为最有潜力落地自动驾驶的场景之一。中国港口自动驾驶自 2020 年开始在政策推动下加速，发展至今呈现“百家争鸣、百花齐放”的发展态势。截至 2023 年 3 月底，全国各港口和内陆口岸开展自动驾驶测试或运营的场景已近 40 家，其中，无人驾驶集卡已超过 250 台，平板式自动导引车近 320 台。港口自动驾驶的代表项目是华为参与的天津港第二集装箱码头。华为从 2020 年开始参与天津港第二集装箱码头的设计规划实施和运营，目前已经实现了港口 L4 级别自动驾驶。通过云端的统一调度，76 辆 IGV（Intelligent Guided Vehicle，智能导引车）高效协同作业实现全局效率最优。通过北斗+5G+高精地图的方案，结合路侧辅助感知，使岸桥一次对位成功率达到 90%以上。经过数百万公里的行驶，华为方案的故障接管率小于 0.1%。

类比自动驾驶，我们认为人形机器人的落地场景需要有以下特点：1）强需求，在恶劣环境条件下的作业、高危作业、重复性高强度作业对人形机器人有较高的需求；2）场景适度复杂，简单空旷场景工业机器人可以胜任，过于复杂多变的环境则对技术的挑战太大。综合以上两点，我们认为在民爆、救援、制造业生产（装配）、物流（分拣）等行业，人形机器人有望率先落地。

大数据+大模型驱动的方案成为趋势

自动驾驶的发展可分为三个阶段： 1.0 时代的特点是硬件驱动。自动驾驶车辆的感知主要依靠昂贵的激光雷达，认知依靠人工规则。由于激光雷达成本高昂，这个时代的数据收集量也比较少，一般在百万公里。Google 在 2012 年曾指出其无人驾驶车成本约 15 万美元。 2.0 时代的特点是软件驱动。感知层面，摄像头、激光雷达等传感器的识别结果输出后进行结果融合。认知层面，主要依靠人工规则和深度学习算法。随着数据的增加，2.0 时代对中央计算平台的算力需求明显增加。 3.0 时代的特点是大模型+大数据驱动。当前我们正迈入 3.0 时代。感知层面，视觉、雷达多传感器联合输出感知结果，认知层面依靠大模型基于可解释的场景化驾驶常识进行规划。

数据闭环能力是自动驾驶 3.0 时代的核心竞争力，也会成为人形机器人企业的核心竞争力。生产出来一个可以行走的人形机器人不难，难的是如何让人形机器人可以适应各种各样的场景，代替我们进行工作。这背后考验的是人形机器人企业的 AI 能力，其中数据是关键生产要素，数据闭环能力是核心竞争力。数据闭环全流程包括数据的采集、传输、存储、处理、清洗、标注、仿真、训练、验证、部署。数据采集、数据标注、仿真是数据闭环的关键环节。

数据采集：不管是自动驾驶汽车还是机器人，工作的时候传感器也在不间断的收集数据, 这些数据会成为模型迭代学习的基础。因此我们认为这两个行业都会有比较明显的先发优势。

数据标注：自动标注可以大幅降低成本、提升销量，是企业的必由之路。理想汽车的创始人李想曾表示：“过去我们一年要做大概 1000 万帧的自动驾驶图像的人工标定，所以我们请了很多外包公司进行标定，大概 6 元到 8 元钱一张，一年的成本接近一个亿，这仅仅是来做自动驾驶方面的图片标定。但是当我们使用软件 2.0 的大模型，通过训练的方式进行自动化标定，结果和效果会非常可怕，过去需要用一年做的事情，基本上 3 个小时就能完成，效率是人的 1000 倍，这个领域的工作完全不一样了。”

数据仿真：传统解决 corner case（极端场景）的方式主要是加大数据规模，这种方式成本高、效率低。近年来，人们发现可以采用 NeRF 技术做场景重建，人为合成数据作为真实数据的补充。基于 NeRF 技术，英伟达已经开发了用于自动驾驶的仿真框架 EmerNeRF。

端到端的大模型或是终极方案

近年来，基于端到端的自动驾驶方案热度渐起。全球顶级计算机视觉会议 CVPR 把 2023 年的最佳论文奖颁给了《Planning-oriented Autonomous Driving》。这是一篇以路径规划为导向的自动驾驶论文，其获奖的关键在于提出了一个感知决策一体化的端到端自动驾驶通用大模型 UniAD。

传统自动驾驶方案采用多模块部署的体系构建，从传感器收集来的数据，要经过感知、预测、规划等子模块，最后由汽车执行。传统模式下下，每一个子模型都有一个特定的目标任务，所以这种体系的可解释性、可调试性有很明显的优势。但是这些子模块都是单独开发并最后集成在一起，每个子系统的误差最后可能会被叠加放大。而端到端的体系架构直接输出动作，就避免了累积误差的问题。另外，端到端模型所有计算都是围绕最后的决策展开，不同模块的主干可以共享，大大降低了计算工作量。

特斯拉 FSD V12 将是有史以来第一个端到端 AI 自动驾驶系统。马斯克声称：在 FSD V12 中，特斯拉没有程序员写一行代码来识别道路、行人等概念，全部交给了神经网络自己思考。 FSD V12 的 C++代码只有 2000 行，而 V11 有 30 万行。在 FSD V12 之前的版本是多模块体系的传统方案。其中感知算法采用占用网络（occupancy network）+车道线和物体算法（lane& object）的组合，规划算法主要采用 interaction search。

我们认为人形机器人的复杂度超过自动驾驶，同时对空间体积的要求比自动驾驶更高，因此端到端方案共享不同模块主干、降低算力需求的优势非常重要。当前阶段区分规划算法、控制算法的多模块的方案将会更容易落地，但连接 LLM 和控制算法的 Prompt 是当前的瓶颈所在。端到端的方案规避了这一问题，但对数据量的需求巨大，需要大规模的机器人本体采集数据做支撑。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）