1. 距离 AGI 还有多远:语言大模型较为成熟,处于 Emerging AGI 水平
根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义,AGI 能够执行一般人 类可完成的认知任务、甚至超越这个范围。具体而言,AGI 应能够学习广泛任务,能够执 行复杂、多步骤的任务。DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水 平进行分类,从 Level-0 无人工智能,到 Level-5 超越人类共 6 个等级。
现阶段大模型在处理任务的广泛性上还有很大提升空间,虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入,但尚未具备独立决策和执行行动 的能力。此外,现阶段更多的模型仍聚焦在某单一领域进行性能提升,比如 Kimi 在处理 长文本输入领域表现突出,但尚不能进行图片生成;Sora 能够高质量完成文生视频任务, 但不具备问答功能。因此,现阶段评价大模型性能情况、分析模型演进方向,仍需根据模 型专长领域进行分类。
在语言大模型以及偏重问答能力的多模态模型领域,自 2020 年 GPT-3 发布后进入 爆发期,各主流玩家加速模型迭代,包括 OpenAI 的 GPT 系列、Google 的 Gemini 系列、Meta 的开源 LLaMA 系列等。目前定量测评分数最高的为 Anthropic 旗下的 Claude 3 Opus,在 MMLU(Undergraduate Level Knowledge)、GSM8K(Grade School Math)、MGSM(Multilingual Math)等多个测试项目中准确率超过 85%;模 型参数量最高的为 23 年3 月谷歌发布的 PaLM-E,参数量达到 5,620 亿,是 ChatGPT 的 3.2 倍,模型能够理解自然语言及图像,还可以处理复杂的机器人指令;谷歌于24 年 2 月发布的 Gemini 1.5 能够处理的上下文长度高达 100 万 tokens(相当于 70 万单词,或 3 万行代码,或 11 小时音频,或 1 小时视频),为目前长文本处理能力 的上限。
文生图、文生视频类模型可追溯至 2014 年的 GAN 框架,2021 年 OpenAI 发布 DALL-E 后图像生成类模型开始爆发,包括谷歌的 Imagen、OpenAI 的 DALL-E 2、 Stability 旗下的 Stable Diffusion;至 2023 年文生图功能与大语言模型相结合,并出 现文生视频技术,24 年 2 月 OpenAI 发布文生视频模型 Sora,在生成视频长度和质 量上均为目前最优水平。
机器人模型包括感知、决策、控制、交互 4 个部分,涉及视觉、图像、声音、导航、 动作等多个模态,在实际应用中需要根据特定的环境、动作、障碍、反馈等数据进行 决策,因此,机器人对算法的跨模态、泛用性要求更高。
将语言大模型的底层框架和训练方式应用于机器人的感知、决策、控制成为现阶段重 要趋势。2021 年 OpenAI 推出基于 Transformer 架构和对比学习方法的 VLM(视觉 -语言模型)CLIP;2022 年起,谷歌先后推出 RT-1/RT-2/RT-X/RT-H 系列模型,同 样采用 Transformer 架构,能够将语言描述的任务映射为机器人行动策略;24 年 3 月,初创公司 Figure 与 OpenAI 合作推出机器人 Figure01,由 OpenAI 提供视觉推 理和语言理解能力,Figure01 能够描述看到的一切情况、规划未来的行动、语音输 出推理结果等。
按照 DeepMind 的 6 级 AGI水平分类,目前国际顶尖大模型仍处于 Level-1 Emerging AGI阶段。具体而言,各类大模型成熟度:语言大模型>多模态大模型>具身智能类大模型。 语言大模型能力相对完备,底层技术路线大多选择 Transformer Decoder-only 架构, 结合MOE和多模态embedding,算法细节优化方向区别较小。以GPT-4、Gemini 1.5、 Claude 3 为例,语言大模型在推理、长文本、代码生成领域已经能够完成初级任务, 但距复杂、专业水平仍有差距; 多模态大模已经能够面向 B\C 端提供商业化产品,底层技术路线主要采用 Diffusion Transformer,但细节优化空间较大,高质量和成规模的数据集仍在发展初期; 具身智能类大模还在探索阶段,底层技术路线尚不清晰,数据收集、训练方法、测评 方法等都处于发展初期。在实际应用场景中准确率较低。
2. 如何实现 AGI:Scaling Law 仍有深入空间,底层算法框架有待升级
参考 OpenAI 的大模型研发布局,实现 AGI 的过程可以分为 3 个阶段,目前处于多模融 合的第 2 阶段。AGI 发展路径与当下各类模型水平相对应,即在语言大模型、视觉大模型 相对成熟的基础上发展多模态大模型,而后探索具身智能类应用。 第一阶段为单模态系统,包括语言模型、视觉模型、声音模型等,各个模态独立发展; 第二阶段为多种模态、多种任务模型相融合。但根据模型的能力侧重点不同仍可分为 两类:一是以 GPT-4 等为代表的多模态理解模型,二是更强调生成性能的多模态生 成模型,如 Sora 等。预计这两种能力会在后续的大模型发展中进一步融合。 第三阶段将进一步强调模型与外部环境的交互,以及面对复杂任务的处理能力,将以 机器人或者一个设备的大脑为载体,进一步靠近乃至实现 AGI。 因此,现阶段讨论 AGI 能力提升仍需聚焦于多模态大模型的训练和应用,在多模理解和 多模生成能力较好融合后,再推演具身智能的模型框架、训练方法会更加清晰。
多模态大模型与语言大模型的训练流程相似,包括数据工程和模型工程两部分。其中数工 程包括数据清洗、分词、位置编码等,模型工程包括模型框架选择、训练方法选择、算法 选择、模型预训练、微调等。模型的预训练、微调、推理等环节均需要算力支持。
模型架构及神经网络层数决定模型参数量,通常将参数规模千万量级及以上的深度学习模 型称为“大模型”;训练使用的数据集大小需要与模型参数规模相匹配,避免产生过拟合 或训练不充分等问题;算力需求与模型算法结构、参数规模等紧密相关。因此当我们讨论 模型性能提升时,可以重点从神经网络架构和训练方法、数据量、算力等维度入手。本文 后续章节将就目前学界和产业界重点关注的问题进行讨论: 在保持现有模型架构不变的情况下,增加神经网络层数,进而扩大参数规模、训练数 据集规模的 Scaling Law 的天花板在哪里? 当仅凭 Scaling Law 不能进一步提升模型性能时,算法层面有哪些可以改进的方向?
2.1 Scaling Law:中短期内,持续扩大参数量仍能改善模型表现
OpenAI 通过研究证明,随着模型大小、数据集大小和训练所用计算量的增加,语言模型 的性能也会稳步提高。为了获得最佳性能,这三个因素必须同时放大:1)当不被其他两 个因素瓶颈限制时,模型性能表现与每个单独的因素之间存在幂律关系;2)在其他两个 因素充足的前提下,模型表现和第三个因素成幂方关系。
从训练样本效率、训练时长、各类资源对模型的贡献维度来看,目前 Scaling Law 仍是提 高模型性能的最优方法: 参数规模更大的模型在训练过程中的样本效率更高、性能提升更快。当计算量固定(比 如固定要进行 n 次浮点计算)而数据集大小 D 和模型参数量 N 不固定时,OpenAI 发现训练大模型的性价比更高。主要由于随着模型规模的增加,每个优化步骤所需的 数据点数量减少,从而提高了样本效率。
模型参数规模对于性能提升的贡献度更高。研究表明,在有限的资源下,为了达到最 佳的训练效果,应当优先考虑扩大模型参数量 N,同时合理调整其他训练参数以保持 训练效率和避免过拟合。
OpenAI 对 Scaling Law 的适用空间进行测算,认为模型参数量在扩展到 88 万亿及之前 Scaling Law 仍会发挥作用。目前业界预测 OpenAI 下一代大模型 GPT-5 参数量预计达到 10 万亿级别,神经网络层数或达 1,300 层,相较 88 万亿的“天花板”仍有扩充空间。因 此,中短期来看持续扩大模型参数量仍有望改善模型表现。
2.2 算法改进:骨干网络架构仍有创新空间,微调及稀疏结构能够提升性价比
我们曾经在 2023 年 3 月发布报告《大模型时代,AI 技术向效率提升演进》,对大模型训 练方法、数据效率、开发效率、算力效率、工程化效率的发展趋势进行梳理,本节将结合 过去一年的大模型迭代情况,进一步讨论可能的算法演进方向。
2.2.1 基于 Transformer,在架构选择、多模态融合、自注意力机制方面进行创新
2017 年谷歌将注意力机制引入神经网络,提出了新一代深度学习底层算法 Transformer。 由于其在物体分类、语义理解等多项任务中准确率超过 CNN、RNN 等传统算法,且能应 用于 CV、NLP 等多个模态,Transformer 的提出使得多任务、多模态的底层算法得到统 一目前主流大模型均采用 Transformer 作为底层骨干网络,但在编码器\解码器选择、多 模态融合、自注意力机制等方面有所创新。
针对 Transformer 的编码器-解码器(Encoder-Decoder)结构进行拆分选择: Transformer 模型采用编码器-解码器结构,其中编码器负责从输入内容中提取全部有 用信息,并使用一种可以被模型处理的格式表示(通常为高维向量);而解码器的任 务是根据从编码器处接收到的内容以及先前生成的部分序列,生成翻译后的文本或目 标语言。 目前主流大模型可以根据骨干网络架构的差异分 Encoder-only、Encoder-Decoder、 Decoder-only 共 3 类,其中 Encoder-only 主要为谷歌的 Bert 及其衍生优化版本;使 用 Encoder-Decoder 架构的模型有谷歌的 T5 以及清华智谱的 GLM 等;OpenAI 的 GPT 系列、Anthropic 的 Claude 系列、Meta 的 LLaMA 系列等均采用 Decoder-Only 架构。
Decoder-Only 架构更适合生成类任务且推理效率更高,为大模型厂商所青睐:1)功 能方面,Encoder-Only 架构更擅长理解类而非生成类任务,以采用 Encoder-Only 架 构的 Bert 为例,其学习目标包括 Masked LM(随机遮盖句子中若干 token 让模型恢复) 和 Next Sentence Prediction(让模型判断句对是否前后相邻关系),训练目标与文本 生成不直接对应;2)推理效率方面,Encoder-Decoder 和 Decoder-Only 架构均能 够用于文本生成,但在模型效果接近的情况下,后者的参数量和占用的计算资源更少, 且具有更好的泛化能力。
使用 Encoder-Decoder 亦可训练出成熟的多模态大模型,或将凭借架构优势在多任 务融合领域实现反超。清华大学和智谱 AI 公司共同研发的 GLM 系列模型采用 Encoder-Decoder 架构,于 24 年 1 月发布 GLM-4 最新版本,模型在基础能力(英 文)、指令跟随能力(中英)方面能够达到 GPT-4 90%以上的水平,在对齐能力(中 文)、长文本能力方面超过 GPT-4,在文生图方面能力逼近 DALLE-3。目前 GLM4 支持根据用户意图,自由调用网页浏览器、代码解释器和文生图模型,并上线个性化智能体定制功能。
Transformer+其他现有算法,推进多模态性能提升: 自注意力机制(Self-Attention)使得 Transformer 架构能够处理多模态任务。自注意 力机制将输入数据进行线性映射创建三个新向量,分别为 Q/K/V,其中 Q 向量可以 看作是某个人的关注点,V 向量可以看作是具体的事物,而 K 向量可以看作是人对 不同事物的关注程度。通过计算 Q 向量和 K 向量的点乘,可以得出一个值,表示这 个人对某个事物的关注程度,然后将这个关注程度与 V 向量相乘,以表示事物在这 个人眼中的表现形式。这种方式使得模型能够更好地捕捉长序列中不同部分的关联性 和重要性,而各种模态的信息均可以通过一定方式转化为一维长序列,因而 Transformer 具备处理多模态问题的能力。 以上海 AI Lab 和香港大学联合推出的 Meta-Transformer 为例,该模型通过一个多模 态共享的分词器,将不同模态的输入映射到共享的数据空间中,进而实现了处理 12 种非成对的模态数据,包括文本、图像、点云、音频、视频、X 光、红外等。
将 Transformer 与其他模态领先算法融合,能够显著提升多模态处理能力,有望加速 大模型多模态融合趋势。24 年 2 月 OpenAI 发布文生视频大模型 Sora,主要根据 Diffusion Transformer(DiT)框架设计而成。其中,扩散模型(Diffusion)是一种图像生成方法,通过逐步向数据集中添加噪声,然后学习如何逆转这一过程。扩散模型 能够生成高质量的图像和文本,但仍存在可扩展性低、生成效率低等问题。DiT 模型 在扩散模型基础上引入 Transformer 架构,通过将图像分割成小块(patches),并将 这些块作为序列输入到 Transformer 中,DiT 能够有效地处理图像数据,同时保持了 Transformer 在处理序列数据时的优势,能够显著改善扩散模型的生成效率。此外, 将自动驾驶领域的 BEV(鸟瞰视图)模型与 Transformer 相结合,已经成为目前自 动驾驶领域主流感知框架,并在众多辅助驾驶产品中量产应用。
基于 Transformer 的细节创新已成为学界重点研究方向,非 Transformer 结构的探 索持续推进,有望推动骨干网络升级。 Transformer 自 2017 年发布后对深度学习领域产生颠覆性影响,学界在持续探索改 变框架细节以实现模型性能进一步突破。目前针对 Transformer 的创新尝试包括模块 改进、架构改进、效率优化等方面。华为诺亚方舟实验室等联合推出新型大语言模型 架构盘古-π,通过增强非线性,在传统 Transformer 架构上做出改进,由此可以显 著降低特征塌陷问题。在使用相同数据训练的情况下,盘古-π(7B)在多任务上超 越 LLaMA 2 等同规模大模型,并能实现 10%的推理加速。
2.2.2 微调方法的改进促进模型性能和落地效率提升
“基础模型+微调”已成为大模型开发范式,通过微调让基础模型针对特定任务类型、应 用场景进行二次训练,能够极大提升大模型在实际应用中的智能水平。相较于过去“一场 景、一任务、一模型”的训练方式,微调能够是使用更小的数据量、更短的训练时间使模 型能够适应下游任务,显著降低了边际落地成本。 目前大模型的微调方法可以分为全量微调(Full Fine-tuning)和参数高效微调(PEFT, Parameter-Efficient Fine-Tuning)两种:
1)全量微调:利用特定任务数据调整预训练模型的所有参数,以充分适应新任务。它依 赖大规模计算资源,但能有效利用预训练模型的通用特征。ChatGPT(InstructGPT)使 用的基于人类反馈的强化学习微调 RLHF 即为全量微调,通过使用 RLHF 模型输出内容 能够更加符合人类语言习惯。23 年 7 月,Meta 旗下的开源模型 Llama-2-chat 对 RHLF 进行了改进,通过创建两个奖励模型、增加额外的拒绝采样步骤,使得生成内容在安全性 和有用性方面表现更好。
2)参数高效微调:旨在通过最小化微调参数数量和计算复杂度,实现高效的迁移学习。 它仅更新模型中的部分参数,显著降低训练时间和成本,适用于计算资源有限的情况。常 见的 PEFT 技术包括 LoRA、Prefix Tuning、Prompt Tuning、Adapter Tuning 等多种方 法。其中 LoRA 是微软推出的低秩自适应技术,它相当于在原有大模型的基础上增加了一 个可拆卸的插件,模型主体保持不变,随插随用,轻巧方便,使用 LoRA 时可以节省 33% 的 GPU 内存。
2.3.3 使用 MoE 进行任务分割,更高效地利用计算资源
AI 大模型的计算架构决定了模型中人工神经网络的各神经元之间相互作用的方式。计算 架构可分为稠密结构和稀疏结构 2 种:1)使用稠密结构的大模型在计算时需要激活整个 神经网络,算力和内存消耗较大,主要应用于 GPT-3 等早期 AI 大模型中;2)稀疏结构 允许系统的某些特定部分单独执行计算,根据输入的特定特征或需求,只有部分参数集合 被调用和运行。 稀疏结构的代表是 MoE 混合专家模型,通过将输入数据根据任务类型分割成多个区域, 并将每个区域的数据分配一个或多个专家模型。每个专家模型可以专注于处理输入这部分 数据,从而提高模型的整体性能。
尽管 MoE 提供了若干显著优势,例如更高效的预训练和与稠密模型相比更快的推理速度, 但仍有继续改进的空间: 训练挑战: 虽然 MoE 能够实现更高效的计算预训练,但它们在微调阶段往往面临泛化能力不足的问题,长期以来易于引发过拟合现象。 推理挑战: MoE 模型虽然可能拥有大量参数,但在推理过程中只使用其中的一部分, 这使得它们的推理速度快于具有相同数量参数的稠密模型。然而,这种模型需要将所 有参数加载到内存中,因此对内存的需求非常高。
3. 如何商业落地:借力模型开源及 B 端合作,寻找高人工替代率的场景
3.1 开源模型 vs 闭源模型?——Scaling Law 不再 work 之后,找场景或优于做模型
本轮 AI 底层模型创业需求依赖资本密集的人才与算力持续投入。据 BofA GLOBAL RESEARCH,2023 年,全球生成式 AI 公司融资额度高达 218 亿美元,同比 22 年提升 4 倍,超过 19~22 年 4 年融资总额;2023 年全球生成式 AI 公司融资笔数多达 426 笔,同 比提升 65.8%。我们认为,融资笔数同比增速大幅低于融资额度说明 2023 年 AI 创业公 司平均融资额度较大,可能与 AI 大模型创业公司对人才、算力需求较大所致,变相说明 本轮 AI 模型创业相对资本密集,对于持续高额融资的需求较为旺盛。
3.2 如何定义一个好场景?——“幻觉”尚未消除的世界,高人工替代率或为重点
基于未来开源模型性能表现终将追平或接近闭源模型能力这一假设,我们认为以中长期视 角来看,找到一个能够将 AI 落地且可以产生商业化收入的场景对于大多数 AI 厂商而言或 将成为更优的投入方向。
已经落地的场景往往对“幻觉”具备一定的容忍度。只有第二类和第五类场景是目前 AI 能够应用落地且可以产生商业化收入的。第二类场景例如生成某种风格类型的小说/插画/ 音乐以及基于 Sora 等多模态模型得到的短片。第五类场景例如 ChatGPT 或者 Character.ai 等满足效率工具与角色扮演需求的聊天机器人,以及例如 Perplexity 等 AI 辅助搜索。我们认为,以上两类场景之所以能够在现阶段落地的核心原因是它们均能够在 一定程度上容忍“幻觉”(Hallucination,指在 AI 生成或反馈结果当中存在的不符合常理 的情况),其中,对于第二类场景所对应的文本/图像/音乐/视频创作(错题生成也可以被 视作文本创作的一部分)而言,其本身便不存在唯一性的最优解;而对于第五类场景所对 应的问答互动与信息总结需求而言,固然存在更优的回答与更有效率的信息归纳方式,但 用户对于 AI 偶尔出现不符合常理的反馈仍有一定的宽容度。
尚无法落地的场景需要解决“幻觉”所产生的问题。对于尚无法应用落地或至少不能形成 商业化收入的第一/三/四类场景而言,我们认为最重要的是要解决“幻觉”所带来的问题。 对于第一类场景而言,基于具身智能的机器人置身于真实的物理世界当中,其每一个 行为动作都可能会对工厂与居家安全带来风险(比如,一个错误的参数反馈可能导致 生产事故,一个错误的指令理解可能伤害到居家住户),因此天然对于“幻觉”的容 忍度很低。 对于第三类场景而言,尽管多数依赖生成式 AI 的创意工作都已经得到落地,但我们 依然可以在 Sora 对外披露的视频中看到不符合物理世界常识的画面出现,涉及大量 物理世界规律的长视频制作目前依然无法完全取代人工。 对于第四类场景而言,部分直接涉及人类生命安全的领域,如自动驾驶与医疗诊断也 天然对“幻觉”具有较低的容忍度。 综合前述,我们认为,假如第三类场景中的“幻觉”得以解决或至少控制在足够低的范围 内,将有助于反哺第一与第四类场景进行数据训练,从而加速 AI 的落地进展。
3.3 如何处理“幻觉”?——Scaling Law 信仰派 vs 引入知识图谱改良派
在处理模型幻觉、进而实现 AGI 的路径方面,学界主要存在着两派声音——基于连接主 义的“Scaling Law 信仰派”与基于符号主义的“引入知识图谱改良派”:
连接主义(Connectionism):又称为神经网络或并行分布处理,是一种模仿人脑神 经网络结构和功能的人工智能方法。它的核心思想是通过大量简单的、相互连接的处 理单元(类似于神经元)来实现复杂的智能行为。这些处理单元之间的连接强度代表 了信息的权重,而智能则体现在这些单元如何通过学习和调整连接强度来处理信息。 用一个简单的比喻,连接主义就像是一张由许多节点(神经元)组成的大网。每个节 点都可以接收和发送信号,而节点之间的连接则决定了信号如何传递。当这张网接收 到输入信号时,它会通过调整节点之间的连接强度来学习新的模式和任务,就像人脑 学习新知识一样。连接主义认为,现阶段的“幻觉”只是模型参数与训练数据集的规 模未达到理想情况导致的,Scaling Law 将会持续改善模型效果直至“消除”“幻觉”。
符号主义(Symbolism),也称为逻辑主义或规则主义,是一种基于符号处理的人工 智能方法。它的核心思想是认为智能行为可以通过对符号的操作和处理来实现。这些 符号代表了现实世界中的对象、概念或事件,而智能则体现在如何通过逻辑规则对这 些符号进行有效的组合、推理和转换。举个例子,符号主义就像是我们使用的语言和 数学公式。我们通过文字和公式来表达思想和解决问题,而符号主义 AI 则通过预设 的规则和逻辑来操作这些符号,从而实现智能行为。比如以 Yann LeCun 为代表的 Meta、Google、Stanford 等科学家认为目前的生成式 AI 模型没有真正理解内容。
“改良派”认为,知识图谱可能用以减轻“幻觉”问题。知识图谱是一种存储信息并展示 相关信息源之间关系的方法。知识图谱具有一个集中准确的知识来源,并且能够将不同格 式的信息进行结构化的组织。AI 大模型有时会“很有信心”提供一些不准确的信息。知 识图谱从多个来源摄取大量事实信息,并在它们之间建立联系,将知识图谱与大模型整合, 将促使大模型内部的概念之间形成逻辑连接。理想状况下,AI 大模型可以利用包括结构 化和非结构化数据在内的各种信息来源,生成更准确的输出。知识图谱不像 AI 大模型那 样的概率引擎,其基于一个准确的知识中心进行推理和解释,进而也可以减少 AI 大模型 训练对大量标记数据集的需求。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
人工智能行业专题研究:如何实现AGI,大模型现状及发展路径展望.pdf
安永-金融服务业领导网络:应对人工智能在金融服务业的迅猛发展.pdf
人工智能赋能新型工业化.pdf
人工智能+时代公共云发展模式与路径研究.pdf
生成式人工智能行业专题研究:海外大模型篇,生成式AI加速创新,行业迎历史性机遇.pdf
数字经济专题:大国经济体系下,人工智能领航数字经济新阶段.pdf