产业复盘:AI 是技术驱动的行业,正处于商业应用关键期
人工智能是赋予机器执行人类行为和任务能力的学科,旨在让机器模仿 类似人类智力的复杂认知能力,技术的进步是推动产业创新的核心力量。
产业历史复盘:人工智能经历了各类思想的涌现、对立与融合
与其他技术发展的规律相似,AI 技术的发展也是不断融合已有的技术和 思想后,加入新的创造并获得新的突破。 纵观人工智能近百年的发展历史,主流的观点基本都来自于三大思想流 派:符号主义(Symbolism)、连接主义(Connectionism)和行为主义 (Actionism)。
针对感官信息在人类记忆中的存储方式和“智能”的产生方式,各学派 的观点也不同: 符号主义认为,智能源于数理逻辑,人类的思维过程可以使用符号系统 和规则进行表示; 连接主义认为,感官的刺激并不存储在记忆中, 而是在神经网络中建立 起 “刺激-响应”的连接, 通过这种连接产生了智能行为。因此智能是一 种基于符号的逻辑和计算活动,靠知识和规则进行决策。 行为主义认为,智能是具身化和情境化的,会在与真实环境的交互作用 中表现出来,而不是依赖于预先设定的知识和目标。 历史中符号主义和连接主义曾轮流占据行业主流。从连接主义与符号主 义被引用的出版物数量对比可以看出,两者曾经轮番引领行业的发展方 向。
符号主义的强项在于其能够进行知识表示和逻辑推理,可解释性更强; 而连接主义特别擅长于处理大规模数据和模式识别问题。而行为主义适 用于处理强化学习,对于神经网络参数的误差传递问题和机器学习中的 数值计算问题也有更好表现。
当下越来越多的研究致力于将符号主义和连接主义结合起来,以期望克 服各自的局限性,改善 AI 在部分下游任务中的表现。如将语言模型与知 识图谱(Knowledge Graphs)结合,或在生成阶段使用 RAG(RetrievalAugmented Generation,检索增强生成)方法查询外部数据源等。
应用落地始终是横亘在行业前的难题
复盘历史,我们发现 AI 落地应用才是行业能够维持繁荣的关键。如今人 工智能的主流方法论(神经网络等)诞生的时间很早,但由于硬件性能 所限,这类算法设想难以落地应用,随之而来的就是整个行业的资金枯 竭,研究也进入沉寂期。而在数年或数十年之后,随着软硬件技术的进 步,这些设想可能再次获得创新与发展,表现出新的生命力,再次引领 行业的热潮。
AI 第一次繁荣与寒冬:自 1958 年人工智能编程语言 LISP 被开发出来 之后,人工智能行业就进入了一次发展的繁荣期。然而在 1950s-1960s 年代,大量资金和支持被投入到机器翻译的研究中,但应用进展却不顺 利。1966 年美国政府率先大幅削减了对人工智能研究的投入资金,行业 进入了第一次寒冬。
AI 第二次繁荣与寒冬:1980 年代,随着更多的数据能够输入进计算机 中,符号主义的专家系统引领了第二次的人工智能产业繁荣。专家系统 在财务规划、医疗诊断、地质勘探和微电子电路设计等领域都能够发挥 一定作用。然而专家系统能力依旧有限且构建极为复杂,始终无法真正 落地应用。1984 年,约翰·麦卡锡批评专家系统,认为它们缺少对自身 局限性的常识和知识。1987 年至 1989 年,DARPA ISTO 主任 Schwarz 认为人工智能研究“在特定领域取得的成功非常有限”。随后人工智能研 究的资金也快速减少,大量人工智能公司在此期间破产,行业进入了第 二次寒冬。
从历史中可以发现,AI 的两次行业寒冬都是因为硬件和软件技术有所限 制,受制于特定领域、特定模型和特定任务的限制,通用性不强,技术 没能突破应用奇点,行业投资资金枯竭,最终进入了低谷期。因此,应 用商业落地的关注是跟踪本行业的重点。
AI 的第三次繁荣:自从 2012 年 AlexNet 为代表的深度学习爆发后,AI产业迎来了第三次繁荣时期。随着 AlphaGo 战胜围棋世界冠军李世石和 柯洁,深度学习也迎来了巨大的关注。2022 年 10 月,随着人工智能对 话应用 ChatGPT 的发布,生成式人工智能 GenAI(Generative AI)迎 来了爆发期。支撑 ChatGPT 的基础模型 GPT-3 早在 2020 年就被创造 出来,但只有当 ChatGPT 这个对话产品走入大众视野中,生成式、通用 的人工智能才成为了产业关注的焦点。
本次的技术突破首先来自算法架构的优化,Transformer 突破了文本长 距离依赖性的难题,以此为架构的生成式 NLP 神经网络模型才能够大幅 扩充规模和训练集。随后 OpenAI 又投入了大量算力资源扩充模型的训 练集和参数规模,使大模型表现出涌现性并大幅提升泛化能力。自此, 生成式人工智能也真正开始拥有了通用性,我们正处于从 ANI(窄域人 工智能)走向 AGI(通用人工智能)时代的开端。
行业规模将超千亿,AIGC 应用空间将迎爆发期
人工智能行业处于快速增长期,直接支出规模将超千亿。IDC 预测 2027 年中国 AI 投资规模有望达到 381 亿美元,在全球占比约 9%。 与生成式 AI 相关的 AIGC(AI Generated Content)市场也将迎来高速 爆发期。随着基础持续突破、行业生态逐渐完善和商业模式成熟,2030 年 AIGC 市场规模有望超万亿。
AI 应用目前尚处于红海时期,商业模式仍在探索中,竞争格局较为分散。 从底层基础设施、基础模型和衍生的服务、应用等领域的竞争处于早期 阶段。
未来展望:应用将走向 AI Agent 终极形态,AIOS 将成系统基础
AI 的定义中始终包含智能体的概念
Agent 是一种软件程序,旨在与其环境交互,感知接收到的数据,并根 据该数据采取行动以实现特定目标。通俗理解,即能够与环境(软件或 硬件)产生交互行动(Actions)的智能应用。
在人工智能的历史上,“智能”的概念很早就已经扩展到了智能体 Agent 的范畴。1950 年,由艾伦·图灵提出的图灵测试(Turing Test)被设计 成一种思维实验,如果人类提问者无法分辨书面回答是来自人类还是计 算机,那就证明通过了测试。这类计算机需要具备多种能力: 自然语言处理(Natural Language Processing),以使用人类的语言进行 交流; 知识表示(Knowledge Representation),以存储它所知道的内容;自动推理(Automated Reasoning),以回答问题并得出新的结论; 机器学习(Machine Learning),以适应新的环境并检测和推断模式;
1989 年,Harnad 又进一步提出完全图灵测试(Total Turing Test),在 原始图灵测试的基础上增加了视觉、听觉等其他维度的测试,只有感知、 认知能力全部达到了人的标准才算是通过图灵测试。在这样的要求下, 计算机需要与真实世界中的对象和人进行交互,还需要拥有更多能力: 计算机视觉(Computer Vision)和语音识别功能,用以感知世界; 机器人学(Robotics),以操纵对象并与真实世界产生交互。
Agent 正在一步步走向现实。随着人工智能技术的发展,通过 CV 和语 音识别进行人机交互已经成为了现实,将人工智能与机器学结合将成为 未来应用发展的核心趋势。当下语音、图像、视频等模态信息处理技术 都产生了突破,未来也将为智能系统带来更多信息输入,推进其从感知 智能到认知智能的升级,并最终将能力赋能给应用。
从 LLM 到 Agent,还需要经历什么?
根据自主能力的不同,基于 LLM 的 Agent 的形态将会经历完全辅助、 部分自主、完全自主的过程。基于大语言模型的 Agent AI 由三部分组成:大脑(Brain)、感知 (Perception)和行动(Action)。 大脑:如同人类一样,大脑是 Agent 的核心。它不仅存储关键的记忆、 信息和知识,而且还承担着信息处理、决策、推理和计划等基本任务。 感知:能够将主体的感知空间从纯文本空间扩展到多模态空间,包括文 本、声音、视觉、触觉、嗅觉等。这种扩展使代理能够更好地感知来自 外部环境的信息。 行动:使智能体拥有文本输出、采取具体行动、使用工具的能力,以便 其更好地响应环境变化,提供反馈,甚至改变和塑造环境。
Agent 最终将走向具身智能,向机器人等实体形态发展。LLM Agent 内 核的决策能力将扩展为具体的行动,并通过机器人等实体与现实物理世 界产生反应与交互。
2024 年 1 月,Google DeepMind 和 Stanford 共同发布了机器人 Mobile ALOHA。这个机器人能够直接从真实演示中执行端到端模仿学习,能够 执行烹饪等家务技能。通过采用基于 Transformer 的行动组块(Action Chunking with Transformers)的学习算法,能够较好地完成对人类动作 的模仿学习。
AIOS:重构软件与创造智能体的关键一步
我们发现,AI 同时具有软件和硬件性质:它不仅是一个运行在算力设备 上的软件,也能够承担计算功能。 软件的特点:无限复制,其成本绝大部分在前期研发费用,后续使用的 边际成本极低。 硬件的特点:短期看训练、推理与算力基础设施深度绑定。从更长远的 角度看,AI 本身就扮演着基础设施的角色。
因此看待 AI 发展时,我们不仅应当从软件本身的视角来思考,也要从其 硬件的特性考量。当 AI 与基础软件深度耦合,未来的 AI 本身可能已经 成为了计算机的组成部分,必将对计算机的各层次架构产生深远的影响: 大型语言模型的引入大大提升了开发的效率,降低了开发的门槛,也将 开始改变现有的操作系统、架构、乃至编程语言。AI 对基础软件操作系 统的重构将可能改变软件应用的底层生态。
与传统的 OS 架构不同,未来的操作系统可能成为大语言模型为核心的 AIOS。用户与 Agent 应用和操作系统的交互以自然语言的 prompt 形式 进行,LLM 则会调用工具 API 完成相应的响应和操作。
AI Agent 的软件应用:目前依旧是 LLM 结合简单 API 操作软件
目前的 AI Agent 软件应用还是基于 LLM 自身的特性,通过调用传统应 用软件的 API 来完成操作与交互行为的。 AutoGPT 是通过接入 OpenAI 基础模型实现 Agent AI 的代表性产品。 它最初是发布于 Github 上的一个开源项目。用户可以通过自然语言提出 任务需求,AutoGPT 则可将这一计划拆分为若干个子任务,并能够操作 使用互联网或其他工具完成这些任务。
Adept AI 通过构建多模态架构实现视觉(如 UI)识别,赋能办公流程。 Adept AI 成立于 2022 年 1 月,是一个构建通用人工智能的机器学习研 究和产品实验室,公司的目标是训练模型来使用世界上的每一种软件工 具和 API。
对于知识工作者而言,合格的 Agent 助理应当可以访问屏幕上可见的内 容,而这些数据和信息通常是以图像形式呈现的。同时操作软件时用户 需要点击按钮或滚动浏览菜单,但许多业务相关软件没有 API 或 API 不 完整。因此 Adept AI 设计了 Fuyu-8B 的多模态架构,通过有效识别屏幕 上的 UI 来控制软件。
AI Agent 的硬件应用:首先与现有终端结合,等待成熟硬件产品诞生
当 AI 推理的载体不再是大规模的云端服务器,而是边缘侧的硬件计算设 备时,应用的形态将不再是单纯的软件,而是表现为与硬件深度结合的 基础软件+部分应用功能。端侧硬件需要更加成熟,能够支撑起更强大基 础模型的推理功能。作为端侧“大脑”的边缘模型也能够拥有足够的能 力和通用性。 与现有终端结合是 Agent 走向端侧应用的重要场景。
通过与手机、电脑等终端设备结合,AI 将会走入普通人的生活,承担起 “个人助理”的角色。以高通、华为海思为代表的芯片厂商也纷纷布局 手机 AI 芯片。
以 AI Pin 为代表的可穿戴设备能够更好运用 AI 原生能力,更加接近个 人助理的形态。其使用的操作系统名 Cosmos,能够按用户需调用各种 功能,提供纯粹的 AI 体验。AI Pin 也获得了 OpenAI 的技术支持,搭载了基于 GPT-4 开发的专有语言模型,能够帮助用户梳理来自于邮件、短 信等不同渠道的信息并总结要点,以及支持实时翻译功能。
智能汽车的端到端智能可能成为高阶智能驾驶新的突破方向。汽车作为 成熟的端侧机器人产品,搭载 BEV+Transformer 路线已经实现了智能驾 驶能力的飞跃。主流的自动驾驶系统包括感知、定位、预测、决策、规 划和控制六大核心功能。
端到端自动驾驶系统将系统视作一个黑箱,将所有模块神经网络化,训 练一个或者多个神经网络,得到从感知结果到控制命令的直接映射。这 种方式能够将决策算法从规则驱动转向数据驱动,有望解决困扰自动驾 驶领域的长尾问题。
2023 年 8 月,特斯拉 FSD Beta V12 测试版作为首个端到端 AI 自动驾 驶系统问世。在驾驶时仅依靠车载摄像头和神经网络识别道路和交通情 况,并做出相应决策。经过数百万个视频剪辑的训练,取代了超过 30 万 行显式的 C++代码。从测试表现看,搭载了 FSD Beta V12 自动驾驶系 统的车辆能够应对各类驾驶场景,并体现出强大的泛化能力。
过程推演:六个角度找寻应用层演进中的确定性
模型角度:基础模型是应用的根本,垂类模型、端侧模型加速应用过程
应用产品的爆发一定是在技术水平突破到一定程度上时产生的,本质是 用户对于产品力的认可。本次ChatGPT产品背后175B版本模型是2020 年诞生的,InstructGPT 也是 2021 年诞生的。但是并没有引起如此广泛 的关注。应用的“爆点”常常晚于技术的“爆点”。基于 GenAI 的爆款 应用或许已经不远。
遵循 Scaling law 的规律提升基础模型的能力是确定性最高的方向。 Scaling law 可以类比为 AI 领域的“摩尔定律”,投入更多算力、获得更 强模型的经验规律依旧指引着基础模型发展的方向。
除扩大训练和模型规模的途径,MoE 等架构也能大幅提升模型的可用性。 MoE 混合专家模型架构就能够大大提升模型的“宽度”而非“深度”,大 大降低推理时的算力消耗,降低应用门槛。
行业垂类模型的开发也能够加速行业应用的落地。通过在特定的领域或 行业中经过训练和优化,垂类模型更专注于某个特定领域的知识和技能, 具备更高的领域专业性和实用性,加速行业应用落地。
数据角度:贴近上游(数据)的公司更为受益,数据是规模效应的体现
人工智能正在经历模型为中心向数据为中心的范式转变。
以模型为中心的 AI(Model-Centric AI):更关注选择模型类型、架构及 超参数等方面,通过改进模型来提升 AI 的表现效果。但随着相关理论的成熟,模型在固定数据集上的表现逐渐趋于稳定,而针对复杂世界中的 真实数据集,改进模型对提升表现的帮助也并不大。
以数据为中心的 AI(Data-Centric AI):更关注数据的系统设计和工程 化,通过改进数据集来提升 AI 的表现效果。实际这种 AI 常常保持模型 固定,通过提高数据的质量和数量来实现性能的提高。对于机器学习而 言,通过下游任务的表现可以很容易对数据集质量进行量化评估,有利 于提升模型表现的可解释性。
虽然以 GPT 为代表的 Transformer 架构模型已经成为了当下的主流,但 针对模型的创新仍在继续。以模型为中心和以数据为中心的范式将相互 推动,共同提升模型的效果。 长远看,高质量的数据资源将形成“数据飞轮”效应,逐渐构成人工智 能应用的核心竞争力。
“飞轮效应”,是指想推动静止的飞轮转起来,开始需要耗费较大力气, 但当转速到达临界点,只需稍微用力,飞轮就可加速转动。对于 AI 公司 而言,通过高质量的独家数据能够训练出表现更佳的 AI 模型,通过模型 的应用又能获得更多高质量的数据,形成良性循环。
合成数据作为增强数据的方法,未来应用将会更加广泛。自动驾驶、医 疗等领域应用层公司有望大规模采用合成数据,加速产品商业化应用。
如今数据集的质量对模型的表现起到越来越大的决定因素,但对于很多 问题,现实世界中收集到的数据不能满足模型的训练需求,很多数据甚 至无法在现实中搜集。对此类问题,采用合成数据是有效的解决方法。
合成数据(synthetic data)就是通过计算机技术生成的数据,而不是由 真实事件产生的数据。这些合成数据具备“可用性”,能够在数学上或统计 学上反映原始数据的属性,因此可以用来训练、测试并验证模型。
使用恰当合成数据训练的模型效果可以大幅提升。OpenAI 的 DALL·E 3 和 Sora 模型就使用了合成数据的方法,大幅提升了训练数据质量并改 善了模型表现。通过分别训练简短和详尽的文本生成器,生成了前代模 型训练集中对图像的文本描述,并用来训练新版本的模型。这种方式取 得了极大的模型效果提升。
自动驾驶领域广泛运用合成数据。自动驾驶面临很多长尾(Long Tail) 场景。这些场景的发生的概率非常低,自动驾驶算法无法对其进行有效 的识别和决策,一旦发生对驾驶安全会产生非常大的威胁。因此在现实 中收集长尾场景对模型进行训练是不安全且不现实的。
通过运用模拟器合成数据,可以改善算法在长尾问题中的表现。首先对 现有模型进行评估,再使用模拟器模拟算法失效的案例,并使用 ML 算 法合成类似场景的图片加入训练集再次训练。如此反复后,算法应对类 似场景的能力将能够显著提升。
用户角度:B 端关注替代/提效等功能场景,C 端关注产品力
B 端客户关注能够直接带来效率提升和人力成本替代的应用。 对于 B 端客户而言,短期看直接带来提效和人力成本替代的应用是最有 效的场景,长期看能够直接帮助企业创收的应用会拥有更多发展空间。 降本逻辑:能够直接增加办公效率或提升业务运转效率(如办公软件); 能够替代人力成本(如智能客服); 创收逻辑:能够直接成为或构建业务和产品的一部分,从而为企业直接 创造收入(售卖 AI 产品的公司); B 端可以关注以 Microsoft 365 Copilot 等代表产品的商业化落地节奏。 Microsoft 365 Copilot 的定价为$30 每月,且需要企业用户在 Microsoft 365 E3、E5 或 Office 365 E3、E5 订阅计划的基础上进行订阅选择。即 使是针对相对昂贵的 Microsoft 365 方案,Copilot 的订阅价格涨幅也分 别达到了 83%和 79%。
C 端应用短期用户是技术爱好者,长期还需有颠覆性产品力。 C 端需要基于创造性和颠覆性的场景,应用本身的产品力需要足够强大 且受众足够广泛。C 端应用规律可能更类似与互联网时代,产品力需要 足够强大。以引发用户关注的 Pika 为例,仅仅是 AI 原生的视频生成效 果就形成了强大的传播效应。
模态角度:多模态是必然趋势,垂类模型促进应用
深度学习逐渐向多模态学习迈进,针对多模态的应用也处在早期开发阶 段。通用的 AIAgent 需要和真实世界交互,处理感知数据是必然需要的 能力。
从模型本身的发展角度看,单一模态的数据量是有限的。在获取一定数据量之后,仅仅是引入代码数据就能让 NLP 模型的数学能力大幅提升一 样,多模态的数据也可能为单一模态任务带来大量的提升。 最重要的是,作为模态融合的基础,语言模型的能力已经达到了可用的 程度,可以作为不同模态数据表示对齐的媒介。如 OpenAI 将 GPT-4 与 DALL·E 整合的方式就是先根据用户的提示使用 GPT-4 撰写更详细的 提示,再调用 DALL·E 生成用户所需的图片内容。 2023 年 12 月,Google 发布的 Gemini 模型就是原生多模态大模型。其 输入能够支持文本、语音、图片和视频,并且能够输出文本和图片。
2024 年 2 月,OpenAI 发布了视频生成大模型 Sora。OpenAI 通过将 Transformer 架构与 Diffusion Model 的训练思想相结合,利用强大的算 力、工程能力以及 GPT 和 DALL·E 模型技术积累训练出了 Sora,视频 生成领域也拥有了类比“GPT 时刻”的通用基础模型。随着 OpenAI 将 这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出 类 Sora 的视频生成模型和应用产品。
多模态应用与 LLM 应用类似,也将从原生应用出发,逐渐发展为更成熟可用的产品。从商业化应用节奏看,和文本结合的多模态任务落地节 奏会更快,文生图任务已经逐渐达到了商用标准,文生视频也在快速突 破中。
Adobe 推出的 Adobe Firefly 是产品与多模态 AI 结合的代表性产品。 Adobe 拥有成熟的图片、视频等编辑产品,通过将 AI 的生成能力嵌入 Photoshop 等产品,可以帮助用户更好地完成对图片的二次创作。
在大模型迁移学习能力不足的背景下,垂类模型是增强“专才”能力的 最有效途径。未来看,通用的超级应用最有可能诞生在通用的多模态 LLM 背景之下。
工程角度:系统将走向 AI 原生,GPTs 标示应用开发的新方式
AI 可能与系统深度耦合,软件应用将走向 AI 原生。现阶段的大模型能 够帮助程序员提升效率,但依旧很难直接构建出可用的 AI 应用。未来的人工智能可能会先成为系统的部分组件,以增添或替换的方式与系统进 行耦合。未来的软件系统可能会完全基于 AI 原生,系统内的所有组件都 能够使用 AI 能力。
未来的软件将走向人工智能原生架构,并最终发展为整个的智能。随着 AI 技术的进步,在成本效益分析允许的情况下,应该能够在每个合适的 场景使用 AI。当下 AI/ML 模型被部署在特定的层次和领域内,随着演进 的过程 AI/ML 模型开始跨领域部署,模型开始在不同的层次间共享和交 流数据;未来模型生命周期管理跨领域实施,这意味着 AI/ML 模型及其 管理变得更加集成和协调,数据驱动的基础设施将会贯穿整个架构,无 论是跨层次还是跨领域,都可以灵活地共享数据和资源,实现智能化的 优化和决策。
AGI 将彻底改变人机交互的模式,也将改变基础软件的范式。 正如比尔盖茨预测的那样,AGI 将颠覆软件行业,带来自键入命令到点 击图标以来最大的计算革命。微软已经将 Copilot 功能集成在了 Windows 操作系统中,用户可以以自然语言对话的方式控制系统。以操 作系统为代表的基础软件将与 AI 深度耦合。
OpenAI 推出的 GPTs 是 AI 原生应用的一次尝试,支持完全无代码开发 方式。 2023 年 11 月,OpenAI 举办了首届开发者大会。会上 OpenAI 发布了自 定义功能 GPTs,并搭配了 GPT Builder 工具用于协助用户完成自定义 功能。用户无需掌握代码写法,只要结合指令、外部知识库和能力,就 能够创建自定义版本的 ChatGPT。用户还可以通过向 GPT 提供 Zapier API 来定制化自己的 Action。
这种方式颠覆了传统的 app 开发流程:产品经理分析用户需求之后,与 开发人员沟通,以专业编写代码的方式实现功能并进行多轮测试之后上 线。应用的开发过程可能需要很长时间,也难以实现针对不同 C 端用户 需求的定制化开发。
而GPTs的开发过程则是零门槛、由用户完成的过程。用户只需要与GPT Builder 进行对话,就能够根据需要生成属于自己的 GPTs。这个操作的 过程可能只需要几分钟的时间。LLM 直接承担了产品经理与开发者的角 色,运用强大的自然语言处理能力与泛化能力直接完成了整个开发流程。 GPTs 的能力高度依从于基础模型的能力,且只能完成用户比较简单的 需求,很难代替传统的软件开发过程。但随着模型能力的提升,这种定 制化的边界也将有巨大的扩充潜力,这也将是产品化与定制化这一矛盾 最有希望的解法。 GPT Store 为代表的 AI 原生应用商店可能构建出新的平台生态。
在开发者大会上,OpenAI 还推出了自己的“APP Store”——GPT Store。 用户可以选择将自己的 GPTs 上传,OpenAI 会根据访问次数等因素对 GPTs 进行排序,并开放给其他用户使用。未来 GPTs 的创造者也可以 根据访问量收取一定费用。这是 OpenAI 建立自己平台生态与商业模式 的一次尝试,不管是否能够成功,都将能够获得之前无法获得的私域数 据(在默认情况下这些数据可以用于模型训练)。这些又将加入其“数据 飞轮”中的一部分。即使最终无法变现,也能继续提升基础模型能力。
安全角度:涌现的大模型需要更多约束,安全必定伴生应用存在
安全问题主要涉及 AI 本身的安全性(内生安全问题)以及对于 AI 使用 过程中的数据安全、网络安全(衍生安全问题)的监管。 针对内生安全问题,OpenAI 正在研究通过 AI 监督 AI 的方式来保证未 来超级人工智能的安全性。OpenAI 在未来四年内将使用 20%的计算资 源在解决超级对齐(Superalignment)问题,用以引导和控制可能比人 类聪明得多的人工智能系统。除此之外,可解释性的相关研究还需要近 一步突破,这是解决人工智能应用安全的核心理论。
Anthropic 通过建立宪法人工智能(Constitutional AI,CAI)模型的方式 对 AI 进行约束。除传统的 RLHF 方式之外,Anthropic 通过制定一系列 的“宪法条款”来约束 AI 的行为。这些宪法借鉴了一系列来源,包括联 合国人权宣言、信任和安全最佳实践、以及其他人工智能研究实验室提 出的原则(例如来自 DeepMind 的 Sparrow Principle)。
Anthropic 也对宪法的内容进行了一次公开的投票征集。参与者可以对现 有规则(规范原则)进行投票,也可以添加自己的规则。大多数声明都 达成了高度共识。未来随着 AI 能力持续提升,这种基于“宪法”的对齐 可能会更加高效。
Anthropic 参照 ASL 系统在预防灾难性风险和提升模型能力之间进行 取舍。在 2023 年 9 月发布的 RSP 安全条款中,Anthropic 定义了一个 名为 AI 安全级别 (ASL) 的框架。如果他们的 AI 系统超出了遵守必要安 全程序的能力,Anthropic 可能会暂时暂停训练更强大的模型,并努力解 决必要的安全问题。通过这种评级也能够在产品投放市场之前严格证明 其安全性。
大模型的数据安全和网络安全监管同样重要。对企业而言应用 LLM 是 会带来全新的安全挑战,由云计算平台或基础模型公司推出的安全服务 或将更受欢迎。
Sora 等模型的发布也让深度伪造(Deepfakes)问题成为了关注的焦点。 这种技术能将视频中的脸孔替换成别人的脸孔,甚至创造出虚假的场景。 当前有专家强调,实施有针对性的防御措施至关重要,这可能包括为人 工智能生成的内容打上独特的标识符或“水印”,以便准确追踪信息源头, 及时遏制虚假信息的传播。
AI+哪些行业更领先?从场景看应用成长性
此前几部分我们从技术的角度推断发展,是为了抓住行业长期演进的脉 络;本章我们将从已经较为成熟的落地场景出发,选取具有代表性的赛 道进行分析,提炼出较快运用 AI 能力的行业具备的共性,以发现更多的 前瞻性投资机会。
赛道特点:足够适合原生 AI 能力,大模型能带来较大提
效 AI+智能客服:最广泛的应用场景,可赋能几乎所有行业
响应高并发、个性化程度高、专业程度较低的提示是大语言模型最擅长 的场景。对话式的客服场景如果使用人工,成本会十分庞大。但其涉及 的知识库是有限的,使用 GenAI 就能很好地替代客服的服务。 GPT-4V 等多模态大模型能够赋能保险机构,辅助保险理赔场景。GPT4V 可以准确识别和评估车辆受损程度,并且识别损坏以及图像中描绘的 车辆特定信息,如品牌、型号、牌照和其他相关细节。保险公司有望在 未来实现保险报告自动化生成。
AI 智能催收帮助银行等金融机构贷后管理能力。AI 催收可代替人工外 呼与真人直接对话,很大程度上解决了人工坐席不足、非上班时间外呼 人员缺乏和重复外呼的问题。相比人工催收,AI 也能够始终使用礼貌用 语,有效规避了与欠债人的冲突。
AI+工业:工业质检/智能矿山,视觉大模型的有效应用场景
AI 能够辅助工业质检,有效替代制造业人工。传统人工质检效率较低, 且如今制造企业普遍面临招工困难、人员培训成本高、人工流失率高、 质检不够精准等问题。AI 能够代替人工完成该部分工作:典型应用场景 包括 3C 零部件缺陷检测、汽车零部件缺陷检测、钢铁外表面缺陷检测 等。IDC 预计 2022-2026 年中国工业 AI 质检复合增速为 33%,到 2026 年工业 AI 质检整体市场将达到 13.35 亿美元。
封闭场景如矿山可运用 CV 大模型能力大幅提升效率和安全性。如云鼎 科技联合华为盘古大模型发布了矿山行业大模型,在采煤、掘进、主运 等多个场景提供 AI 能力,且模型可以复制到其他矿井使用。
AI+低代码开发:AI 承担代码工作,最大限度减少人力成本
GenAI 在代码生成领域有较好的表现,与工具平台结合能够实现低代码 开发过程。
微软在 Power Platform 服务中集成了 AI Copilot 能力,应用包括低代码 工具 Power Apps,无代码的数据可视化工具 Power BI,以及工作流自 动化平台 Power Automate 等。用户也可以通过在 Office 365 中调用API 实现应用。
前瞻性应用:现有技术进入瓶颈,结合 AI 能力寻找新突破
AI for Science:对 AI 和 Science 的双向赋能
AI for Science 即科学智能,指通过使用 AI 技术辅助科学研究,以解决 复杂科学问题的方式。实际上运用 AI 承担处理数据等工作已经非常普 遍,先前也诞生过很多针对特定问题的 AI 模型。
大语言模型的应用为 AI for Science 领域提供了新的思路和方向。LLMs 使得知识的提取和综合变得高效、便捷,能够大大降低新学者进入研究 领域的门槛;LLMs 也可以加速并改进知识贡献的过程,帮助研究人员 快速检索和阅读论文等。
科学发现的过程中常常遵循两种范式,AI 应用都能够为其提供加成。 模型驱动的牛顿范式是基于第一性原理的研究方法。这种方法通过提出 抽象模型来对物理世界进行概括。但随着原理越来越复杂,我们开始面 临维度灾难问题。“维度灾难”是指在某些问题的求解中,随着维数的增 加,计算代价会呈指数增长,基于特定原理创造的模型方程可能无法求 解。AI 可以帮助科学家提取现实信息,从而实现对问题的多维度建模。 数据驱动的开普勒范式是通过分析数据提取统计学规律的研究方法。但 随着数据规模不断扩大,依旧可能面临维度灾难问题。AI 可以提供一种 高效的数据处理方法,为科研提供有力的辅助作用。
对于 LLM 本身而言,想从“智能”走向“智慧”,学习大量科学知识是 非常有效的方法。科研论文本身就是非常高质量的语料,其大量富有逻 辑和知识性的内容能够帮助大模型提升效果。 科学原理本身也能够为 AI 带来新的思路和启发。人工智能从诞生以来 就是一门交叉学科,与数学、哲学、心理学、语言学、统计学、神经科 学、机器人学等学科均有所交叉。其中很多原理也能指导人工智能算法 或思想的进步:如目前文生图领域的基础扩散模型就是基于热力学定律 的原理创造出的;而泊松流模型(PFGM)也是基于静电学现象得出的。
AI+半导体:AI 辅助微观建模,全方位助力芯片产业突破
随着半导体制程的不断缩小,摩尔定律面临越来越大的挑战。三星和台 积电等头部芯片企业在研发先进制程时已经遇到微观尺度的建模瓶颈, 靠传统 DFT 软件在效率和精度上难以兼顾。 AI 能够在材料制造领域提供高精度建模能力,较好模拟微观结构;在芯 片设计领域可以辅助电路设计;在先进制程与工艺提升方面可以为反应 过程提供原子尺度的模拟,对更高尺度模型进行耦合等。
AI+分子生物:AI 蛋白质折叠预测有望带来制药领域新突破
以 AlphaFold 数据库为代表的 AI+分子生物学领域取得了极大突破。 AlphaFold 是 DeepMind 开源的人工智能系统,借助它可以更准确地预 测蛋白质的形状。目前已经有超过 2 亿种开源蛋白质预测结构。由于大 多数药物通过与蛋白质上的不同位点结合起作用,AlphaFold 可以预测 科学家以前并不了解的蛋白质结构,制药公司将可以借助 AI 发现更多可 能有效的药物分子,减少试错成本。
AI+气象:大幅提升气象预测精度,预测飓风位置
AI 能够解决传统数值天气预报 (NWP) 系统无法兼顾准确性与时效性 的问题。由于 NWP 计算量巨大,启动时间都要超过 2 小时,因此难以 满足“降水临近预报”的要求。 2022 年华为发布的盘古气象大模型运用 AI 技术,在 1 小时至 7 天预报 精度首次超过了欧洲中期预报中心的传统数值预测系统,预测速度也提 升了上万倍。
各领域 AI 应用上市公司梳理
B 端应用:产品特性由下游行业定义,关注对标厂商产品化节奏
对于 B 端应用而言,下游客户的场景和需求始终是最重要的的,AI 应用 场景也聚焦在为下游客户实际赋能的效应之上。对于部分场景已经有海 外更成熟的对标产品,需要着重关注海外的商业化拐点;对于尚无对标 应用的场景,则需要回归到具体商业模式上,关注实际的产品力与下游 客户的付费意愿。
金山办公:对标 Copilot 推出 WPS AI,办公软件应用核心标的
WPS AI 是国内唯一直接对标 Microsoft 365 Copilot 的产品。2023 年 7 月 6 日金山办公正式推出 WPSAI,随后 2023 年 11 月 16 日开启了公 测。目前 WPS AI 能够在 WPS 系列办公软件中使用,为用户提供文本 生成、PPT 生成等功能。
Microsoft Copilot 已经展现出了订阅人数和 ARPU 值的双升。WPS AI 作为相应对标产品,发展空间广阔。
中科创达:以操作系统能力为基,端侧机器人的前瞻布局者
中科创达自 2008 年成立以来,一直以操作系统为核心不断进行技术积 累与创新,业务领域也从最初的智能终端逐步拓展到智能汽车、智能物 联网、智能行业等领域。如今 AI 将逐渐对操作系统带来重构,中科创达 也将持续为下游用户提供操作系统及端侧 AI 的部署能力。
自研魔方系列大模型,布局端侧机器人等场景。中科创达通过将魔方大 语言模型部署在 TurboX 智能模组上,能够将人类的语音指令转换成文 字,进行意图理解,规划出任务并进行拆分,输出给机器人的执行器去 执行。
中科创达同样为机器人提供开发解决方案,加速端侧产品迭代。基于高 通平台,提供了不同算力的核心模组(SOM),配套的操作系统、开发工具包和服务,适用于工业、服务、消费产品等领域的机器人产品需求。
焦点科技:AI 助手麦可赋能 B2B 外贸行业
焦点结合传统中国制造网业务,推出面向外贸企业的专属 AI 助手麦可。 经过多轮升级,AI 麦可已具备多维产品服务能力,可以通过智能产品发 布(智能撰写产品信息、批量智能发品、智能产品润色、重复产品检查 调整)、内容智能生成、AI 辅助商机跟进(AI 接待、买家智能画像、翻 译与自动回复、新客分析与开发信撰写)、AI 辅助拓客(行业情报、智能 拓客、行业扫描仪、商机线索管理)等能力实现外贸全流程覆盖。
截至 2023 年 12 月 31 日,购买 AI 麦可的会员数约 4000 位(不含试 用体验包客户),现金回款超过 2000 万元。
鼎捷软件:AI+雅典娜中台,助力企业数字化转型
鼎捷打造了数据驱动的数智化 PaaS 平台雅典娜中台。以数据驱动和知 识封装为核心思维,鼎捷雅典娜 PaaS 平台包含封装了行业管理机制的 知识图谱,并搭配数据驱动模块,实时侦测企业关键数据的变化;在数 据发生变化后,依据机制里规范的执行方式,协助客户响应动作。
通过与基础模型厂商的合作,打造 ChatFile 等 PLM 功能。2023 年 10 月,鼎捷发布了新一代业内首款融入 AI 技术的智能化 PLM(产品生命 周期管理系统),基于雅典娜的数智化能力,接入 Open API,集成 ChatFile 了应用场景,能够提升信息获取和企业运转的整体效率。
C 端应用:百花齐放,关注 AI 对产品力的提升和赋能
C 端应用百花齐放,应当更加关注 AI 对产品力带来的提升。历史上 C 端 的超级应用一定都是在产品力上具有革命性,受众足够广泛且足够便宜 的应用。当下 AI 时代虽然还没有诞生真正的超级应用,但随着开发者的 不断探索,超级应用的到来时刻可能已经不远。
万兴科技:多产品线引入 AI 功能,“天幕”大模型全线赋能
通过将 AI 能力引入核心产品万兴喵影,万兴有望对标 Adobe Firefly 的 商业模式提升产品力。万兴喵影 2024 的更新中上线了 AI 文字快剪、智 能人声分离、AI 智能遮罩、AI 智能补帧等编辑功能。
2024 年 1 月,万兴科技发布了音视频多媒体大模型“天幕”。“天幕”由 视频大模型、音频大模型、图片大模型、语言大模型组成,基于 15 亿用 户行为及 100 亿本土化高质量音视频数据沉淀,具备一键成片、AI 美术 设计、文生音乐、音频增强、音效分析、多语言对话等核心能力。
科大讯飞:基础模型的先行者,下游终端场景丰富
科大讯飞是国内领先的基础模型厂商。其星火认知大模型在文本生成外, 能够实现多模态理解与生成、视觉问答、虚拟人视频等功能。 2024 年 1 月,科大讯飞发布了星火 V3.5 版本模型。模型能力整体接近 GPT-4 Turbo,数学、语言理解、语音交互能力超过 GPT-4 Turbo;代码 能力达到 GPT-4 Turbo 96%;多模态达到 GPT-4V 91%。
通过将大模型引入王牌产品学习机,科大讯飞实现了 AI 对教育场景的 赋能。AI 能够与学生互动,发挥其原生能力。
彩讯股份:AI+邮箱打造个人智能助理
彩讯股份结合其邮箱能力打造了 AI 智能邮箱产品。AI 智能邮箱助手能 够实现对邮件数据的智能整合、分析和反馈,如智能邮件摘要、邮件润 色/改写、智能归类和整理、日程智能调整、智能月报、个性化推荐等功 能。
安全应用:针对 GenAI 特点进行应用开发,注重案例积累与迭代
国投智能:前瞻布局 AI+公共安全,打造大模型“天擎”
与信创领域结合,大模型能力创新赋能公共安全取证环节。“天擎”公共 安全大模型是国内首个此类大模型,拥有丰富的公共安全行业知识,具 备强大的警务意图识别、警务情报分析、案情推理等业务理解和推理能 力,能够从海量数据中持续自我进化,实现行业知识、业务问题,解决 反馈的全流程闭环进化。
结合基础大数据能力,探索 AI 网络安全解决方案。国投智能牵头大数据 标准制定,已承接了全国超过三分之一的省级公共安全大数据平台,超 过 80 个地级市数据平台,积累了丰富的数据处理、调度和分析能力。目 前公司正着力于将大数据和 AI 技术协助执行网络空间社会治理,助力执 法部门实现“大数据打造无贼天下”的目标。公司拥有市场上支持率领 先、覆盖面最广的电子数据取证产品体系和综合解决方案,包括手机取 证、计算机取证、云取证、物联取证、区块链取证、便携取证等系列产 品,市场占有率持续领先,竞争力优势明显。
永信至诚:与基础模型厂商深度合作,针对 AI 诈骗等场景打造应用
聚焦 AI 安全评估,与基础模型厂商深度合作。LLM 时代企业需要面对 针对大模型本身的网络安全攻击问题;在数据收集、数据预处理、模型 训练、模型推理等各阶段面临的个人隐私、数据合规、数据篡改、投毒攻击等数据安全风险;以及企业在使用 AI 大模型过程中,可能遭遇的数 据泄露、模型接口等安全风险。2023 年 7 月,永信至诚宣布与商汤科技 达成合作,双方将围绕人工智能安全测试评估、大模型场景化安全应用 及人工智能攻防对抗等方面展开长期深度合作。
“AI 换脸”等诈骗高发,永信至诚“i 春秋”能够为此类场景提供安全 防护。当前的 AI 换脸和 AI 拟声是 AI 技术的衍生应用,一般通过 GAN 算法原理,将图片或视频合并叠加到源图片或视频上,借助神经网络技 术进行大样本学习,将个人的声音、面部表情及身体动作拼接合成虚假 内容。针对此类的新型电信诈骗,永信至诚旗下“i 春秋”产品能够通过场 景化、高仿真、可视化的互动体验系统提升用户的安全意识水平。
公司网络靶场和数字风洞产品为 AI 安全提供基础设施平台。面对 GenAI 可能存在隐私泄露、数据泄露等数据安全风险,公司的网络靶场和数字 风洞产品具备对该类产品和风险进行安全测试评估的能力。
公司基于“春秋”靶场构建大模型,用户能够通过对话交互轻松完成网 络靶场仿真场景的设计与构建,不仅可以实现拓扑设计、网络构建、自 动化仿真场景生成、场景下发等一系列复杂操作,还支持快速生成各种 网络靶场场景供不同角色用户进行实战演练,充分满足用户对专业仿真 场景使用的需求。
深信服:发布安全 GPT
深信服发布了国内首个企业级安全 GPT 云端大模型技术应用——安全 GPT(Security GPT)。安全 GPT 已学习海量网络安全垂直领域专业知 识和威胁情报,能大幅提升安全检测效果,增强安全运营效率和交互体 验,助力安全领先一步。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
计算机行业产业复盘与未来推演:AI应用,追本溯源之后,我们相信什么?.pdf
计算机行业分析报告:国产AI算力行业报告,浪潮汹涌,势不可挡.pdf
2024 年中国计算机网络设备市场研究报告.pdf
计算机行业央国企改革专题研究:央国企改革关键年,计算机行业是科技创新主力军.pdf
计算机行业专题分析:大模型生态加速突破,2024年应用元年有望到来.pdf
计算机行业专题报告:昇腾万里,鲲鹏展翅,华为算力乘风起.pdf
游戏行业专题报告:AI生成3D,关注游戏行业“AI拐点”.pdf
5G-A×AI新时代、新机遇、新价值.pdf
2023年中国营销领域AIGC技术应用研究报告.pdf
AI 大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕.pdf
通信行业专题:AI算力下的液冷,从“可选”到“必选”之路.pdf