【华金证券】计算机行业全球生成式AI应用全景图:AI应用进入大爆发时代.pdf

2023-09-07
95页
7MB

一、生成式 AI 应用进入大爆发时代

1)驱动因素:大模型、算力与生态的共振


生成式人工智能是自个人 PC 出现和互联网诞生以来最具颠覆性的技术创新,随着大模型以及 ChatGPT 等一系列“杀手级”应用的诞生,生成式 AI 在文本、图像、代码、音频、视频和3D模型等领域展现出了强大的能力。当前生成式 AI 的发展仍处于起步阶段,未来有望为全球经济创造数万亿美元的价值,并对各行各业的工作方式产生重大影响。在生成式AI 产业突变的背后是人工智能技术数十年的积累和酝酿,其演进历程具体可分为四个阶段:


1)专家系统:上世纪 50 年代前后,人工智能开始萌芽,基于规则的专家系统占据主导,这一时期,使用复杂的逻辑规则,能够处理包括字符匹配、词频统计等一些简单的任务,机器翻译以及语言对话的初级产品,1966 年 MIT 发布的世界上第一台聊天机器人Eliza可以看作生成式 AI 最早期的产品之一。Eliza 能够根据接收到的文本,遵循简单的语法规则来模拟与人类用户的对话。与此同时,专家系统存在词汇量有限、缺乏上下文和过度依赖规则等缺点,生成创造性内容的能力非常有限;


2)机器学习与神经网络:1980 年美国的卡内基梅隆大学召开了第一届机器学习国际研讨会,标志着机器学习在全世界兴起,20 世纪 90 年代以后,神经网络作为一种新的生成人工智能方法出现了。神经网络受到人脑的启发,能够以基于规则的系统所不能的方式从数据中学习,带来了AI 技术的突破,AI 可以开始基于神经网络创建逼真和有创意的内容;


3)深度学习:2012 年后,深度学习在人工智能领域中的应用将生成式AI 带入了一个新的高度。深度学习作为一种基于神经网络的机器学习方法,通过大规模的数据特征学习,对不同场景具备很强的自适应性,同时可以通过增加层数和节点数,实现对更复杂的问题的解决,提升了模型的准确性和真实性,并且基于分布式计算和 GPU 加速等技术,能够训练更大规模的数据和更大尺寸的模型。直到现在,生成式 AI 依然建立在深度学习的基石之上;


4)大模型:2017 年,Google 发布著名论文《Attention is All You Need》,提出了基于一种新的神经网络——Attention 注意力机制所构建的模型 Transformer,2018 年OpenAI 和谷歌分别推出了 GPT 模型以及 BERT 模型,均是在 Transformer 的基础上构建,Transformer 及GPT模型标志着生成式 AI 在文本领域的重大飞跃。与此同时,伴随着VAEs、扩散模型、神经辐射场、CLIP 等一系列生成算法和多模态模型的不断成熟,生成式 AI 的时代正式开启。




模型、算力、生态推动为 AI 应用进入大爆发时代: 1)算法及模型的快速进步:2017 年 Transformer 模型及2022 年ChatGPT的发布标志着GenAI 在文本领域的重大飞跃,并在多项能力上超越了人类基准,随着未来更强大的语言大模型(如 GPT-5),以及多模态大模型和视觉大模型的技术突破,将带动AI 应用的持续进化。2)算力基础设施将更快、更便宜:虽然短期内大模型训练需求的激增导致了算力成本的持续上涨,但是随着英伟达算力芯片的不断更新迭代,微软、亚马逊、谷歌等在AI 云服务资本开支的不断加大,AI 应用的发展将得到更加强有力的支撑。 3)AI 生态的逐渐成熟:AI 组件层(AI Stack)的完善和产业分工细化,为AI 应用在模型训练、数据整合、应用开发、应用部署等环节提供全生命周期的支撑。


本轮生成式 AI 的技术的最大突破来自于底层大模型,GPT 作为当前全球最强大的语言大模型,从 2018 年 5 月 GPT 初代版本,到 2023 年 3 月的 GPT-4,仅5 年时间模型的性能就产生了质的飞跃。在 GPT 模型快速进化的背后,一方面是对训练方法的持续迭代,从GPT-1的半监督式学习,到 GPT-2 舍弃了微调阶段,再到 GPT-3 的 In-context 学习和海量参数,以及引入了基于人工反馈的强化学习之后的 ChatGPT;另一方面,在模型参数规模扩大背后,是OpenAI对研发和算力的持续高投入,通过“大力出奇迹”的方式,支撑了模型参数和训练数据的快速膨胀。GPT-4 相较于之前版本的 GPT 模型,在推理能力、文本生成能力、对话能力等方面有了大幅提升之外,在许多能力上已经超越了人类基准。同时大模型作为能够在海量、广泛、非结构化数据集(例如文本和图像)上进行训练的大规模深度学习模型,它的强大之处不仅在于文本生成,大模型可以适应各类不同的任务,不仅可以用于聊天机器人,同时也可以用来创建新的蛋白质序列,并且当前已经成为了图像、代码、音频、音乐、视频和3D 模型等各种模态应用的底层框架。


随着大模型家族的不断丰富,出现了单向/双向、开源/闭源等不同的技术路线。


1)单向/双向:在 Transformer 模型 2017 年诞生之后,2018 年OpenAI 和Google发布的GPT-1 和 BERT 采用了 Transformer 不同的框架,6 月OpenAI 发布的GPT-1仅使用了Transformer 的 Decoder 框架(单向架构),10 月,Google 发布的BERT 模型采用Transformer的 Encoder 框架(双向架构),作为一个拥有 3 倍 GPT 参数量的更大体量的语言模型,BERT在当时的多项测评以及业内影响力等方面,要领先于 GPT 的初代版本。2020 年,随着GPT-3的惊艳表现,单向模型在语言生成方面的优势开始展现(特别在大参数情况下),Decoder路线逐渐占据主导,当前主流大模型大多采用 Decoder 框架或大Decoder 小Encoder 框架。


2)开源/闭源:大模型的开源/闭源,与 iPhone/Android、Windows/Linux 有类似之处。包括 GPT-4,以及谷歌的 Bard、Claude 等大模型均是闭源模型,优势在于性能强大和易于上手,目前依然是绝大多数海外主流生成式 AI 应用的首选;而 LLaMA2、Stable Diffusion,Eleuther,GLM130B,OPT,BLOOM 引领的开源模型优势在于灵活性和低成本,特别llama2的发布,宣布支持商业化,让应用层的公司可以以非常低成本来使用大模型,可以基于开源模型进行私有化部署并实现差异化功能的开发。在过去的一年里,开源阵营模型的能力和数量有了显着的提高,开源框架目前也正在成为越来越多应用的选择。


目前大模型的应用已经不局限于 NLP 领域,包括图片、语音、视频、代码等多种模态的应用开始涌现,而大模型、生成算法与多模态等底层技术的突破成为了AIGC的质变的关键。一方面,目前大模型可以广泛适用于各类下游任务,当前已经成为了AIGC 的底层框架。许多跨领域的 AI 应用均是构建于大模型之上,能够解决多任务、多场景、多功能需求,支撑各种模态的生成;另一方面,包括生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(DiffusionModel)、神经辐射场(Nerf)等快速涌现的生成算法,以大模型为基础,能够创造出文字、图片、语音、视频、代码等各种模态的内容,而基于此之上的多模态应用开始涌现。


1)文本生成:目前技术最成熟的领域,随着新一代大模型的发布,未来将看到更高质量的输出、更长形式的内容和更好的垂直特性; 2)图像生成:过去一年技术进化速度最快的领域,2014 年出现生成对抗网络GAN是图片生成的主流算法,但一直存在对输出结果控制力弱,难以生成新图像等缺点。随后扩散模型、CLIP 模型等技术的成熟,文生图的能力大幅增强,包括 DALL-E2、Stable Diffusion等主流文生图应用均是基于扩散模型所构建; 3)视频生成:目前尚未有非常成熟的视频生成算法,许多应用还是依赖于图像生成的算法;4)3D 模型生成:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于 2020 年于 ECCV 会议上提出,目前已经成为 3D 模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔的应用空间;5)代码生成:GPT-4 等大模型具备很强的代码能力,未来将会对软件开发人员生产力产生重大影响,同时能够使非专业开发人员更容易生成代码; 6)音频生成:音频合成在技术和商业化上已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果,典型应用如:AI 孙燕姿; 7)其他:从生物蛋白质分子模型到其他垂直领域,许多行业都在进行垂类模型的研发。


在语言大模型和多模态多模态大模型快速取得质变的同时,视觉领域的基础大模型VisionTransformer(VIT)在 2020 年诞生后,近三年语义分割、目标检测、图像分类、实例分割等主要视觉任务上的能力均有明显提升。Vision Transformer(VIT)于2020 年由Google提出,可以看成是 Transformer 的图形版本,在尽可能少的改造下将标准的Transformer 模型直接迁移至图像领域变成 Vision Transformer 模型。Vision Transformer 最初用于处于图像分类任务,2020年很多后续的视觉模型都是基于 VIT 建立。为了将 Transformer 模型适用于图像,VIT将图像切分成很多子块并将这些子块组成线性嵌入序列,然后将这些线性嵌入序列作为Transformer的输入以模拟在 NLP 领域中词组序列输入。


当前视觉大模型相当于 20 年前后的语言大模型: 1)Transformer 于 2017 年由 Google 提出,Vision Transformer 于2020年提出;2)当前最大的语言模型已经超过万亿参数量级,当前最大的视觉模型刚刚达到百亿参数量级; 3)从 GPT-2(2019)开始,语言模型开始具备通用能力,而当前视觉模型基本仍只能处理特定视觉任务。




巨头持续加码算力基础设施,未来 AI 算力将更快、更便宜,并更好的支撑应用层的快速发展。多年来,英伟达 GPU 性能的突破的基本遵循摩尔定律,GPU 的晶体管数量每两年增加一倍。近年来,随着芯片架构的进步以及张量核心和 Transfomer 引擎等功能的引入进一步提高了英伟达 GPU 的吞吐量和效率,GPU 进化的速度超越了摩尔定律。同时除了硬件之外,英伟达围绕CUDA 构建的软件生态系统,为开发人员提供端到端的解决方案,简化了人工智能应用的开发、部署和管理,已经成为了各行业人工智能的操作系统层。除英伟达外,全球科技巨头均在加速算力侧的布局,其中软件厂商开始自研芯片,而硬件厂商则在搭建算力平台,包括微软、亚马逊、谷歌、甲骨文和 Facebook 等软件及云服务巨头正在加大对AI 算力云服务的资本开支,并提供更丰富的 AI 云服务模块、涉及 NLP、机器学习、计算机视觉等各个领域;另一方面,微软、亚马逊、谷歌等均在加大自研 AI 芯片的投入。因此虽然短期来看,大模型训练的需求的急剧增加推高了算力成本,但随着未来芯片性能的快速进步以及 AI 算力供需的逐渐平衡,应用层的发展将得到更好的支撑。


AI 组件层(AI Stack)是 AI 生态的重要组成部分,为模型训练、数据整合、应用开发、应用部署等提供支撑,AI 组件层的完善和产业分工细化,代表AI 生态的逐渐成熟。AI 组件层具体包括了模型训练、数据整合、应用开发、应用部署等几个关键环节,各环节均已经初步跑出了一系列组件工具,可预见随着各个头部工具厂商不断拓展自身的产品线,AI 组件层的一体化和平台化程度会越来越高。除了新兴厂商之外,IBM、埃森哲、德勤等IT 咨询公司也推出了AI 解决方案,来支撑 AI 应用的开发与部署,具体来看: 1)应用框架:通过提供了一套组件和接口,将开源模型、API 和数据库等不同的外部组件链接在一起,能够帮助应用开发快速构建基于大模型的 AI 应用,来简化应用的开发和创建过程,代表厂商包括 LangChain,Dust.tt,Fixie.ai,GPT Index 和Cognosis。2)数据整合:由于基础模型仅限于对训练它们所依据的事实进行推理,而应用和垂类模型需要使用时效性强以及垂直领域和私有数据来推出面向专业领域的应用,特别是在金融、医疗等专业性强以及天气、体育、新闻等实效性强的领域,应用程序开发人员需要模型调用外部数据源,通过外挂等方式来实现数据整合,而非再次训练底层大模型。涉及工具包括了向量数据库Pinecore 、 Chroma 、 Redis 等 、 上 下 文 窗 口 LangChain 、LlamaIndex 等、数据加载器 Unstructured.io 、Databricks 等。 3)模型训练:应用开发对底层模型有多种选择,可以选择由Open AI、Anthropic或Cohere等供应商创建的闭源模型,或者使用开源模型,以及可以选择训练自己的模型,而且模型尺寸、模态、输出质量、上下文窗口大小、成本和延迟各不相同,最佳设计通常需要开发人员在使用多个模型的组合。涉及到的 AI 组件包括:模型库 Hugging Face、Replicate 等、深度学习框架TensorFlow、PyTorch、DeepSpeed 等、训练工具 Mosaic、TOgether、Cerebras等,托管服务 OctoML、Vertex AI 等。


4)评估工具:一方面,在模型训练过程中,开发人员需要使用多种工具来实现模型的快速开发和迭代,基于数据来驱动提示工程、超参数、微调、模型相关的实验,相关工具包括Statsig、Comet、Mlflow 等;另一方面,在应用部署后,应用厂商需要跟踪底层大模型的性能、成本、延迟和行为随时间的变化,了解模型输出的质量,防止恶意使用以及控制大模型的成本,相关工具包括 WhyLabs、datadog 等。 5)应用部署:将 AI 应用部署到实际应用环境中,可以采用Fixie 、Gradio等框架,或者采取第三方厂商的服务来完成应用的部署实施。


2)产业现状:一二级视角看 AI 应用的演进


随着 GPT 以及扩散模型等底层模型和算力能力的突破,生成式AI 应用在近3年来取得了跨越式的发展。当前时点,B 端应用场景逐渐成熟,AI 应用即将进入全面商业化阶段。


1)2021:GPT-3 催生出第一批生成式 AI 应用。2021 年第一批生成式AI 应用诞生得益于2020 年 5 月 GPT-3 的发布,相较于 GPT-2 及其他语言模型,GPT-3 在机器翻译、聊天问答和文本填空上等语言任务上有着非常出色表现,并且开始能够完成一些比较困难的NLP任务,比如生成新闻报道和撰写文章。因此从 2021 年开始, 包括 Jasper AI 在内第一批基于大模型生成式人工智能应用诞生,大多是基于 GPT-3 的能力,并以类 SaaS 服务的形式进行收费。JasperAi在成立当年就收获 7 万名用户、营收额达到 4500 万美元,2022 年翻倍达到8000万美元,仅用18 个月时间速成为一家估值 15 亿美元的 AIGC 独角兽。


2)2022:AI 作画的爆发与 ChatGPT 的发布,22 年是生成式人工智能的元年。22年随着扩散模型等生成算法的突破,一系列 AI 作画应用相继诞生,其中包括了MidJourney、Dall-E2、Imagen 等在线文生图应用,以及 Stability AI 的开源模型 Stable Diffusion ,AI 图像生成的效率与精度提升到了前所未有的量级。22 年底,生成式 AI 的“杀手级应用”ChatGPT正式发布,基于对超大规模数据的深度学习,ChatGPT 在文本生成领域的能力得到了空前提高。除此之外,各种视频生成(Make-a-Video、Imagen Video),以及 3D 模型生成(DreamFusion、Magic3D和 Get3D),包括代码生成工具 GitHub Copilot 开始受到广泛关注。


3)2023:C 端应用面临洗牌,B 端应用即将进入全面商业化。23 年生成式AI 在基础模型实现了持续的突破,GPT-4 发布的大语言模型在多项任务上进一步提升,而开源模型Llama为初创企业和其他企业提供了一个强大的免费选择,和 OpenAI 的闭源模型阵营形成竞争。在模型能力快速进化的同时,一方面是各类生成式 AI 的项目数量开始激增,另一方面,B端应用在处在商业化的前夜,自 3 月微软发布了基于 GPT-4 的 AI 办公助手office Copilot,此后包括企业服务、营销、低代码、安全、教育、医疗、金融等领域的 AI 应用开始陆续发布。7月份,Microsoft365 Copilot 公布定价,为每个用户 30 美元/月,同时全球 CRM 龙头Salesforce宣布正式向所有用户开放 AI 产品,并给出了单个产品每用户每月 50 美元的定价。随着两大软件巨头AI 功能定价发布,AI 应用将正式进入商业化落地阶段。


年初以来,海外科技股在 AI 引领下持续上涨,AI 算力基础设施层公司率先受益于AI 产业浪潮,其中英伟达是 AI“掘金买铲”逻辑的核心受益者,其次为微软、Google、AWS、Oracle等头部云服务厂商和大模型厂商。当前生成式 AI 中的很大部分收益流向了基础设施层,根据海外风险投资机构 Andressen Horowitz 的粗略估算,应用厂商平均需要将20-40%的收入支付给云服务商或大模型厂商,同时大模型厂商通常也会将近一半收入用于支付云基础架构。因此总体上,当前生成式 AI 总收益的 10-20%流向了云服务商,其中大部分集中三朵云上:亚马逊云(AWS)、谷歌云(GCP)和 Microsoft Azure。而在更底层的则是英伟达的GPU,其主力AI 芯片A100、H100 承载了绝大多数 AI 模型训练与开发,占据 AI 服务器硬件成本的近90%,英伟达凭借强大的芯片性能以及 CUDA 软件生态系统,围绕 AI 算力建立了深厚的护城河,毫无疑问是本轮生成式 AI 的最大受益者。此外包括网络设备(Marvell、Arista、博通),数据存储(MongoDB、Teradata、Snowflake),服务器(Smci)等环节的基础软硬件厂商也均有不同程度的受益。




目前 AI 应用特别是 B 端的应用还处于早期,应用层从商业化以及兑现时间来看预计要晚基础设施层 2-3 个季度,今年以来头部应用厂商股价同样也有所演绎。今年年初至今涨幅靠前的AI 应用公司有:Palantir(136%)、shopify(92%)、Salesforce(67%)、ServiceNow(52%)、Palo Alto Networks(74%)、Adobe(67%)、Duolingo(109%)、LegalZoom(46%)、TTD(78%)。相较于 AI 基础设施厂商已经能够从模型训练所产生的巨大需求,来验证到订单和业绩,美股 AI 应用公司业务基本集中在 B 端,大多还处于产品打磨阶段或者商业化早期。部分赛道上龙头公司包括 MS、Salesforce、ServiceNow、Shopify 已经发布了生成式AI 产品,其中MS、Salesforce 公布 AI 产品的定价,预计从今年 Q4 到明年Q1 能够看到B端应用商业化的初步落地,此外也有部分公司如 Palantir、Palo Alto Networks 的生成式AI 产品已经在实际场景中得到应用且已经带来了明显的收入贡献,但大多数 B 端的 AI 应用厂商还尚未进入到实质性商业化阶段,因此总体来看,AI 应用层厂商从兑现节奏来看要明显晚于基础设施层。


今年以来 GitHub、Replit 等开发者社区的 AI 项目实现了爆发式的增长。根据斯坦福大学在 22 年底发布的《2023 年人工智能指数报告》中的数据,全球最活跃的开发者社区GitHub上的 AI 相关项目数量近 10 年以来稳步增加,从 2011 年的 1536 个增加到2022 年的347934个,而在今年以来,GitHub 上 AI 开源项目迎来了大幅度的增长,截止8 月底数量达到了91万,相较于去年全年的增幅达到 264%。同时,根据另一开发者社区Replit 的数据,2022年第四季度以来,人工智能项目激增,23 年第二季度末 AI 项目数量达到了30 万个,其中16万个项目是在23 年第二季度创建的,相较于 23 年第一季度环比增速达 80%,而相较于去年同期数量增长了34 倍,且现在仍处于加速增长的趋势。


OpenAI 在大模型上依然具备统治级地位,同时基于开源模型项目数量正在快速增长。根据开发者社区 Replit 的数据,截止 2023 年二季度,95%以上的应用项目均是基于OpenAI 的模型来构建,而包括 Cohere、Cohere 以及 Google 在内的其他模型合计占5%。同时,开源模型的数量正在快速增长,Hugging Face 和 Replicate 作为开源模型的API 和SDK提供商,是开源模型的重要入口。23 年二季度,Replit 平台上开源模型的项目超过5000 个,相较于Q1增长了141%,其中超过 70%的项目使用了 Hugging Face,但 Replicate 的使用量增速更快,Q2相较于Q1达到了约 6 倍的增长。此外,截至 23 年二季度,Replit 上有近25000 个活跃的LangChain项目,其中 2 万个是在二季度创建的,比一季度增长了近 4 倍。


从投融资情况来看,2023 年是生成式 AI 创纪录的年份。根据海外知名投融资数据平台CBInsights 的统计数据,截至 2023 年第二季度,生成式 AI 的投融资数量达到86 笔,总金额超过141 亿美元,相较于去年全年的 25 亿美元,增长了 4.6 倍。其中,今年以来筹资金额最多的五家公司分别是: 1)OpenAI:全球人工智能研发的领导者,今年 1 月获得了微软的100 亿美元融资;2)Inflection:于 6 月宣布完成 13 亿美元的最新一轮融资,由微软、英伟达和三位亿万富翁牵头投资,Inflection 于 5 月推出了首款产品即个人 AI 助理PI,主打陪伴以及为用户提供情绪价值,成为人工智能领域融资量仅次于 Open AI 的第二大初创公司;3)Anthropic:由前 OpenAI 员工创办,语言模型 Claude 的开发商,是ChatGPT的主要竞争对手,今年以来融资金融达到 8.5 亿美元,其中年初谷歌投资了3 亿美元,5月完成了4.5亿美元 C 轮融资; 4)Adept:发布了自研的大模型 Action Transformer (ACT-1),今年3 月宣布获得来自包括微软、英伟达在内的 3.5 亿美元 B 轮融资; 5)Cohere:主要业务是给用户提供应用大语言模型的 API,帮助用户创建特有使用场景和独有数据的大模型,今年 6 月获得了 2.7 亿美元的 C 轮融资,投资者包括英伟达、甲骨文和Salesforce。 根据 Turing Post 的数据,截止 23 年 8 月已经 15 家生成式AI 公司达到了10亿美元+的估值,主要为大模型的开发商及 AI 工具厂商。其中,这 15 家公司达到独角兽估值门槛的平均时间仅近 4 年,而平均而言达到独角兽门槛的需要 7 年左右的时间。


从应用层的融资中,人工智能助理(AI Assistants)获取的的资金最多,其次为文本、图像、代码及音频的生成。根据 CB Insights 的数据:1)生成式交互(GenerativeInterfaces)总体上占据了应用层融资的大部分,其中主要包括 AI 助理、通用搜索、生产力和知识管理,自22年第三季度以来共有 23 笔交易,金额达 27 亿美元,其中绝大多数资金流向了AI 助理;2)其次为文本类应用,主要包括社交媒体、市场营销、AI 伴侣、文本总结、邮件工具等领域的生成式 AI 工具,自 22 年第三季度以来共有 24 笔交易,融资金额达6.4 亿美元;3)视觉媒体类应用紧随其后,项目设计图像视频编辑、合成数据、视觉广告,产品营销,产品设计等领域,共有33 笔交易,总金额达 3.9 亿美元;4)代码同样是生成式 AI 的热门领域,应用领域包括代码生成、自动化命令行、代码检查、代码搜索、网站及应用创建等。




3)应用框架:应用的四大赛道与产业逻辑


生成式 AI 应用按应用领域可以分为:通过工具,通用软件、行业软件、智能硬件四大类。具体来看: 1)工具型应用:包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具等,应用领域主要集中在 C 端,产品的同质化程度较高,对底层模型的能力存在高度依赖,目前C端应用正进入第一轮洗牌阶段; 2)通用软件:主要包括办公软件、企业服务、IT 运维、软件开发、网络安全、数据智能等领域,各个赛道上均已出现标杆产品,大多数是智能助理(Coplilot)的形态,预计将在四季度进入商业化落地的关键阶段; 3)行业软件:涉及金融、医疗、教育、工业、游戏、法律等多个行业,行业间差异化程度较大,2B 场景下产品目前成熟度仍低于通用软件,金融、医疗等头部厂商开始打造垂类大模型,未来对行业数据价值的充分挖掘是竞争的关键; 4)智能硬件:汽车、机器人、智能终端等,无论智能驾驶还是机器人均具备巨大的市场空间,当前的瓶颈在于感知层与决策层,需要计算机视觉等底层技术的进一步突破。


生成式 AI /大模型拥有三大底层元能力:感知、分析和生成:1)感知:对文字内容的感知、对人类输入的需求理解能力,未来进化方向是从文字内容的感知到图像视觉的感知; 2)分析:对信息和知识的检索、归纳与整合能力,未来进化方向是推理和决策。3)生成:文本生成能力较为成熟,未来进化方向为图片、视频、3D等多模态生成能力的进一步提升。 基于三大底层元能力,未来的 AI 应将沿着 AIGC(内容生成)、Copilot(智能助手)、Insight(知识洞察)、Agent(数字代理)四个重要的方向演进: 1)AIGC(内容生成):生成式 AI 的最主要变革是它能够生成创造新的内容,包括文本、图像、视频、代码、3D 模型等,AIGC 应用发展将取决于大模型及多模态技术的进一步的提升;2)Insight(知识洞察):基于大模型实现对数据、信息、知识的分析与整合,为用户提供洞察并辅助决策,主要应用于金融、医疗、军事等领域的分析、研究和决策工具。3)Copilot(智能助手):将 AI 的能力深入嵌入具体应用场景中,作为应用的AI 助手,能够主动理解使用者的意图并提供成型的方案,Copilot 是生成式AI 应用最广泛的产品形态;4)Agent(数字代理):AI 智能体,相较于 Copilot,Agent 能够自动感知环境,通过自己的独立决策和行动来改变环境,并通过不断学习和自适应来提高性能,主要应用包括自动驾驶、机器人等。


工具型应用自去年下半年开始迎来爆发,主要产品包括聊天机器人、搜索引擎、文本工具、AI 作画以及代码工具,电商、营销、设计是比较常见的应用场景。工具型应用的产品属性决定了对底层模型存在的高度依赖,竞争的同质化程度较高,主流应用厂商开始寻求差异化的定位并且开始自研底层大模型。目前,聊天机器人、文本生成、代码生成等领域的工具大多是基于GPT-4,但产品功能上与 GPT-4 重叠度较高,比如文本工具Jasper AI 虽然集成了GPT模型的能力,但由于自身的场景化的壁垒不够,因此也在 GPT-4 的冲击下,流量开始明显下滑。而AI作画应用普遍基于扩散模型,虽然 DALL-E2 的发布早于 MidJourney,但是随着模型能力和视觉表现上的提升,MidJourney 超越了 DALL-E2 成为了目前最流行的文生图在线工具。目前的主流工具型应用一方面会更多寻求差异化定位,比如 Character.AI、Infectetion AI 定位于主打陪伴和虚拟角色的聊天机器人,另一方面也在正在打造自己的大模型。工具型应用自去年下半年以来经过爆发式增长期,在 6 月 ChatGPT 访问流量首次出现下降,在新一代大模型技术迭代前,行业正在进入第一轮的洗牌期。


从工具型应用的几个应用领域具体来看:


1)聊天机器人:ChatGPT 目前仍是流量最大的 AI 聊天机器人,虽然在今年6-8月流量有小幅下降,但总体来看,依托于底层模型的强大能力,市场地位仍非常稳固。另一类是主打陪伴,能够创建虚拟角色的聊天机器人,代表有 Character AI 以及Infectetion AI 的聊天机器人PI,这类机器人更注重人格属性,与 ChatGPT 形成差异化竞争,用户可以完全自己创作角色来满足社交、情感、陪伴等需求,目前这类应用的流量还在稳步增长。这一领域的头部厂商大多在开发自己的大模型,其中 Inflection AI 表示计划打造一个包含大约 2.2 万块英伟达H100芯片的计算集群,总计算量估计是用于训练 GPT4 全部计算量的 3 倍。未来聊天机器人更具前景的应用是集成于文档、网页、知识库等具体的应用环境中,以 AI 助手(Copilot)的方式与用户进行交互,包括回答问题、提供建议、执行任务等,这也是这类产品未来演进的主要方向。


2)搜索引擎:生成式 AI 与搜索引擎的结合具体体现在,传统搜索引擎主要基于关键词匹配,而基于大模型的搜索的核心在于意图理解和内容生成,具备了整合、提炼、串联信息的能力,能更好地应对开放式问题。今年 2 月微软将生成式 AI 整合到了自家搜索引擎中,并命名为“New Bing”。在接入了之后 GPT,Bing 访问量虽然有一定程度的增长,但目前来看还远未能撬动谷歌在搜索引擎市场的绝对领先地位,同时谷歌也推出了Google Bard 来应对NewBing的冲击,除了微软和谷歌等巨头之外,目前硅谷还有不少 AI 初创企业投入到了搜索引擎这一赛道。


3)写作工具:文本写作类 AI 工具大多是基于 GPT 模型,在模型进行一些定制性的优化,或者通过预先设置 Prompt,来满足一些文案生成的需求,整体上看对GPT 等底层大模型有较大的依赖,竞争力在于场景化定制的模板和功能。目前头部的应用有Notion AI、Jasper AI、CopyAI 等,其中 Notion AI 侧重通用写作,主打全面的文本生成和内容编辑功能,而Jasper AI、CopyAI 更侧重于营销工具,内置了广告文案、邮件、博客文章、推文等数十种模板和文案功能。目前来看这一领域的产品同质化程度较高,在 GPT-4 的冲击下,头部的写作类应用包括JasperAI近三个月流量开始快速下滑。


4)AI 作画:主流三大文生图工具为 DALL-E2、Stable Diffusion、Midjourney,其中DALL-E2与 MidJourney 是闭源模型,可以实现在线访问,使用门槛低,用户输入一定提示词后即能实现文生图。虽然 DALL-E2 的发布早于 MidJourney,但是随着MidJourney 在视觉表现上超越了DALL-E2,成为了目前最流行的文生图在线工具。Stable Diffusion 主要走开源路线,可以在用户本地部署与运行。目前开源和闭源工具在商业模式上也存在较大差异,MidJourney能够通过向用户直接提供订阅服务来收费,而 Stable Diffusion 的基础模型免费,主要通过为企业提供定制模型来实现商业化。


5)编程工具:GPT-4 自身的在编程能力上相较于之前版本有了很大程度的提升,除了代码生成能力之外,在容错空间更大的重构代码、代码测试以及修改bug 等环节得到了更频繁的应用,能够带来研发过程中显著的效率提升。同时包括 Github、HuggingFace、Replit 等开发者社区今年以来的项目和流量大幅增长,今年 3 月 Github 发布了接入GPT-4 的新版本编程辅助工具Github Copilot X,在之前的代码生成等基础功能上增加了语音扩展、智能文档、自动告警、自动扩写等功能,是市场上最先进的 AI 辅助编程工具。


目前生成式 AI 在游戏、法律、教育、电商等 C 端场景有较多的结合,而在医疗、金融、工业等 B 端场景下生成式 AI 产品的成熟度仍然偏低。在行业类应用场景中是AI 助手(Copilot)同样得到了广泛应用,而未来在金融、医疗、工业等领域,最具前景的应用来自于数据挖掘和知识洞察(Insight)类工具。同时,相较于通用大模型,垂直行业大模型在金融、医疗等领域有着更加深度的应用,一是由于安全及隐私保护等要求,行业数据大多存储在本地,通用大模型在缺乏必要的训练数据,二是垂直行业的数据量级大,涉及系统又比较复杂,通用大模型在解决专业问题的能力上不如垂类大模型。包括彭博社推出的金融大模型Bloomberg,以及Meta公司推出的蛋白质大模型 ESMFold 均证明了垂类大模型的专业性能要超过通用大模型,目前各行业头部厂商也在开始自建垂类大模型。




1)金融:生成式 AI 技术在金融领域的主要应用为数据分析工具,通过对金融大数据的挖掘来实现知识洞察,典型应用包括证券领域的智能投顾,银行领域的智能风控等。其中,证券侧重于智能投研,功能包括研报生成、财务数据查询、盈利预测、投资组合建议等代表性产品有金融数据分析工具 FinChat 等;银行则侧重智能风控,通过对客户的信用历史、行为特征等数据进行分析,挖掘风险因素,实现信贷风险、反欺诈、反洗钱等行为预警,目前主要有开源模型FinGPT。同时,今年彭博社推出了专为金融行业从头打造的 500 亿参数大语言模型BloombergGPT,训练数据来自于彭博社的财务数据,涵盖了金融领域的一系列主题,生成了7000多亿个标签的大型训练语料库。BloombergGPT 在金融领域的任务普遍拥有着超过通用大模型的表现。


2)医疗:化合物合成、靶点发现等医药研发是此次生成式AI 变革突破的新场景。其中,医药研发目前主要通过 AI 大模型生成新型小分子、核酸序列和蛋白质,以及识别靶点、药物筛选等,代表性产品包括 AbSci、Integrated Drug Creation、CentaurAI 等;医院诊疗主要用于病历生成、诊疗建议、分析诊疗记录等,以提高诊疗效率。目前,主要有MyChart、SlicerDicer、DAXExpress 等产品。此外,医疗器械,如 CT、MRI 等与图像相关的一体化器械,在生成式AI 的赋能下将进一步增强医学图像等非结构数据的处理能力。


3)教育:生成式 AI 目前主要应用于面向 C 端的语言学习和学习工具场景,目前率先实现商业化。其中,语言学习龙头厂商 Duolingo 基于 GPT-4 推出的Max 版本新增了ExplainMyAnswer 和 Roleplay 两项功能,订阅价格翻了 4 倍,同时带动了Duolingo 股价的上涨,年初至今涨幅最高超 130%;学习工具 Khanmigo 定价 9 美元/月,Q-Chat 订阅为7.99美元/月,CheggMate 计划定价在 15.95 美元-19.95 美元之间。此外,在线教育场景旨在改善其现有功能,仍处于探索阶段。


4)工业:当前大模型的应用主要聚焦在研发设计中的创成式设计、草图生成等辅助类设计的应用,以及运维管理中业务流程信息化 CRM、ERP 等软件,生产制造环节由于生产环境的安全性与稳定性要求较高,生成式 AI 技术应用还未完全成熟。目前,工业大模型参与者主要包括工业软件厂商、互联网科技厂商、平台厂商等,但由于工业场景的复杂度,很多数据不可读取,因此工业软件厂商、平台厂商通常与具备大模型能力的互联网科技厂商进行合作。


5)游戏:游戏创作效率的提高是生成式 AI 赋能游戏行业最显著的特点。一方面,生成式AI 技术能够从现有视频中直接捕获动画,无需通过演员穿戴动作捕捉服进行记录,节省人力成本。目前,Kinetix、DeepMotion、Move Ai 等公司正在探索这一领域;另一方面,生成式AI能够帮助游戏开发者大幅减少游戏设计时间和成本。代表性产品有Unity 的创建游戏AI 工具UnityMuse和推理引擎工具Unity Sentis和Roblox的游戏创建工具Code Assist和Material Generator。此外,初创公司正在探索利用生成式 AI 技术创建游戏中的 NPC 角色,来增加游戏的自由度和体验。


6)法律:诉讼文书的制作和“示意证据”的生成是目前AI+法律应用最广泛的领域。其中,诉讼文书的制作是 AI 最早的应用领域,能够有效提高法律文书的审查与制作效率与准确性;“示意证据”能够以生成文本、图片、视频、音频、模型的方式展示证据,辅助司法人员直观地观察和理解证据。


AI+智能硬件:目前生产式 AI 与智能硬件的结合主要分为两个方面:一是个人助手,应用场景包括智能座舱、智能音箱、家用机器人等各类智能终端,相较于过去的语音交互模式,大模型和生成式 AI 技术提升了感知和生成能力,进而带来了用户体验的提升,但是总体而言产品门槛相对较低,另一类则为数字代理 AI Agent,主要应用包括自动驾驶、智能机器人等,具备更加广阔的应用空间。AI agent 能够感知环境、进行决策和执行动作的智能实体,接收输入数据(例如传感器信息、文本、图像等),通过分析和处理这些数据,理解环境和任务要求,并做出相应的决策和行动。目前 AI Agent 在感知与决策能力上仍存在瓶颈,未来突破的关键在计算机视觉等底层技术的突破。


1)汽车:生成式 AI 目前主要应用于智能座舱内的车载语音助手,以及自动驾驶数据标注、算法迭代、仿真系统等场景。其中,车载语音助手在生成式AI 的赋能下不需要唤醒词即可实现语音交互功能,缩短响应时间。代表性产品为 Cerence Studio;自动驾驶方面,生成式AI 技术不仅能够提高数据处理环节自动标注的效率,还能加强自动驾驶感知与规控精度,加速自驾算法迭代,以特斯拉 FSD 算法为代表。


2)机器人:生成式 AI 对于人机交互能力的提升将率先促进人形机器人、服务机器人成为“具身智能”的载体,而工业机器人由于工业领域的环境复杂度较高,以及与人交互需求较低,更依赖于机器视觉、神经网络等技术的突破。其中,人形机器人已经初步实现商业化应用,1Xtechnologies 研发的 EVE 实体机器人已经作为安保机器人投入使用,而下一阶段将在医院、养老院等场所投放;服务机器人面向 C 端,通常应用于清洁、外送、商场等场景,通过生成式AI 实现语音、图片等多模态方式输入,预测并理解用户当下情感,及时作出反应,旨在降本增效。主要有礼宾机器人 Connie,餐饮机器人 Adam、自主安全机器人ASR等。


B 端即将进入全面商业化阶段。7 月微软 Office 365 Copilot,Salesforce EinsteinAI 等海外标杆 AI 应用定价公布,且定价超出预期。其中,面向 Office 365 E3、E5、商业标准版和商业进阶版的订阅商户,Office 365 Copilot 的定价为每个用户 30 美元/月。相较于Office主线产品15-30美元/月的定价,此次针对 AI 功能的单独定价显著超出预期,最高提升了2 倍以上。同时全球CRM 龙头 Salesforce 宣布正式向所有用户开放 AI 产品,服务GPT 和销售GPT两个独立模块分别单用户每月付费为 50 美元。此外,Palantir、PALO ALTO NETWORKS的AI 产品已经在实际场景重得到应用且已经带来相应的收入贡献,四季度 AI 应用将正式进入商业化落地阶段。


二、生成式 AI 应用细分赛道梳理

1)AI+办公软件


办公软件通常包含了文字、表格、演示文稿(PPT)等工具,是本轮生成式AI 浪潮中产品逻辑变化最大的细分领域之一。目前主流的 AI+办公应用可以分为两大类别:一类是办公套件的AI 助手,主要有微软 Copilot 和谷歌 Duet AI,目前全面嵌入了Microsoft Office及Googleworkspace 办公套件,并已经初步实现商业化;另外一类是单点AI 工具,通常包括了文本类的Notion AI、Jasper AI、Copy AI、Anyword,表格类的 SheetAI、演示文稿类的TomeAI、SlidesAl等,此外还有许多功能更加细分的产品,比如笔记、思维导图、简历制作,协同办公等工具,目前常见的 AI+生产力工具已经达到了上百种,这也是 AI+应用中数量最多的一类。具体来看:


1)文本类:在各类单点工具中,目前文本写作类应用占据了半壁江山,这与语言大模型的成熟较高有直接关系,自 GPT-3 发布之后,大量的文本类 AI 工具开始涌现,这些应用普遍大多是基于 GPT 模型,自己再做一些定制性的优化,也有很多是基于gpt 等模型的api,通过预先设置 prompt,来满足一些文案生成的需求。目前头部的应用 Notion AI、Jasper AI、CopyAI、Anyword等,主打更加全面的文本生成和内容编辑功能,同时 Jasper AI、Copy AI 更侧重于营销工具,生成广告文案、产品描述、邮件、博客文章、推文,通过内置多达数十种营销模板和文案生成的功能;


2)电子表格类:这一领域目前尚未出现大量类似 Notion AI 这类文本工具,主要原因在于电子表格的核心在于计算,目前主要的创新点是将电子表格合并到文档环境中以及强化电子表格的代码和自动化计算能力。目前 Excel 的领先地位仍难以被撼动,其最大竞争对手是GoogleSheets,功能上基本保持一致,主要区别在于在线分发,可以简化协作;


3)演示文稿类:生成式 AI 能够帮助使用者快速构思创作框架并流畅展开内容创作,这一领域中 Powerpoint 和 Slides 是最常用的演示文稿工具,新兴工具包括Gamma AI、ChatBA、SlidesAI、Tome AI 等,其中 Gamma AI、Slides AI 强调模板功能,内置多种主题库并提供图文、视频等创作素材,而 Tome 为 AI 原生应用,能够根据自然语言提示生成整个幻灯片,对各个幻灯片进行修改或添加新幻灯片。




AI+办公应用的标杆:微软 365 Copilot 。365 Copilot 在今年3 月发布,集成了GPT-4,将大模型(LLM)与 Microsoft Graph 的业务数据、Micros Office 365 中各类应用相互结合。使用方式包括:1)嵌入调用,即在 Word、Excel、PowerPoint、Outlook、Teams 等应用中直接调用 Copilot 完成各种任务,包括在 Word 中的文本内容生成、文字内容优化包括检查错误、风格转换、润色扩写等;Excel 中根据用户的问题生成表格或数据模型,并创建可视化图表等,高级功能包括了数据透视表和生成及趋势解读、SWOT 分析等;PowerPoint 中可以将现有的书面文件转化为带有演讲者笔记和资料来源的演示文稿,或者从一个简单的提示或大纲开始一个新的演示,并使用自然语言命令来调整布局、重新编排演示文稿;2)独立使用,Copilot 还提供了一个全新的独立式交互方式——Business Chat。用户可以通过自然语言与Copilot 进行对话,像与真人助手一样完成各种任务。此外 Microsoft Graph 则是微软提供的一个平台,可以将用户在Office 365 中使用过的日历、邮件、聊天、文档、会议等数据进行整合和分析,并实时反馈到用户现在工作流程包括会议、邮件等,以提供准确、相关的上下文响应。


AI 生产力应用普遍依赖大模型的能力,功能同质化程度高,办公套件未来的优势仍将不断强化。一方面,AI 生产力应用,特别是文本写作类需要直面 OpenAI 的竞争,许多工具本质更多是对底层大模型的“套壳”后的简单应用,本身不具备太高的门槛。在GPT-4出台之后,对文本类应用造成了直接了冲击,包括这一领域的头部应用 Jasper AI,随着GPT-4的发布,Jasper网站的访问流量在短短 3 个月内下降了近 40%,并在今年在7 月开启裁员;另一方面,微软Copilot 和谷歌 Duet AI 等办公套件仍具备庞大的用户基础,且随着功能的不断丰富,将直接冲击到单点的 AI 办公应用,同时考虑办公套件工具存在较强的网络效应,未来这一赛道微软仍将占据明显的优势。


AI+办公软件具备明确的商业化前景,微软 Copilot 定价的公布预示着办公是AI 在B端商业化落地最快的领域之一。近期微软在全球合作伙伴大会上宣布,面向Office 365E3、E5、商业标准版和商业进阶版的订阅商户,Microsoft 365 Copilot 的定价为每个用户30美元/月,相较于不同版本每用户每月 12.50 美元到 57 美元定价,365 Copilot 涨幅达53%至240%,超出了此前市场的预期。在此之前微软针对数百家大客户进行了 365 AI 功能的内部测试,这表明核心企业用户在使用 365 Copilot 的过程实现了生产力的显著提高。横向对比其他AI 工具,NotionAI只提供笔记服务收费 19.8 美元一个月,而 Jasper AI 则是每用户49 美元每月,而微软Office365Copilot 包含了全部办公套件的 AI 功能,从定价来看相较于同类型产品并未明显偏高,明确了其他可对标办公类应用的商业化前景。


2)AI+创意工具


创意工具包括了图片、视频、音频、3D 模型等 AIGC 应用领,在艺术、设计、娱乐、媒体、电商等领域有非常广泛的应用。在多种模态的生成中,现阶段最具前景的是图片和3D模型的生成。创意工具的核心在于内容的生成,用户会自动选择最优质的内容,因此应用公司必须在底层模型和算法上具备很强的能力。当前多模态技术还处于早期,市场格局未完全确定,在英伟达、谷歌、Adobe 等巨头进入同时,包括 Midjourney 等公司同样拥有一席之地。


1)图片:目前 AIGC 中最热门的方向,2020 年后随着扩散模型、CLIP等技术的突破,在图像生成技术上取得了质变,因此文生图也成为了创意工具中数量最多的一个类别,最具代表性的文生图工具有 DALL-E2、Stable diffusion、Midjourney、Canva Text-to-Image。此外还有图像编辑工具,主要功能包括去水印、风格迁移、图像修复、换脸等的应用。


2)视频:视频生成目前在技术上成熟度不高,更多基于图像生成的算法,除了视频生成之外还包括了视频编辑如画质修复、视频特效、视频换脸、视频剪辑等应用,代表应用有DeepfakesApp、VideoGPT、GliaStudio、Make-A-Video、Imagen video 等。


3)音频:音频合成在技术和商业化已经非常成熟,近年来大模型和优化算法的成熟能够基于大量音乐数据集训练和优化算法来创建 AI 虚拟歌手,更加趋近于真人发声效果(如:AI 孙燕姿),这一领域的相关应用包括 WaveNet、Deep Voice、MusicAutoBot 等。


4)3D 模型:3D 模型生成还处于早期,其中这一领域关键算法神经辐射场(NeRF)于2020年于 ECCV 会议上提出,能够基于 2D 图像中生成 3D 图像或场景,目前已经成为3D模型构建的主流算法,并广泛应用于游戏、数字人、虚拟现实、增强现实、电子商务等领域,未来具备广阔应用空间,代表应用包括 Magic3D、Luma AI、DreamFusion。


5)多媒体工具:综合了到图片、视频、3D 模型等多模态生成的多媒体套件产品,代表为Adobe Firefly。


创意工具作为 AIGC 的关键应用领域,涉及到多种模态的生成和转换,其发展高度依赖于生成算法、大模型与多模态三大底层技术的进步:1)生成算法:生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion Model)、NeRF(2020)等算法的涌现,其中关键性的突破来自于近年来图片生成算法和 3D 模型生成算法的进步,2)大模型:大模型可以广泛适用于各类下游任务,当前已经成为 AIGC 的底层框架:3)多模态技术:多模态相关技术使得语言文字、图像、音视频等多种类型数据可以互相转化和生成,比较代表性的包括Openai 公司的CLIP 模型(2021)。


目前由于 AIGC 产业格局尚未完全确定,多模态技术仍处于早期,模型和算法的能力决定了应用的竞争力,而开源和闭源路线的选择导致了各自商业模式的差异。以主流三大文生图工具DALL-E2、Stable diffusion、Midjourney 为例,DALL-E2 与MidJourney 是闭源模型,Stablediffusion 是开源模型。DALL-E2、Midjourney 基于 OpenAI 官网及其他第三方网站可以实现在线访问,使用门槛低,用户输入提示词后即能实现文生图功能。虽然DALL-E2的发布早于MidJourney,并迅速达到了百万以上用户数,但是随着 MidJourney 算法的快速进步,MidJourney在视觉表现上超越了 DALL-E2,成为了目前最流行的文生图在线工具。而StableDiffusion走的是开源路线,可以在用户本地部署与运行。同时 Stable diffusion 的使用门槛较高,除了对算力较高的要求之外,用户需要训练自己想要的模型,涉及到很多参数调整和素材积累的工作,但优点是在模型训练完成之后,也能够更好的满足自身的个性化需求,目前开源和闭源工具在商业模式上也存在较大差异,MidJourney 能够通过向用户直接提供订阅服务(月订阅费在10-60美元之间)来收费,目前用户数达到 1600 万以上,实现收入超过1 亿美元,而Stablediffusion的基础模型免费,主要通过为企业提供定制模型来实现商业化。


除了单点工具之外,Adobe 今年推出了生成式 AI 创意工具Firefly,嵌入Adobe现有产品组合中,和主流文生图工具形成竞争。且考虑到 Adobe 在创意产业的独特竞争地位,未来Adobe 很可能成为 AIGC 的最大赢家之一。Adobe Firefly 是能够生成包括图像、音频、视频、3D 模型等多种模态,提供包括数码成像、平面设计、影片制作和3D 建模等多种功能,可以帮助设计师、艺术家和创意工作者快速生成创意,大大提高创意生产的效率。目前Adobe已经将生成式人工智能 Firefly 引入到了 Adobe 全产品线中,相较于Midjourney 等文生图工具,AdobeFirefly 的优势在于与 Adobe 现在有的产品比如 photoshop 能够实现很好的结合,为用户提供了大量的选项、素材、模板、工具包,进一步降低了用户画图、修图的门槛,而不像Midjourney更依赖用户输入的提示词。同时,Adobe 对于训练数据的管理非常严格,主要训练素材来自于与Adobe Stock,对于必须确保输出图像版权的用户,Adobe Firefly 具备很大优势,但由于训练素材来源有限,这也会导致在生成的性能上弱于拥有一些主流文生图工具。得益于AI 的驱动以及业绩的超预期,今年以来 Adobe 股价走势强劲,年初至今涨幅达到67%,公司管理层也在2023年第二季度财报电话会议中提出未来将启动 Adobe Firefly 的商业化,作为独立的增值解决方案想企业用户提供,相关收入将在未来几个财季得到体现。


3)AI+企业服务


目前生成式 AI 已经与企业服务领域的主要产品 CRM、ERP、财务、HR、OA实现了不同程度的结合,短期来看 CRM 等营销侧的产品成熟度最高,且已经初步实现商业化。同时目前ERP、财务、HR、OA 已经相对应的 AI+产品推出,主要侧重于利用AI 来实现业务洞察和流程优化,相关产品功能还尚待完善,且还未进入商业化阶段。从参与厂商来看,这一领域的主要参与者仍是各个赛道上的传统玩家,包括 CRM 领域的 Salesforce、ERP 领域的Sap、Oracle,HRM 领域的 Workday,新进入者较少,同时微软 3 月发布了CRM和ERP领域的生成式AI产品 Dynamics 365 Copilot,是 AI+企业服务领域的有力竞争者。


1)CRM:CRM 与生成式 AI 在自动邮件,个性化回复、商机洞察、数据可视化等领域有许多结合点。全球 CRM 龙头 Salesforce 推出了 CRM+AI 工具Einstein GPT,并已经成功实现商业化,生成式 AI 成为驱动 Salesforce 今年 股价上涨的关键因素之一。此外这一领域的其他厂商包括 Sprinklr(CCaaS)、COMPASS(地产 CRM)、HubSpot (CRM)也推出了相关AI产品。


2)ERP/财务:ERP 系统长期以来一直都是企业的中枢神经系统,集中数据以从财务、人力资源、采购、资源和供应链等核心职能中获得更好的业务洞察。ERP+AI 主要体现在在能够深入挖掘 ERP 中的庞大数据,包括生产、库存、财务和供应链等,来获得更好的业务洞察来优化企业流程。目前微软发布了 Dynamics 365 Copilot,将 AI 引入了ERP 产品组合中,而ERP巨头包括 Sap、Oracle 也推出了相关 AI 产品。


3)HRM/OA:与 ERP 类似,主要体现在进行数据挖掘,通过对职业轨迹、证书、学位和技能等信息的挖掘来实现更有效的人才招聘,创建招聘所需的技能模型、经验模型和候选人档案,并在招聘之外,优化薪酬管理、绩效管理等业务流程等,目前全球HRM龙头Workday已经将相关 AI 功能嵌入人力资源产品中。


销售 GPT 主要针对销售人员,功能包括电子邮件、通话摘要的自动生成,并能够为销售提供销售见解,跟进建议,后续步骤指导等。具体包括:1)电子邮件:每次客户互动自动生成个性化且包含数据的电子邮件,销售只需单击一下,即可从 Sales Cloud 内部、或通过Gmail 和Outlook 自动生成包含 CRM 上下文的个性化电子邮件,精简销售过程中耗时但关键的步骤;2)自动记录和总结通话:通过自动转录和总结通话以及后续行动来帮助提高销售人员的工作效率,从而将销售人员从手动记笔记中解放出来;3)销售助理:总结销售周期的每一步,从客户研究和会议准备到起草合同条款,同时自动保持 CRM 的最新状态,为销售提供销售见解,跟进建议,后续步骤指导等。4)客户研究:针对新客户或潜在客户,协助销售工作,完善公司简介,提供公司最近的新闻,根据客户动态拓展合作机会。


微软将基于 AI 驱动的功能引入了 ERP 产品组合中,覆盖财务、采购和供应链三大模块,充分利用 ERP 数据,来优化预算、运营和财务、采购等企业业务流程。主要功能包括:1)财务(Dynamics 365 Finance):AI 自动进行财务整合以实现无缝结算,并通过机器学习和人工智能支持的高级预测分析获得高度准确的预测。财务人员可以优化绩效、全面了解现金流动态,有效分配资源并为企业带来更好的财务成果; 2)运营(Dynamics 365 Project Operations):大幅减少花在项目状态报告、任务规划和风险评估上的时间,快速为新项目创建新项目计划,持续识别风险并提出缓解计划,识别可能导致项目脱轨的常见项目风险,例如严重延误或预算超支; 3)供应链(Dynamics 365 Supply Chain Management):主动标记可能影响关键供应链流程的外部问题,例如天气、财务和地理。然后预测会影响材料、库存、承运商、分销网络等方面的订单。 AI 能够高效地处理大规模采购订单的变更,并评估影响和风险,以帮助优化采购决策。同时收款人员可以快速访问信用和付款历史记录,以便他们可以优先考虑和个性化客户沟通,帮助提高成功收款率并主动保持客户的良好信誉;


4)AI+网络安全


生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升,类SecurityCopilot的AI+“安全大脑”将深度改变现有安全管理平台产品形态。3 月微软发布了首个基于大模型的AI+安全大脑形态 security copilot,此后 Palo Alto Networks,Crowdstrike,Fortinet 等头部安全厂商均发布了 AI+“安全大脑”产品,其中 Palo Alto Networks 发布了XSIAM、Crowdstrike发布了 Charlotte AI。AI+“安全大脑”所带来的的安全运营能力提升主要体现在两个方面,一是提升威胁检测,即发现问题的能力,二是提升相应处置,即解决问题的效率。可预见随着技术的不断成熟,用户对于安全运营自动化的需求也在不断提升,因此相关厂商在整个安全产业中的地位将逐步提升。在 AI 驱动下,今年头部安全厂商 Palo Alto Networks,Crowdstrike,Fortinet 的股价均有强劲表现,年初至今涨幅分别达到 74%,53%,25%。


大模型/生成式 AI 对于网络安全行业的影响与其他行业有所不同,AI 不仅仅是对于安全产品形态本身带来改变(防守侧),而且能够通过大幅降低了安全攻击的门槛,赋能攻击方(攻击侧),加剧安全威胁,进而带来用户安全预算/行业总需求的提升。大模型、GPT、生成式AI技术将大幅降低黑客攻击的门槛,包括批量钓鱼邮件生成、批量漏洞挖掘、批量恶意代码生成等,将显著加剧整体威胁态势,特别是自从 ChatGPT 推出以来,通过电子邮件网络钓鱼的数量有显著增加。同时,监管侧对于文字、图像内容的监管和审查将成为重中之重,内容安全、数据安全、流量可视等监管侧需求也随之提升。


生成式 AI+安全的最大机会来自于安全运营的自动化程度的提升。一方面生成式人工智能被用来以比以往更快的速度创建和变异恶意软件,大大增加了企业安全管理人员响应和处置安全问题的难度,另一方面,在一个网络安全系统的各个组成中,防火墙、端点安全等单点的安全产品已经具备了较高的自动化水平,而安全运营本就是最复杂、自动化程度最低的一环。企业安全管理人员每天都会接收到大量的告警,而依然人工处置的必然导致的结果就是:警报疲劳、调查缓慢以及攻击在网络中隐藏且难以发现。而生成式 AI+与安全的最大机会来自于提升安全运营的自动化程度,具体体现在:1)提升安全人员水平:对于经验不足的IT 和安全专业人员,AI可以帮助他们更快地做出更好的决策,使执行更高级的安全操作变得更加容易,能够迅速达到高级安全人员处置安全事件的能力;2)提升安全处置的效率:安全人员水平可自动执行数据收集、提取以及威胁搜索和检测等重复且繁琐的任务,缩短对关键事件的响应时间,同时通过简单的自然语言提示实现任何检测、调查或响应工作流程。




全球网络安全龙头厂商 Palo Alto Networks 近期也推出了首款完全基于AI 构建的产品XSIAM(扩展安全智能和自动化管理)。XSIAM 是⼀个云交付的集成SOC平台,统⼀了EDR、XDR、SOAR、 ASM、UEBA、TIP 和 SIEM 等关键功能,将多个产品整合到⼀个集成平台中。XSIAM 是在功能上 Security Copilot 主要侧重于响应处置,XSIAM 在威胁检测上更进一步,功能更加全面,同时也能够与 Palo Alto Networks 现有的产品组合实现更好的绑定。公司管理层表示,自全面推出了 XSIAM 以来,Palo Alto Networks 制定了第一年收入达1 亿美元的目标,公司在近连续两个季度内均获得了千万美元大单,其中一家大型零售商签署了由XSIAM牵头的4000 万美元订单,取代了现有的 SIEM 产品,增加了威胁情报和攻击面管理功能,此外另一家大型技术服务商签署了含 XSIAM 功能的 3000 万美元订单。一年时间还未结束,XSIAM收入已达 2 亿美元,远远超出了此前设立的目标,XSIAM 正在成为Palo Alto Networks 在下一代防火墙之外增长最快的产品。


5)AI+IT 运维


生成式 AI+IT 运维主要结合点在于智能运维(AIops),提升IT 运维的自动化和智能化水平。2016 年 Gartner 首次提出了 AIOps,通过 AI 赋能 IT 运维,能够基于已有的运维数据(日志、监控信息、应用信息等),协助运维工程师更快速精准地发现故障、定位故障,并排除故障,进而提高运维效率,降低运维成本。而大模型/生成式 AI 能够进一步提升IT 运维的自动化和智能化水平,体现在其具备更强大的数据分析能力,以及更高效的人机交互模式,目前这一领域的龙头厂 Servicenow 已经推出生成式 AI+IT 运维的相关产品,并发布了未来生成式AI 的产品路线路。目前来看生成式 AI+IT 运维的产品成熟度还不够高,未来还具备很大的提升空间。此外,随着OpenAI 的生成式 AI 模型的应用范围不断扩大,用户对于了解内部大模型的使用情况以增强大模型的性能,同时监控 API 的使用情况及 Token 的消耗以控制相关成本的需求也在快速提升。目前 Datadog 已经推出了监控各种 OpenAI 模型 API 使用模式、成本和性能的应用功能,这一领域的头部厂商还包括了 AppDynamics、Datadog、Splunk、Dynatrace。

【华金证券】计算机行业全球生成式AI应用全景图:AI应用进入大爆发时代.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00