【国海证券】AIGC专题报告:站在当前时点,怎么看AIGC板块投资逻辑.pdf

2023-12-20
32页
9MB

每一轮人机交互的变革都会带来产业级投资机会


大模型可能打破流量竞争格局:流量可能重新集中,大模型有望成为新的流量入口


ChatGPT引入插件功能,可实时联网,AI模型实用性进一步加强:北京时间2023年3月 24日,OpenAI官方宣布推出ChatGPT Plugins功能,赋予ChatGPT使用工具、联网、 运行计算的能力,且还开放了OpenAI官方两个插件:网络浏览器和代码解释器。


OpenAI首批已发布11款ChatGPT第三方插件,几乎涵盖各大应用场景,加速拥有自己 的“APP Store”:首批开放支持的插件包括旅游出行插件Expedia、法律知识插件 FiscalNote、生鲜电商插件Instacart、航班酒店租车预订插件KAYAK、在线购物比价 插件Klarna Shopping、AI语音插件Speak、数学知识引擎Wolfram Alpha、在线餐厅 预订服务平台OpenTable,以及自动化平台Zapier等,几乎涵盖衣食住行、工作与学习, ChatGPT生态逐渐丰富。


ChatGPT可通过插件反向丰富自身知识库,突破ChatGPT模型训练数据库日期截止至 2021年9月的信息限制。


ChatGPT开始开放插件功能:截至2023年5月,OpenAI宣布ChatGPT Plus用户不再 需要排队,直接开放使用联网和插件功能,目前总计有70多个第三插件。大部分插件集 中于办公学习、餐饮、住房、购物、旅行和金融商业场景,其余分布在就业服务、社交、 社区服务、网站服务、医疗保健、娱乐、媒体、游戏和运动等场景。第三方插件的涌现进 一步彰显了大模型入口的中心化能力,未来有可能改变移动互联网稳定的流量竞争格局, 并且改变分佣模式。


以GPT-4为例拆分收入与成本


参数量N:GPT-4的参数量为1.8万亿,但GPT-4采用的结构是MoE(Mixture of Experts,混合专家),这意味着GPT-4并不是一个稠密模型,N并不能直接取值为1800B。MoE架构通常由多个专家组成,每个专家负责处理输入数据的不同方面,并拥有自己的参数集(也有一些参数,例如embedding,可以被所有专家共享,即共享参数)。在模型的推理过程中,根据输入数据的不同特征,模型会将输入路由到不同的专家,每个专家根据其参数集处理对应分配到的输入后完成输出,最终输出则是各个专家输出的集成。每个专家的参数大约为1110亿个,每次前向传递中会调用其中两个专家模型。此外,大约有550亿个共享参数被用于注意力机制。综上所述,每次前向推理(生成一个token),仅用了约2770亿个参数(1110×2+550),对应到0.554TFLOPs。


为什么是MoE: GPT-3、PaLM以及Llama等均为稠密模型,但现阶 段的硬件在稠密模型方面已经到达极限,所以不断扩大 模型规模是不切实际的,这主要体现在推理阶段。目前 LLM推理的用例大多是实时助手,这意味着模型必须达 到足够高的吞吐量才能真正对用户有用。以英文为例, 人类的平均阅读速度约为250词/分钟,有些人甚至可以 达到1000词/分钟,对于英文文本,750个单词大约含有 1000个tokens,这意味着模型每秒钟至少需要输出 5.56个tokens(250/750×1000/60),甚至是22.22 个tokens(1000/750×1000/60),才能满足所有用 户的需求。但是,由于内存带宽的限制,即使是在 NVIDA H100 GPU服务器上,对于拥有万亿参数的稠 密模型也无法达到这个吞吐量。MoE这种稀疏架构下的 推理并不需要激活所有参数,因此GPT-4得以用A100 就实现了符合人类阅读速度的推理。


利用率:运行模型的硬件必须实现高利用率,否则成本将过高。考虑一个Batch Size=1的推理,H100 SXM的算力为2000TFLOPs(FP8),但内存带宽仅为3TB/s,假设GPT-4参数的数据类型为FP32,即一个参数需要4bytes存储空间,仅仅是流式传输每个参数就需要约2.98s(3/(277B×4/1024^4)),计算时间与之相比可以忽略不计。这意味着在Batch Size=1的推理中,内存带宽和计算量完全不平衡,绝大多数时间里,计算单元都在等待数据的传输,这造成了硬件利用率的低下。提高BatchSize能够带来利用率的提高,因为多个Batch Size可以分摊参数读取成本,但缺点是更高的延迟和较低的吞吐量。


KV缓存与上下文长度如何制约Batch Size的扩张: 随着Batch Size和上下文长度的增加,KV缓存对内存的需求会激增。采样过程中,Transformer模型会执行自注意力操作(Self-Attention),为此需要为当前序列中的每个项目提取键值(Key-Value,KV)向量,这些向量存储在一个矩阵中,通常被称为KV缓存。KV缓存的作用是为了避免每次采样token时重新计算键值向量。利用预先计算好的K值和V值,可以节省大量计算时间,尽管这会占用一定的存储空间。KV缓存不能在各Batch Size间共享,所以每个Batch Size都有自己对应的KV缓存。对于BatchSize为512,上下文长度为2048的模型,KV缓存的总量为3TB。片上存储器(on-chip memory)需要从片外存储器(off-chip memory)中加载KV缓存,每产生一个token就加载一次,在此期间,计算单元基本上是空闲的,即H100 SXM每产生一个token,就需要花费1s加载KV缓存,硬件利用率低下。因此,如果BatchSize过大,硬件利用率也会因为KV缓存的激增而下降。上下文长度增加也会带来KV缓存的膨胀,这意味着较长的上下文通常需要选择更小的Batch Size,并接受相对高昂的成本,这也是GPT-4 32K上下文比8K上下文收费更高的原因。


为什么GPT-4输出token比输入token更贵: LLM推理一般分为两个阶段:(1)预填充(prefill)阶段,在这个阶段中,首先需要给定一个prompt作为输入,并通过模型运行来生成KV缓存和第一个输出logits。其中,logits是LLM在每个时间步长输出的概率分布向量,用于表示每个token的可能性。预填充阶段因为并行计算通常是很快的;(2)解码(decoding)阶段,在这个阶段中,从输出的logits中选择一个token并反馈到模型中,为下一个token产生logits。如此反复直至产生所需数量的tokens。由于每次解码都必须按顺序进行计算以产生一个token,所以在以较小的Batch Size运行时,序列计算导致算力无法被充分利用,所以解码阶段的硬件利用率很低,也通常是自回归生成中最昂贵的部分。因此,$0.0035/1000tokens实际上是一个平均成本。


微软率先推出Microsoft 365 Copilot,抢跑AI+办公赛道


微软率先将办公软件接入GPT,推出Microsoft 365 Copilot,开创AI办公新时代,Office的护城河进一步得到加深。2023年3月16日,微软宣布将GPT-4接入到Office工具,推出了AI版Office全家桶——Microsoft 365 Copilot。在办公软件竞争加剧,Office市场份额被逐渐蚕食的现状下,Microsoft 365 Copilot的推出让微软再度领跑市场。尽管目前专注于单一功能,如实时转录或文案生成的AI应用层出不穷,但Microsoft 365 Copilot功能丰富,能够完成多种工作任务,获得大模型加持的Office进一步加深了其在办公软件领域的护城河。


随着AI版Office全家桶在B端的商业化落地,Office ARPU有望被逐步抬高,打开产品长期收入增长空间。2023年5月,微软宣布将Microsoft 365Copilot付费抢先体验计划扩展到全球600家企业客户,包括毕马威(KPMG)、阿联酋航空(Emirates NBD)等公司。2023年7月18日,微软在Microsoft Inspire大会上宣布Microsoft365 Copilot将开启全面商用,每个用户$30/月,适用于Microsoft 365 E3、E5、商业标准和高级版。


Copilot能为Office带来多少增量收入


p 收入=订阅用户数×付费率×ARPU


ToB(对应Office 365商业版):(1)订阅用户数,即商业席位数,根据估算,FY2023Q4约为3.94亿个,最近5年增速趋势性下降,目前趋于平缓。设定5种情景,对应的订阅用户数分别为3.2、3.5、3.8、4.1、4.4亿个;(2)付费率,同样设定5种情景,付费率分别为5%、10%、15%、20%、25%;(3)ARPU,目前Copilot定价为$30/用户/月,超出市场预期,短期提价可能性较低,假设在所有情景下ARPU均为该水平 。 ToC(对应Office 365消费者版):(1)订阅用户数,FY2023Q4达6700万,最近5年CAGR为18%。设定5种情景,对应的订阅用户数分别为0.60、0.65、0.70、0.75、0.80亿;(2)付费率,Copilot尚未在C端落地,当前付费率为零。同样设定5种情景,付费率分别为2%、4%、6%、8%、10%;(3)ARPU,考虑到C端用户对价格更为敏感,高价必然会压低付费意愿,参照Copilot在B端$30/用户/月的定价,假设C端定价为$20/用户/月。 测算结果:ToB市场的年收入在57.6~396.0亿美元之间,ToC市场的年收入在2.9~19.2亿美元之间。


报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

AIGC行业专题报告:站在当前时点,怎么看AIGC板块投资逻辑.pdf

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

【国海证券】AIGC专题报告:站在当前时点,怎么看AIGC板块投资逻辑.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00