【申万宏源】2024年AI算力行业投资策略:全产业创新不断,国产化向阳而生.pdf

2023-11-14
53页
3MB

1. AI算力:科技基石,星辰大海


1.1 大模型时代,训练需求飙升


基于Transformer架构的大模型时代,训练算力需求陡峭攀升 • 训练算力=参数*token数*6次32位浮点数精度,GPT-3.5训练一次算力3637PFlops/s-day • 根据英伟达,Transformer大模型训练算力需求将以275倍/2年的速度增长  GPU计算性能10年内将再翻1000倍 • 摩尔定律即将结束,CPU计算性能进入滞缓期,GPU内含更多计算单元,计算性能未来10年 可翻1000倍。


1.2 AI算力:大模型“卖铲人”,技术创新的基石


无论谁做大模型、采用何种模型技术路线,算力都是必须的,需求确定性强、持续性 高(前期训练+应用铺开后推理),业绩率先体现,并且有明确的量价关系。


1.3 AI算力产业链多环节均有重大创新


AI大模型引发算力变革,英伟达产业链上下游多环节迎机遇 • 内存与封装:HBM存储容纳超大参数模型,Chiplet封装产业受益 • 光模块:Infiband高速网络推动高速率光模块(400G/800G)量价齐升 • 算力出租:英伟达 DGX 算力云推动 AIGC 快速发展,算力出租将成为面向中小厂商新趋势 • 液冷:服务器集群网络功耗提升,液冷散热需求明确。


1.4 AIGC应用密集发布期,推理需求指数增长


截至23.11.10,中国累计发布大模型130个,通过备案大模型数超过20个,对应推理 卡需求量为11、117、450万张(以T4为例) • 假设1个大模型支撑2个应用,模型平均参数量175B。


1.5 半导体:制程进步对算力的带动大


半导体制程持续进步,设计密度有提升空间 • 参考制程/半导体时序/密度的关系 • 逻辑可更复杂。关键路径Critical Path能容纳的 逻辑单元更复杂 • 频率提升。可以实现更复杂的功能和算法,工作 频率也可能提高  根据通信协议,做可借鉴案例 • 星闪是一个案例。制程进步,有重新设计逻辑单 元的自由度 • 可重新设计协议,不用兼容10-20年前协议。


1.6 半导体:英伟达GPU为例,制程进步带动大


两轮2010年以来英伟达GPU主要架构可以推测行业趋势:注重互联,对AI支持与时俱 进(从Cuda Core到Tensor Core,增加对INT/BF16等AI新趋势的支持,结构稀疏矩 阵支持),注重带宽和扩展性而非核心数量等。


2. AI芯片:国产替代,追风逐日


2.1 AI芯片国产替代单芯片性能进步明显


两轮禁令后,AI芯片供给安全需求更加迫切 • 2022年9月后,A100/H100进口受限;2023年10月后,A800/H800进口受限  对标A100/H100的国产产品仍未大规模放量 • 仅华为昇腾910规模出货,其余国产AI芯片截止目前均未规模放量  国产推理芯片品类丰富,可满足下游需求 • 华为昇腾310,寒武纪100、270、370,燧原,沐曦,壁仞等均有产品可用。


2.2 华为昇腾910也针对大模型训练进行优化设计


昇腾910也支持英伟达Ampere架构中引入的稀疏性技术,实现2倍算力提升  英伟达H100 Tensor Core中引入了Transformer引擎、张量存储加速器,减少计算 单元数据复制时的无用功 • Transformer引擎使用混合精度计算,大模型上提供9倍的AI训练速度和30倍的AI推理速度 • 张量存储加速器提高张量核心与全局存储和共享存储的数据交换效率。


2.3 华为AI芯片通信瓶颈通过芯片、设备、组网优化


大模型训练性能瓶颈之一在通信,吞吐带宽与连接架构是算力性能的决定因素之一 • 类似 GPT3 的千亿参数模型,通信的端到端耗时占比达到 20%, • 针对某个万亿参数 MoE 模型建模发现,通信的端到端耗时占比急剧上升到约 50%  英伟达:芯片层面采用高速C2C连接方案NVlink,集群层面,引入 InfiniBand网络 , 并 将 C2C场景下应用的NVLink延伸至设备间互联,提出fat-tree胖树架构  华为:目前动作主要在集群层面,与英伟达思想类似,最新华为星河交换机采用 800GE端口,同时降低组网层数,最新Atlas 900 SuperCluster仅2层交换网络便能 实现无收敛集群组网。


2.4 华为发布CANN,支持自动化模型迁移


昇腾打造全栈工具链CANN • 提供工具实现模型自动迁移,方式较简单,只需在训练脚本中导入库代码, • 训练好的、精度性能达标的模型保存为pth或pth.tar模型文件用于在线推理,或导出为 ONNX模型再通过ATC工具转换为om模型。


3. 算力通信:价值放大,两极发力


3.1 需求确定性:根源是通信的AI边际价值被放大


AI背景下通信环节的价值,从内容驱动的流量逻辑,延伸至模型驱动的算力逻辑。 • 历史上的几轮通信周期,下游驱动主要是互联网和云。 • 每一轮成长都叠加了内容或应用的创新,通信的流量管道属性充分体现。 • 当前通信环节的最大边际价值在于,网络与算力强耦合,网络需求与算力需求共进退。网络延续了集群算力的摩尔定律。  与需求相匹配的是,网络技术的演进 (供给)在加速。硬件先行,底层的硬 件基础设施是各类应用爆发的基础支撑。


技术上的变化体现在: • 异构计算的云网融合; • 交换机I/O带宽快速提升,当前800G (大约每两年翻倍); • 通 用 服 务 器 到 AI 服 务 器 的 内 部 NVLink等协议变化; • 800G、1.6T光网络加速迭代以及硅 光、CPO等; • 传统IDC到AIDC等……


市场普遍关心,训练与推理的网络需求是否差异巨大。  AI大模型训练相比通用计算需要更多运算单元的同时参与,算力难点之一是解决并行(Parallelism) 问题,因此AI训练网络强调点对点充分互联,带宽固定(等宽网络)、但距离多变。高速网络设备/器 件的需求量更大。  实际上,大模型推理同样需要高性能算力网络。 • 1)预训练 – 微调 – 推理密不可分; • 2)单位性能的成本差异巨大; • 3)容纳千亿以上参数。


此外,AI应用落地的重要场景之一是终端,边缘算力与AIPC的前提是网络下沉。  智能化+定制化,终端景气度边际变化,算力模组成为边缘算力新载体。例如: • 美格智能:基于高通QCS8550平台的最新一代高算力AI模组,支持INT8和INT4混合精度运算;旗舰系列 SNM970综合AI算力高达48Tops,成功运行Stable Diffusion大模型。 • 广和通:算力模组布局车载/泛IoT边缘算力盒子等。 • 移远通信:5G模组与英伟达Jetson AGX ORIN平台已联调实现5G通信+边缘计算能力。


3.2 网络架构:两极格局,均有机会


我们认为,以上两者互补格局类似公有云/私有云、通用/定制软件、黑盒/白盒之争,预计均有增量机会。 本土RoCE等网络及400G以上光通信演进,是进一步重要趋势!  1)InfiniBand网络:专用硬件体系。是目前Nvidia AI生态的核心架构(叠加NVLink)。以Nvidia H100为例,其网络架构的基础是InfiniBand NDR 400Gb网络。Nvidia链的合作伙伴预计显著受益。


2)以太网阵营:则体现成本、性能、兼容性的考量。  如LLaMA 2已明确使用基于以太网的RoCE网络,国内诸多大厂类似;原因是高性价比的RoCE本身也 是RMDA网络,AI生态的解耦后利于降本放量。主流网络厂商(交换机等)核心受益。 • 例如,紫光股份“支持400G RoCE和400G IB两种组网,其中400G RoCE方案……测试性能可与IB媲美。” • 以及华为:昇腾AI计算集群Atlas 900 SuperCluster,采用星河AI交换机CloudEngine XH16800,高密 800G端口或576*400G,两层交换网络实现2250节点(18000张卡)超大规模无收敛集群组网。随着国内科技大厂的网络演进至400G以上、运营商400G全光网推进建设、本土模型训练组网等加速, 国内市场的高速网络需求将显著提升。


3.3 通信芯片与器件:仍被低估的国产之光


1)光通信产业链为代表: • 过去一轮投资胜率来自于产业格局确定性。过去5-10年国内以中际旭创、新易盛等为代表的行业一线供应 商,具备对海外大厂而言可靠出色的技术服务能力、稳定的供应能力。 • 投资赔率则来自于,科技投资的景气周期弹性、速率/技术迭代及AI的估值溢价、层出不穷的灰马/黑马。


当前产业链国产替代进程已从光模块逐步开始向上延伸进入到光芯片、光器件等价值量更高环节。 • 实现光芯片和光器件国产化是提升产业链话语权和盈利能力的关键。 • 随CPO/硅光/高速光网络等技术路径演进,同时考虑海外需求的溢出效应,预计国产光产业链国产替代仍 有份额超预期可能。 • 以天孚通信、源杰科技、光库科技、中瓷电子等为代表的国内厂商在芯片和器件领域均有突破。


2)网络芯片为代表: • 中兴通讯已具备交换网芯片、查找芯片 和NP芯片等数据通信设备需要的全系列 芯片的研发能力。 • 盛科通信TsingMa.MX系列芯片交换容 量达到2.4Tbps,支持400G端口速率; 在研Arctic系列面向超大规模数据中心, 支持最大端口速率达800G。


3.4 中美对比:运营商算网融合,“中国式”算力大市场


新的产业链关系与半导体产业特征下,中国与海外算力网络产业范式亦有不同。  中国ICT产业的典型优势之一,在于无线和有线网络基础和生态完善,且明确以电信运营商为引领。  更宏观的网络角度,全国范围的算力大市场(东数西算),粘合剂是通信网络。电信运营商的算网融合 战略明确,体现资源复用率、梯次布局、算力整体优势。


4. 算力电子:量价齐升,群星璀璨


4.1 HBM突破算力内存墙


HBM带宽和容量远超其他常见内存形态(DDR DRAM、LPDDR、GDDR 等)。 • 频率和位宽决定显存性能。显存带宽=显存等效频率×显存位宽bit/8。 • HBM显存可以提供1024bit起跳的显存位宽,4颗粒堆叠式显存可达128GB/s带宽,每瓦带宽 比GDDR5高出3倍多,大幅提高数据处理速度。HBM2比GDDR5节省了94%的表面积,减少 20%+的功耗。  2022年发布的HBM3技术指标较HBM2和HBM2E标准有巨大的提升。 • HBM3芯片单个引脚速率达到6.4Gbit/s,总带宽超过1TB/s。支持16-Hi堆栈,堆栈容量达到 64GB。HBM3带宽较DDR5高出10倍以上。  NVDIA H100、AMD MI300已搭载HBM3,SK海力士是目前唯一量产新世代 HBM3产品的供应商。


4.2 HBM成为AI服务器标配


应对算力的内存墙,HBM作为高端显存芯片用于AI加速器及高效能服务器上。 • HBM由AMD和SK Hynix发起,基于3D堆栈工艺的高性能DRAM,适用于高存储器带宽需求 的应用场合。HBM使用TSV技术将数个DRAM Die堆叠,大幅提高了容量和数据传输速率。  根据TrendForce咨询,2023-2025年HBM市场CAGR预计保持40-45%以上,至 2025年市场规模有望快速增至25亿美元。 • 2021年以来HBM在数据中心应用快速增长。以位元计算,目前HBM占整个DRAM市场比重 约1.5%。


4.3 英伟达DGX GH200超算系统超配存储


DGX GH200超算系统集成256个GH200芯片,内存容量首次突破100TB,AI性能达 到了1 exaFLOPS。 • Grace Hopper超级芯片将72核的Grace CPU、Hopper GPU、96GB的HBM3和512GB的 LPDDR5X集成在同一个封装中,共有2000亿个晶体管。 • 通过NVLink,超算GPU共享内存从DGX H100的640GB跃升至DGX GH200的144TB,支 持更大模型的训练。 • GPU与CPU共封使内存带宽提升了7X,CPU和GPU之间数据带宽高达1TB/s。


4.4 AI大模型推动服务器存储需求提升


AI模型需要大量Server DRAM、SSD与HBM,服务器市场占DRAM/NAND市场应 用比例分别为31%、26%(TrendForce)。AI为2024年存储芯片涨价核心动力。 • AI服务器DRAM和SSD容量相比普通服务器提升3倍以上。据TrendForce,服务器DRAM配 置约500~600GB,AI服务器平均容量可达1.2~1.7TB,增至3倍;美光认为AI服务器DRAM 容量是普通服务器的6-8倍,NAND是普通服务器的3倍。 • HBM 2024年供给持续紧俏。以NVIDIA A100配置4~8张80GB计算,单台服务器HBM约 320~640GB。HBM主要由三星、SK 海力士和美光三家存储器厂商供应。2023年初以来, HBM需求强劲,供不应求,SK海力士已出售2024年HBM3和HBM3E的所有产量。


4.5 电源为算力能耗之基石,AI服务器单机价值量可达2.8万


通用型服务器使用2颗低功率电源,AI服务器则至少4颗-8颗3000W高功率电源,单 台AI服务器电源价值量可高达2.8万元。 • 2025年全球/中国服务器电源市场有望达316/91亿元。根据华经产业研究院数据,2021年 全球服务器电源市场规模为203亿元,预计2025年达316亿元;2021年中国服务器电源市场 规模为59亿元,2025 年有望达91亿元。 • 服务器电源领域,市场份额主要由台达、光宝、艾默生、中国长城等企业长期占据;立讯精 密、泰嘉股份、奥海科技、欧陆通等迎国产化机遇。


4.6 AI服务器带动PCB量价齐升


AI服务器PCB增量:GPU模块加入使得AI服务器新增GPU模组板并需要更大面积主板。 • PCIe AI服务器PCB复杂度提升。PCIe AI服务器的GPU板组主要包括PCIe主板、PCIe 加速卡、 硬板背板、UBB GPU主板四部分。 • NVLINK AI服务器PCB复杂度更胜一筹。NVLINK AI服务器的GPU板组主要包括CPU主板、 OAM加速卡、硬板背板、UBB GPU主板四部分,相比PCIe AI服务器主要的增量在于加速卡 的价值量更高。  重要供应商:Nvidia生态沪电股份、TTM、欣兴、健鼎、胜宏科技等;Dojo超算 PCB供应商胜宏科技、世运电路。


4.7 昇腾AI数据中心液冷势在必行


华为昇腾计算产业搭建全栈AI计算基础设施,数据中心液冷势在必行 • 2023年7月27日,华鲲振宇发布全新一代算力基础设施与解决方案 • 华为集群计算业务副总裁王振华认为液冷是必然趋势,认为“液冷能够使能重算力、高算力 芯片的应用,同时还可以大幅度提高服务器芯片的可靠性,还能有效降低PUE”。


4.8 生成式AI重新定义C端


联想AI版图——“三个大模型”框架。除了公共大模型、私域大模型外,手机或PC等 本地设备借助个人大模型实现新维度创新。  端侧模型:识别并评估网络中所有的关联子结构的重要性,随后进行裁剪量化。联想 董事长兼CEO杨元庆:要让每个人都拥有自己的大模型。  硬件实现平台: • Intel+联想:据英特尔中国终端系统事业群(CCG)郑炯,30%的创新想法在Meteor Lake 上加速推进+70%的创新想法将运用在未来的PC平台。AI PC将在2024年9月份左右上市。 • 高通+联想:合作推出人工智能增强型联想ThinkPad X13s。


AI PC是未来几年PC市场的一个关键转折点,预计将达上亿台出货量。 • 2023年9月,基辛格首次提出“AI PC”概念,“我们预计到2024年将向市场出货数千万台 支持人工智能的新型PC,随后将扩大到数亿台。”  酷睿Ultra处理器 Meteor Lake 被英特尔视为40年来最重大的处理器架构变革。 • 首次集成NPU在SoC 模块,用于AI本地推理加速; • 基于Intel 4制程节点+3D高性能混合架构,能耗比显著进步。 • Foveros 3D封装技术+分离式模块架构。


4.9 高通—新发2款芯片平台支持端侧生成式AI


2023骁龙峰会发布了骁龙X Elite和第三代骁龙8,分别面向Win 11 PC和智能手机。 • 骁龙8 Gen3:高通首个专为生成式AI打造的移动平台。端侧可运行高达100亿参数的大模型; 运行70亿参数大模型时,每秒可以生成20个tokens(代币),速度高于人的阅读速度。 • 骁龙X Elite:单线程性能超过苹果M2和英特尔i9,性能可达x86同级竞品2倍;相同峰值性 能时,功耗仅为竞品的1/3;AI处理速度为竞品的4.5倍,异构AI引擎性能75 TOPS,支持设 备端运行参数量超过130亿大模型。


4.10“安迪-比尔”定律有望在生成式AI中继续演绎


生成式AI在终端的渗透,演绎了新一版本的“安迪-比尔”定律。 • 在ICT中,“AI应用-终端-芯片-通讯”之间存在轮动迭代关系。端测AI在PC、手机先行,可 穿戴、智能家居的端侧AI也紧随其后。  鲶鱼效应会促进这个过程。一旦1-2家巨头开始加速,或带来消费电子更新潮。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

2024年AI算力行业投资策略:全产业创新不断,国产化向阳而生.pdf

全球产业创新生态发展报告(2023年):数字创新高地全球图景与中国位势.pdf

深圳珠宝产业创新的思考.docx

酒产业的营销模式创新.docx

江苏戚墅堰轨道交通产业园介绍和轨道交通产业创新基金的设想报告.docx

中国重庆文化创意产业创新基地项目建议书.docx

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

【申万宏源】2024年AI算力行业投资策略:全产业创新不断,国产化向阳而生.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00