智算中心:从集群走向超级池化
智能算力需求:训练数据量+参数量大幅提升,模型能力“涌现”
训练数据量+参数量大幅提升,模型能力“涌现”。根据2022年谷歌、斯坦福大学和Deepmind联合发表的《Emergent AbilitiesofLarge Language Models》,很多新能力在中小模型上线性放大都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。同时,模型的参数量和数据量在一定程度下是正相关的,因为:a)在小规模数据上训练模型时,若模型参数量过大,可能出现过拟合情况;b)在大规模数据上训练模型时,若不增加模型参数量,可能造成新的知识无法存放的情况。
智能算力需求:大模型训练+推理拉动智能算力需求快速增长
大模型训练+推理拉动智能算力需求快速增长。a)模型迭代和数量增长拉动AI算力需求增长:从单个模型来看,模型能力持续提升依赖于更大的训练数据量和模型参数量,对应更高的算力需求;从模型的数量来看,模型种类多样化(文生图、文生视频)和各厂商自主模型的研发,均推动算力需求的增长。b)未来AI应用爆发,推理侧算力需求快速增长:各厂商基于AI大模型开发各类AI应用,随着AI应用用户数量爆发,对应推理侧算力需求快速增长。
智算中心:以GPU、AI加速卡为核心的新型数据中心
智算中心是以GPU、AI加速卡等智能算力为核心,集约化建设的新型数据中心。智算中心为AI大模型训练、推理提供算力支撑,同时为AI应用提供算力服务、数据服务和算法服务;以中国移动推出了NICC新型智算中心为例,可分为“三层两域”:基础设施层:提供计算、存储、网络等硬件资源。 智算平台层:作为资源管理核心,提供裸金属、虚机和容器等多样化实例以及细粒度的资源池化能力;搭建算力原生平台提供应用跨架构迁移能力。应用使能层:集成行业主流AI开发框架。 智算运维域:负责对底层IaaS进行管理维护,确保系统稳定运营。 智算运营域:对接外部客户,提供计量计费、访问、交易等界面,对内根据上层任务进行资源编排调度。
智算中心:从集群走向超级池化
智算中心逐步从“集群时期”走向“超级池化时期”。随着AI大模型参数量增长,新型智算中心的建设既要考虑计算、存储、网络三大维度横向协同,也应兼顾软件平台与硬件资源的纵向协同,聚焦于“新互联”、“新算效”、“新存储”、“新平台”、“新节能”。智算中心发展推动力:模型参数量快速增长,对算力、显存和互联提出新的需求。 集群时期(2022-2024年):数据及模型出现巨量化趋势,千亿级模型出现,对算力底座和拓展性提出更高要求。 设备形态:GPU、AI芯片以扣卡模组为主,服务器形态多为8卡,DPU按需引入解决裸金属管理、存储加速等业务痛点;硬件资源开始按集群的方式部署。互联方案:以服务器节点为界限,节点内采用高速计算总线,节点间采用100G/200G高速无损网络。 存储方面:原先独立部署的文件、对象存储逐渐向融合存储演进,提升数据交互效率; 平台方面:具备池化算力分配能力,实现底层智算资源的细粒度分配、动态调度和一体化管理;同时,引入分布式并行训练框架提升模型训练效率; 散热方面:为配合高算力需求,散热系统逐步从风冷向冷板式液冷过渡。
网络互联:节点内外多方案并存
网络互联:大模型训练,网络成为AI算力瓶颈
分布式并行运算是发展趋势。AI大模型需要部署在高速互联的多个AI芯片上,主要由于:1)单芯片算力提升的速度明显低于模型参数的增长速率;2)巨量的模型参数和训练数据,已经远超单个AI芯片、单台服务器的计算能力。
传统的中小AI模型:训练模式多采用单卡运行或单节点内多卡数据并行,每张卡或节点上都有完整的模型结构,卡间通信主要用于传输训练数据,因此通信需求不频发,带宽通常在几十GB,传统PCIe可满足要求。
AI大模型:数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型梯度的频繁传递;
数据并行(DP):每计算设备(卡或节点)都有一个完整模型,将数据集拆分到多个计算设备同时训练,在反向传播中,各个设备上的梯度进行归约操作求平均,再更新模型参数。
模型并行(MP):1)流水线并行(PP):将模型按照“层”拆分为多个Stages放在每个计算设备上,训练过程是逐层顺序计算,通信数据量比DP小,点对点互联即可;2)张量并行(TP):将模型在“层”内进行切分,训练过程中前向和反向传播中都设计Allreduce,通信量大且频繁,通常要求全互联(FC)或交换拓扑(Switch)。
网络互联-节点内:私有方案以英伟达NVLink为代表
大模型场景,私有和开放技术方案并存。针对传统传统的中小模型,PCIe技术方案已经非常成熟;面向大模型场景,基于扣卡模组的卡间高速互联方案主要分为私有和开放技术两大类,私有方案以英伟达NVLink为代表,开放技术方案以OAM和UBB为主。
私有方案以英伟达NVLink为代表。2014年英伟达发布第一代NVLink,旨在实现GPU芯片间低延迟、高带宽的数据互联,相较于传统PCIe方案,CPU和GPU之间共享数据的速度大幅提升。 传统PCIe方案:PCIe由Intel 2001年推出,主要用于连接CPU和各类高速外围设备,采用点对点的连接方式,平均3年迭代一次;在传统PCIe方案中,GPU发出的信号要先传递到PCIe Switch,PCIe Switch中涉及到数据的处理,CPU会对数据进行分发调度,会引入额外的网络延迟,限制了系统性能。NVLink方案:以P100方案为例,拥有4条NVLink,单条NVLink是一个双向接口,包括32个链路,每个方向形成8个差分(采用基于差分信号线的高速串行通信技术),单条NVLink提供40GB/s带宽(通过将多个Sub-Link组成Port,实现GPU之间的快速数据传输),合计提供160GB/s带宽。
网络互联-节点间:主要方案为Infiniband和RoCEv2
RDMA技术是降低卡间通信时间的关键技术。在分布式场景中,整体算力并不是随着智算节点的增长而线性增长,而是存在加速比(通常小于1,由于存在卡间通信时间),RDMA技术可以绕过操作系统内核,直接访问另一台主机内存,从而大幅降低卡间通信时间。主要方案为Infiniband和RoCEv2。实现RDMA的方式有Infiniband、RoCEv1、RoCEv2、iWARP,其中RoCEv1已经被v2替代,iWARP使用较少,目前主要方案为Infiniband和RoCEv2。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf
计算机行业专题报告:大模型进展2.0.pdf
计算机行业2023年报总结:拐点虽迟但到,静待更显著的提质增效.pdf
计算机行业专题报告:行业景气触底,算力全面超预期.pdf
计算机行业2023年年报综述:整体平稳、市场化驱动领域表现较好.pdf
基金2024Q1分析:加仓有色通信,减仓医药计算机.pdf