2024通信行业报告:AI时代网络需求与创新趋势

1.投资要件

市场对于通信网络在AI训练中的重要程度认识不足。AI行情以来,市场更加从产业链逻辑关注网络产业链的研究,主要研究方向集中在每一代网络架构需要的光模块数量,并以此为基础进行产业链各个环节的产量与业绩测算,但市场对于AI与通信的底层关系的研究较少。


本文从模型,多卡同步,训练性价比等三大方面,对AI时代通信网络的核心地位进行更深入的讨论。概括来看,通信在AI时代站上C位主要有三大原因。


第一,日益庞大的模型体积下,显卡的数量和连接后的运算效率直接决定了训练所需的时间,而时间,恰恰是日益激烈的巨头AI竞赛中最为宝贵的资源。


第二,从训练的原理出发,在主流的并行模式由模型并行转向数据并行后,每一层运算后,都需要集群内的不同NPU之间对齐已有参数,数以千计的芯片时间的对齐过程,要保证低延迟与准确,对网络的要求极高。


第三,网络故障的成本极高,当下模型训练时间往往持续数月,一旦故障或中断较多,即使是回档至几小时前的存档点,对于整体训练效率和成本也会产生极大的损耗,对于分秒必争的巨头AI产品迭代来说,更为致命。同时,当下集群规模已然行至万卡,而其中的连接部件可能数以十万计,如何保证这些部件的整体稳定和良品率,已经变成了一项极其深奥的系统工程。市场对通信网络未来迭代方向认识不足。市场对于通信网络的迭代更多的认识停留在跟随显卡换代的研究层面。


我们认为,硬件迭代带来的更新的周期和方向相对固定,而其余方向的迭代和产业链创新程度与日俱增。同时,当前海外巨头的AI资本投入战争已经达到数百亿美元级别,而模型参数的扩张,巨头的惨烈厮杀依然激烈。现如今,“降本”、“开放”和算力规模之间的平衡将是网络创新的主要议题。总体来看,产业链对于前沿的探索主要集中于三个方向。


第一,通信介质迭代,这里面既包括光、铜、硅三种基材的共同进步,也包括各种介质内的技术创新,如LPO、LRO、硅光、chiplet、Wafer-scaling等。第二,通信协议的创新,这同样包含两个方面,第一,节点内部通信,如NVLINK和InfinityFabric,该领域壁垒和创新难度极高,属于巨头战场,第二,节点间通信,产业界则主要聚焦于IB与以太网两大协议的竞争。第三,网络架构的更新,叶脊架构是否能够适应超多节点数量,OCS助力下,Drangonfly能否成为下一代网络架构主流,同时Rail-only+软件优化能够成熟,都是产业的新看点。行业催化:1. ScalingLaw持续有效,集群规模经一部扩大,通信网络需求持续上升。2.海外AI正循环加速,互联网巨头加速资本开支竞赛。

2.从云计算时代迈向AI时代,为什么通信愈发重要

上一轮通信的辉煌,可以追溯到互联网时代,爆发式的网络流量传输需求,让人类第一次搭建起了以海量服务器,存储和交换机共同构成的交换体系。在这一轮建设中,思科一枝独秀,成为了人类科技进步的领头羊。但随着互联网浪潮趋于平和,光模块与交换机更多的随着宏观经济,云开支,和产品更新而波动,更加偏向于宏观经济品种,而速率,技术的更迭也较为按部就班,进入了周期波动向上稳态发展期。小模型时代,业界更加专注于算法创新,往往整个模型体积可以由单卡、单台服务器或者较为简单的小集群来承担,因此来自AI侧的网络连接需求并不突出。但大模型的出现改变了一切,OpenAI证明了在当下,用较为简单的Transformer算法,通过堆砌参数的形式,可以较好地提高模型性能,因此,整个产业界进入了模型体积加速膨胀的快速发展期。我们先来看两个决定模型计算速度的基本公式,从而可以更好的理解为什么大模型时代,算力规模或者说算力硬件产业链会率先受益。


(1)训练耗时=训练数据规模x模型参数量/计算速率(2)计算速率=单设备计算速率x设备数x多设备并行效率在当下的大模型时代,我们可以看到,在训练耗时的分子端的两项因子,正在同时扩大,在算力恒定的情况下,训练耗时将会被指数级延长,而在愈发激烈的巨头模型战场,时间是最宝贵的资源。因此,竞争之路非常明确,唯有加速堆叠算力。在第二个公式中我们可以看到,在算力日益膨胀的今天,单卡算力由于模型体积,芯片更新的上限,在算力构成的占比中已经从全部退化成了其中一环,显卡数量,以及多设备并行效率也成为两个同样重要的一环,这也是英伟达前瞻性收购Mellanox的原因,是希望在计算速率的每一个决定因子中,都能取得领先。


我们在前期报告《AI算力的ASIC之路-从以太坊矿机说起》中详细阐述了单卡算力的多种路线,本文中不在赘述,而我们看到的后两项,设备数与多设备并行效率,并不是简单的通过堆叠显卡数量就可以简单实现。越多的设备数,对于网络结构的可靠程度,并行计算的优化程度要求呈现指数级增加,这也是为何网络成为AI重要瓶颈之一的终极原因。我们在本节中会从训练原理出发,阐述为何设备的堆叠和并行销量的提升,是人类历史上最复杂的系统工程。

2.1大模型时代的多卡合作原理,模型并行与数据并行

在模型训练中,将模型拆分至多卡的过程并非传统流水线或简单分割那样简单,而是采用更为复杂的方式来分配显卡之间的任务。总体来看,任务分配方式大体可以分为两种,模型并行与数据并行。最早在模型体积较小但数据量上升时,业界普遍采用数据并行的方式。在数据并行式的运算中,每张GPU上都保留有完整的模型副本,而训练用的数据被分割后进入不同显卡并进行训练,在反向传播后,每张卡上的模型副本梯度将被同步减少。但随着模型参数膨胀下,单块显卡愈发难以容纳完整模型,因此,在头部大模型训练中,数据并行作为单一并行的分配方式正在逐渐减少。

2024通信行业报告:AI时代网络需求与创新趋势

模型并行则是当下在大模型时代逐渐兴起的一种分配方式。由于模型体积过于庞大,因此将模型的不同部分装载进入显卡内,并给显卡灌入相同的数据流,对每一部分的参数进行训练。模型并行有两种主流模式,分别为张量并行与流水线并行。在一个模型训练运算的底层运算矩阵乘法中(C=AxB),张量并行指的先将B矩阵拆分成多个向量,每个设备持有一个向量,然后将A矩阵分别与每一个向量相乘,然后将得出进行汇总,即可总结出C举证。而流水线并行则是将模型按层进行分割,将模型按层分割成若干块,每一块都交给一个设备进行,同时在前向传播过程中,每个设备将中间的激活传递给下一个阶段,在随后的向后传播过程中,每个设备将输入张量的梯度回传给前一个流水线阶段。

2024通信行业报告:AI时代网络需求与创新趋势

在当下的大模型训练中,没有任何一种数据并行能够单独存在,在头部大模型训练中,往往需要将上述的多种技术混合,实现多维混合并行。在实际连接时,会将这个AI集群划分为若干Stage,每个Stage对应一个逻辑上的Batch,每个Stage由若干台GPU节点组成。这样在架构上满足多维混合并行的需求。


无论是何种并行方式,都需要在每一轮计算后,都需要通过反向广播的形式来同步每一张GPU内的参数,不同的并行的方式,对应不同的广播延迟,也需要依靠不同的网络协议或者通信介质来,由此我们可以看出,当下的网络集群构建,正在逐步从“传输”进化成一个真正意义上的“系统工程”。

2.2大模型时代的多卡互联核心:同步的准确率

AI网络集群承担的一项重要功能,便是将不同显卡分工训练完成的结果,在计算单元之间进行对齐,从而使得显卡能够进行下一步的工作,这项工作也被称为反向广播,由于广播过程中往往对结果采用Reduce,Gather等算法进行处理,那么全局的广播则被称为AlltoAll,我们在AI集群性能指标中常见的All-to-All延迟,指的就是做一次全局反向广播需要的时间。


从原理上来看,做一次反向广播同步数据似乎较为容易,只需要每张显卡互发数据即可,但在真正的网络集群构建中,却会遇到许多问题,这也让缩短这一时延,成为了各种网络方案追求的一个重点方向。第一个问题在于,每一张显卡完成当前计算所需要的时间长短是不一致的,如果统一等待同一组内的最后一个显卡完成任务后再进行反向广播,那会导致先一步完成任务的显卡有大量的时间处于空置状态,从而降低整个计算集群的性能。


而同样,如果采用过于激进的同步方法,则有可能导致同步期间出现错误,从而导致训练中断。因此,稳定高效的同步方法,一直是业界追寻的方向。


我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计算单元空置。以下图为例,计算单元一完成计算后,需要等待计算单元4完成计算,并等待集合通信的时间,造成了大量的空置,降低了集群的整体性能。


异步并行则是面对如兴趣推广等非生成式大模型时候的选择,当一个设备完成一轮正向与反向计算后,不需要等待另一台设备完成循环,直接进行数据同步,这种传输模式下,网络模型训练不收敛,不适用于大模型训练,但对于如搜索模型,推荐模型等较为适用。


我们先来看同步并行,同步并行的思路我们在前文中已有提及,即在当前单元内,所有计算单元完成计算后,统一进行一次通讯,其优点是稳定与简单,但是会造成大量的计算单元空置。以下图为例,计算单元一完成计算后,需要等待计算单元4完成计算,并等待集合通信的时间,造成了大量的空置,降低了集群的整体性能。


显然,直接的All-Reduce将带来极大的通信资源浪费,因为同一份数据可能会被冗余传输多次。因此,许多优化版All-Reduce算法被提出,如环状All-Reduce、基于二叉树的All-Reduce等,这些算法均能极大降低All-Reduce的带宽和延迟。我们以中国AI龙头百度发明的Ring All-Reduce为例,来说明分布式计算工程师们,是如何通过不断迭代,来缩短同步时间的。在Ring All-Reduce(环同步)中,每台设备仅需与另外两台设备通信,分为Scatter-Reduce与All-Gather两个步骤。


首先对相邻设备完成多次Scatter-Reduce操作,在每台设备分别得到聚合后的完整数据的一部分。随后,每台设备再对齐相邻设备完成多次All-Gather20242024年年0505月月1616日日P.10请仔细阅读本报告末页声明操作,在每台设备中补全完整数据。环状All-Reduce不仅能降低带宽和延迟,还可以简化网络的拓扑结构,降低网络的搭建成本。

2024通信行业报告:AI时代网络需求与创新趋势

但无论是何种算法,都依赖于网络通信硬件的支持,无论是从芯片原生和协议层面支持更大的带宽,还是从纯铜线连接转为通过NVLink,亦或是IB协议的引入,RDMA需求的爆发,均是为了满足愈发复杂的沟通与同步需求,这些内容我们会在后文中陆续展开。


至此,我们对于为何AI需要高密度通信的原理层逻辑已经有了初步认知,首先从小模型时代到大模型时代的迅速切换,使得多节点集群与分布式训练成为刚需,而将模型分拆至不同算力节点运算时,如何分拆,如何保证同步则是更加繁复的系统工程,而通信则是这一切软件原理实现的基础,高质量、高通量、高稳定性的通信元器件与通信网络。

2.3 大模型时代的系统工程:监测-总结-创新,迭代永远在路上

上文中,我们阐述了训练原理决定了大模型对于通信体系的依赖程度。无数不同的,复杂的并行与同步需求一起,组成了AI集群中的数据流动,虽然通信网络在此类需求的带动下,速率和产品迭代不断加速,连接方式创新不断,但时至今日,仍然没有一个完美的集群能够一劳永逸地解决所有问题,同时集群的稳定性虽然不断优化,但由上百万个精密器件组成的系统,断点与中断问题仍然时有发生。


因此,大模型通信体系的进化方向可以大体分为三个,一个是对大模型系统的监测能力,能够实时感知大模型数据流动,运行态势,从而能够及时发现故障,在这一过程中,以网络可视化为基础的软硬件抓包成为了主流手段,通过FPGA芯片和专用软件,监控集群中的数据流动,从而为感知提供基础工具,以软件实现的数据抓包最常用,国内外知名产品有Wireshark(处理TCP/UDP)、Fiddler(处理HTTP/HTTPS)、tcpdump&windump、solarwinds、nast、Kismet等。


以Wireshark为例,其基本工作原理是:程序将网卡的工作模式设置为“混杂模式”(普通模式下,网卡只处理属于自己的MAC地址的数据包,混杂模式下,网卡会处理所有流经的数据包),同时由Wireshark进行数据包的截获、重发、编辑和转存。


软件抓包会占用部分系统性能。首先,混杂模式下网卡处于“广播模式”,会处理网络下层收发的所有数据包,本身就会消耗网卡一部分性能;其次,软件抓包不是在链路层串行或并行抓取,而是将数据包进行复制和存储,占用了一部分CPU和存储的资源。同时,类似Wireshark这种软件大多只能做到对系统里的单一网络节点进行流量监控,难以覆盖到全局网络,适合被动的故障排除作业,不适用于主动风险监测。为了不影响系统整体性能,并行或串行接入的软硬件结合工具应运而生,常用的工具有DPI和DFI。


DPI(Deep Packet Inspection,深度报文检测)是一种基于报文的应用层信息对流量进行检测和控制的功能。DPI着重对应用层的分析,能够识别各种应用及其内容。当IP数据包、TCP或UDP数据流通过支持DPI技术的硬件设备时,设备会通过深入读取报文载荷来进行重组和分析,从而识别整个应用程序的内容,然后按照设备定义的管理策略对流量进行后续处理。DFI(Deep/Dynamic Flow Inspection,深度/动态流检测)采用的是一种基于流量行为的应用识别技术,即不同的应用类型体现在会话连接或数据流上的状态各有不同。DPI技术适用于需要精细和准确识别、精细管理的环境;而DFI技术适用于需要高效识别、粗放管理的环境。

2024通信行业报告:AI时代网络需求与创新趋势

解决了监测问题之后,大模型系统工程的迭代之路便有了基础,前文提到,在实操中,更加需要注重的便是系统运行效率和稳定性间的平衡,一方面,我们通过Reduce方法的优化,并行方法的创新等等,创造出新的训练方法和理论,分布式训练的底层创新,然而底层创新始终需要相关硬件的支持,更大通量的交换机,更加契合的交换协议,更稳定,更便宜的通信器件将是大模型系统升级中永远不可或缺的一环。

3.通信协议的竞争与迭代:承载AI数据流的话语权

上一章节中,我们系统阐述了AI集群中的通信主要起到哪些作用,本节中,我们将系统性地介绍构成整个通信体系的最基础部分-通信协议。从直觉上来看,通信系统主要由交换机、光模块、线缆、网卡等等实物硬件组成,但其实真正决定了一个通信系统的建立,运行和性能特点的,却是流转在实物硬件内部的通信协议。通信协议是在计算机网络中,为了保证数据顺利、准确地传送,通信双方必须遵守的一系列约定。这些约定包括数据的格式、编码规则、传输速率、传输步骤等。


在AI时代,通信协议的分类主要分为两大类,第一,用于算力节点内部的算力卡之间通信的高速协议,这一类协议具有速度快,封闭性强、可扩展性弱等特点,往往是各家显卡厂商的核心能力壁垒之一,其速率,接口等等需要芯片层面的支持。第二类协议则是用于连接算力节点之间的协议,这类协议具有速度慢,可扩展性强等特点,第二类协议目前主要有两大主流,InfiniBand协议以及以太网下的RoCE协议族,这类协议保证了数据的跨节点传输能力,也是构建超大集群的基础,同时也为智算单元接入数据中心提供了解决方案。

3.1 节点内通信—大厂核心壁垒,算力“摩尔定律”的希望

节点内通信,即单台服务器内部的显卡通信协议,负责同一服务器内部的显卡之间的高速互联,发展至今,这一协议主要包括了PCIe、NVLink、InfintyFabric三种协议我们先来看历史最为悠久的PCIe协议,PCIe协议是一种公开的通用协议,传统服务器个人电脑中的不同硬件都通过PCIe协议来进行连接,在当第三方组装的算力服务器中,显卡之间任然像传统服务器一样,通过PCIe插槽和主板上的PCIe线路进行互联。


PCIe是最广泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔2001年提出的PCIe(PCI-Express)协议,PCIe主要用于连接CPU与其他高速设备如GPU、SSD、网卡、显卡等,2003年PCIe1.0版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64GT/s,16通道的带宽达到256 GB/s,性能和可扩展性不断提高。

3.2 节点间通信协议:历久弥新,封闭与开放之争

现在我们把视角移到算力节点外部,来看一下当前构成全球算力集群连接的主流协议。当下的算力中心,NPU正在逐步迈向百万级规模,即使算力节点或者我们说的HB-DOMIN加速扩大,但节点间连接依然是构成全球AI算力的基石部分。从当前来看,节点间连接协议主要分为InfiniBand协议与以太网家族内的ROCE协议族。超算节点间互联的核心在于RDMA功能。


过去,在传统的CPU为主的数据中心中,普遍采用TCP/IP协议进行传输,即数据从发送端内存发出后,经过发送端设备CPU编码后,发送至接收端设备的CPU,经过解码后放入内存。这一过程中由于数据经过多个设备且多次编解码,因此会产生较高的延迟,而延迟则是对计算卡间相互同步最关键的的因素,因此,在显卡间互联的需求下,绕过CPU,实现内存之间的远程直接互访(RemoteDirectMemoryAccess)RDMA变成为了AI集群连接的刚需。

4.AI推动下,网络硬件创新将走向何方?

4.1光、铜与硅,传输介质之争将走向何方

近年来,随着人类数据量快速膨胀,以及传输速率成倍提升,我们在无线网、固网等电信侧率先迎来了光进铜退的浪潮,从最早的拨号上网,再到光纤入户乃至现在的FTTR,正式一轮轮光纤光缆对于铜线的逐步替代。到了数据中心内部,光进铜退的进程也同样在进行,由光模块、AOC等等光通信组成的通信系统正在逐渐代替有DAC,AEC等组成的铜传输系统,这背后是高速率传输下,铜介质衰减愈发剧烈的必然物理规律。


如果没有AI带来的多样需求,随着服务器网口速率逐代提升,光传输会渐渐向机柜内部持续渗透,并最终形成全光数据中心。但AI的出现,给个“光进铜退”这一过程带来了一丝波折,或者说让市场产生了一定的困惑。其背后的核心原因是:AI带来了通信系统复杂度与造价的非代际线性增长,在指数级的需求增加面前,高速率光模块变得愈发昂贵。因此,性价比更高的铜缆在当前速率吸引力逐步提升,同时叠加散热等等配套部件的改善,显卡厂商得以将更多的计算单元尽可能多的压缩在铜缆可以触及的单机柜范围内。

4.2 交换机的创新:光交换机初出茅庐

交换机作为网络的核心节点,是承载通信协议的核心部件,在如今的AI集群内,交换机也承担起愈发复杂的任务,如上文提到的Mellanox交换机中,其就通过SHARP协议兼具了部分对齐运算的功能,帮助AI运算进行加速。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024食品行业报告:春节旺季带动休闲食品增长

2024-05-23
下一篇

2024轻工制造行业报告:稳健增长与盈利修复

2024-05-23