【国盛证券】超算互联网时代的调度与调优：用AI重新定义通信.pdf

2023-11-05

47页

5MB

当下，随着大模型训练的兴起，全球显卡与算力正在进入一段时间的快速膨胀期，国内外均欲打造 AI 超算互联网。与此同时，算力后周期市场也正在快速兴起。“后周期”中的后，与传统市场中的行业末期，行业后期不同，“后”指的更多的是后服务市场，我们认为的后服务，包括了显卡服务器到货 IDC 后，从形成稳定算力到输出稳定的商业推理结果的全过程。其中主要的环节包括了云化、调优、调度、部署、落地、数据管理等等软硬结合的数个环节，参与其中的既包括全球一线大厂，也包括许多海外优秀的创业公司。

算力的后周期的市场需求迸发，我们认为核心原因在于大模型训练的难、大模型商用的贵以及大模型安全的忧。大模型训练的难在于，超大规模的参数和运算量远超单张或者单服务器显卡的容量，各个显卡之间如何实现数据并行与运算合作，是整个业界面临的首要问题，为此，诞生出了云化、调优、调度等后周期需求。大模型商用的贵体现在参数、效果、费用三者的矛盾之上，参数越多的模型，其对于实际问题的准确度越高，但其反应时间和消耗费用也越高，同时，如何将新迭代的模型快速部署至应用场景，也是开发者需要面临的问题。大模型安全的忧则更多的体现在数据层面，如何实现安全情况下，企业原有数据库与训练系统的相互调用，如何实现原有数据对于“AI”训练的可用等等。纵观全球算力后周期的发展态势，我们认为正在形成两个迥然不同的生态，首先，在涉及算力使用和大模型训练的等上层建筑时，整个行业对于资本支出、模型经验积累等等方面的壁垒正在逐渐加深，正如黄仁勋在发布会上经常提到的“buy more save more”，大模型时代，天量资本支出已经成为这一领域的入场券，模型研究从“巧夺天工”到“重剑无锋”的转变，使得大算力，大模型的壁垒不断提高，行业格局加速走向巨头通吃。

但在涉及到商业落地，数据安全，平台可视化等等模型偏下游环节时，我们反而从北美的创业公司上看到了百花齐放的生态，在训练过程与资源可视化，数据库调用，模型加速部署与性价比调节等方面，都涌现出了一批优秀的创业公司与解决方案，同时原有领域内的龙头软件公司也在积极开发方案，对接 AI 需求。与大模型和算力战争中的巨头垄断局面相比，这里的各个环节更加富有生机，也更容易在细分环节中成长出新的优秀独角兽公司。

最后，复盘海外前沿，展望国内发展，我们认为随着国内算力资源起量与模型训练深入，对于算力和模型层面的投资将会再度聚焦，聚焦大厂，聚焦通信能力。同时国内相关软件市场仍处于萌芽阶段，对标海外优秀创业产品，提早满足客户需求，将给国内软件和创业公司带来新一轮机会。同时，国内由于海外算力制裁等影响，国内如昇腾等国产优秀生态发展和起量过程中，可能也会涌现出一批优秀的行业加速库、生态软件公司，基于此再扩展出中国特色的相关模型服务体系，有望走出一条有中国特色的模型服务体系之路。

2.1 算力云化：算力租赁势起，被 AI 重定义的云计算

2.1.1AGI 时代到来，GPU 算力需求爆发，云计算面临新挑战

云计算是科技行业过去十年发展最为迅速的领域之一，伴随的是全球数字化程度的持续提升。互联网的高速发展，众多中小型及初创公司数字化需求爆发，通过自购 ICT 基础设施的形式支出巨且运维难度高，不适合具有灵活需求高速发展的长尾客户。而通过云计算，使用者可以随时获取云上资源，按需使用按需付费，可无限扩展。云计算将计算资源池化，通过软件实现自动化管理，让资源高效输出，并发展出 IAAS、PAAS、SAAS 以及其他众多形式，极大的促进了互联网发展和全球数字化进程。

生成式 AI 兴起，算力需求从 CPU 向 GPU 跃迁。随着 open ai 旗下 chatgpt 的涌现，在全球范围内引爆了生成式 AI 的发展浪潮，作为下一代最重要的技术方向，企业人工智能发展需求正在爆发，拥有能够支持开发人员创建新一波人工智能应用程序需求的基础设施至关重要。许多企业正在转向云计算，但与主流企业工作负载不同，人工智能提出了传统云基础设施无法充分支持的新需求。从 CPU 到 GPU 再到 GPU 集群，企业发现自己正在采用越来越复杂的基础设施来满足其人工智能模型训练的需求。

大模型持续发展，高速互联高性能 GPU 集群是门槛。以 openai 为例，其 gpt3 具有 1750 亿个参数，是上一代版本的 117 倍，模型的持续发展迭代需要前所未有的规模，而对于大模型训练而言，多 GPU 互联基础设施是门槛，不仅仅是 gpu，更重要的是 gpu 之间的高速互联，是 gpu 与交换机、光模块等基础设施共同互联后的集群，其资本开支和技术难度相较于以 cpu 和存储服务器为主的传统基础设施，有明显的提升，这也进一步抬高了大模型的门槛。

大模型训练需要数千片甚至上万片 GPU 集群连续训练数月时间，海量计算的同时还有海量数据交换需求，与传统 cpu 和存储集群比较，内部通信互联要求提高十分明显。在传统云计算时代，只有超大型数据中心核心节点才会用到高速光模块和高端交换机，如 400G 和对应光模块，而在超算集群中，以 H100 集群为例，其中第一层便使用 400G 光模块，向上则使用 800G 光模块和对应交换机，网络互联要求提升十分明显。

AI 云计算对应能力要求全面提升。云服务能力对于致力于布局 AGI 的企业而言，传统的云基础设施即服务产品并没有针对企业规模的人工智能进行优化，随着基础设施的日益复杂，宕机的风险也越来越大，需要花费越来越多的精力和资源在维持运行上，开发企业人工智能不仅需要基础设施服务，更需要的是全栈能力，人工智能企业需要将所有这些功能集成到他们的平台中，从而避免与基础设施的作斗争：

1、用于开发和部署特定于领域的端到端人工智能工作流的框架和工具——从数据准备和训练到推理和部署。 2、一个以开发人员为中心的平台，用于管理从最简单的计算机视觉应用程序到最复杂的大型语言模型的一切。 3、智能编排层和调度程序，为每个作业提供适当大小的资源，动态高效地回收和重新分配资源。 4、自动化的基础设施管理，最大限度地提高了平台的性能和正常运行时间，使每项工作都可以无忧地执行。 5、超高带宽、低延迟的网络集群，专门用于多节点训练，可以在许多加速计算节点上并行处理大型人工智能模型。

2.1.2DGX Cloud 发布，云算力进入 GPU 新时代

2023 年 3 月 21 日，英伟达正式发布了 DGX Cloud，这款多节点 AI 训练即服务解决方案，针对企业 AI 的独特需求进行了优化。英伟达表示，DGX Cloud 将改变传统的计算框架，为现代深度学习提供理想的环境。英伟达一直处于 AI 技术的前沿，其 DGX Cloud 将人工智能和云计算结合，旨在为企业提供最先进的 AI 训练服务。该平台基于 NVIDIA DGX SuperPOD 架构，可进行分布式训练，其速度是不支持 NVIDIA 网络的服务的两倍以上。

DGX Cloud 由 Base Command 平台提供支持，Base Command 是一个全面的 AI 工作流管理 SaaS，涵盖云和内部资源，这个平台可以帮助 AI 开发人员更有效地构建、部署和管理 AI 应用。通过将 Base Command 与 DGX Cloud 相结合，企业可以更灵活地满足其独特的 AI 需求。对于希望构建自定义生成式 AI 模型的企业来说，DGX Cloud 提供了完整的 AI 开发环境，包括训练、优化和部署等环节，降低了 AI 开发的门槛，同时也极大地提高了开发效率。英伟达 DGX Cloud 为现代 AI 开发树立了新的标杆。 DGX Cloud 是世界上第一个专门用于开发生成式人工智能的人工智能平，英伟达推出 DGX Cloud 专门针对了传统 laaS 产品在 AI 时代面临的困境，根据英伟达官网表述，DGX Cloud 的使用效率是传统基础设施的三倍，其集成了 NVIDIA 基础命令平台，简化了人工智能开发。Base Command Platform 有效地配置和管理人工智能工作负载，提供集成的数据集管理，并在从单个 GPU 到大规模多节点集群的适当大小的资源上执行它们。DGX Cloud 还包括 NVIDIA AI Enterprise，它提供加速的数据科学库、优化的框架和预训练的模型，使开发人员能够更快地获得生产就绪的模型。

DGX Cloud 全面领先传统 IaaS。DGX Cloud 基于领先的 NVIDIA DGX 技术，这是一个加速每个行业创新的解决方案。借助 DGX Cloud，企业可以专注于人工智能创新，而不用纠结于基础设施，企业可获得到可靠、快速的资源分配、完全优化的执行工作负载以及更少的时间精力，从而降低总体拥有成本。根据英伟达官网给出的比较，DGX Cloud 相比较传统 IssS 服务，有着 2-3 倍的训练速度，通过算力调优有三倍的 GPU 利用率。

以 GPT-3 为例，其具有 400 亿个参数和 3000 亿个 token，训练 GPT-3 大约需要 160 块 NVIDIA A100 gpu 训练约一个月。从比较上来看，选择 DGX Cloud 的企业训练速度将是传统 IaaS 的 2-3 倍，仅需约一个月的时间仅可完成模型训练，若升级采用 DGX Cloud H100 则仅需 20 天，而传统 IaaS 则需要超过 3 个月时间。DGX Cloud 能够帮助企业快速迭代模型，降低成本的同时抢占先机。

英伟达 DGX Cloud 发布后，标志着英伟达正式入局 AI 云计算，考虑到英伟达 GPU 在 AI 领域的一家独大，云计算行业正在进入新的时代。与此同时，甲骨文通过与英伟达深度绑定，正在越来越多的拿下 AI 领域的客户，而亚马逊 aws、微软 azure、谷歌云为代表的头部公有云也正在加速布局 AI 领域，英伟达凭借自身优势在 AI 云计算领域领先众对手，云计算格局正在发生变化。而国内，算力租赁也在高速发展，拥有算力资源的公司和具备算力运营能力的企业正在逐渐体现出相应优势，伴随国内 AI 产业的高速发展，算力租赁行业也进入高速发展阶段。

2.1.3GPU VS 比特币矿机——爆发的需求、紧缺的供给和极短的回款周期

算力行业正处于茁壮成长期，众多企业“各显神通”参与其中。我们认为，算力租赁生态链还远未到格局固化的阶段，可以积极关注新进入者。利通电子：算力租赁新“玩家”。公司此前披露已订购 255 台 GPU 服务器，近期公司表示，DGX 服务器已批量到货，预计 10 月全部完成交付。中科金财：算力租赁+AI 应用双布局。公司 9 月公告拟 2 亿元投资设立全资子公司，主营算力租赁、AI 应用生态服务等 AGI 业务。东方材料：算力调度平台汇聚全国分布式算力群。子公司东方超算的“银河”算力调度平台联合 13 家 IDC 打造全国一体化算力集群，现已提供基于英伟达 A100、A800、H800、华为 910B 等 GPU 算力服务，面向全国政企用户提供现货算力资源服务。

2.1.4 现状：GPU 禁令，国产算力进程加速，合理分配利用资源重要性突显

高端人工智能芯片被禁售。根据英伟达 2023 年 10 月 23 日提交给 SEC 的 8-K 文件，美国政府通知英伟达，题为“实施附加出口管制：某些先进计算项目；超级计算机和半导体最终用途；更新和更正”，适用于“总处理性能”为 4800 或更高并为数据中心设计或销售的产品，立即生效。本次影响的公司产品有：A100、A800、H100、H800 和 L40S。这些产品在 10 月 17 日被要求将于 30 天后限制出售。

美国实体清单更新，无理加强对我国先进芯片限制。BIS 将 13 家实体添加单实体清单中，其中包括壁仞高科技和摩尔线程两家涉及先进计算芯片开发的中国实体及其子公司，这些实体还将受到使用美国技术生产的海外产品的限制。代工厂为这些列出的各方生产芯片将需要 BIS 许可证，然后代工厂才能将此类芯片发送给这些实体或代表这些实体行事的各方。被新列入实体清单的 13 家实体包括壁仞科技及其子公司、摩尔线程及其子公司、光线云（杭州）科技有限公司、超燃半导体（南京）有限公司，实体清单新规的生效日期为 2023 年 10 月 17 日。

算力国产进程提速。国内人工产业发展如火如荼，但随着高端算力芯片禁令的立即生效，包括英伟达、AMD、intel 在内的众多 AI 芯片均将无法购买，算力作为最核心的基本战备物资，其国产进程必然将加速。目前来看华为、寒武纪、海光、壁仞、摩尔线程等均国产算力芯片商业化和生态建设有望加速，此前科大讯飞曾表示已与华为昇腾启动专项攻关，合力打造通用人工智能新底座，当前华为昇腾 910B 能力已经基本做到可对标英伟达 A100。

目前云计算形式获取被限 AI 算力仍被允许。尽管市场担心美国有可能禁止我国通过企业访问 AWS、Azure、谷歌云等在内的公有云获取 AI 算力资源，但截止到本报告发出日期为止，尚未有正式文件发布，AWS、Azure 等云计算仍对中国地区开放如 nvda A100 gpu 等产品的云服务购买权限，用户可通过其部署在全球各地的云计算资源来选择需要的云服务满足自身需求。

现货 AI 服务器持续涨价，合理分配利用资源重要性突显。禁令落地生效后，AI 服务器短期确定性涨价，渠道及第三方、个人等屯货的 AI 服务器产品数量不容小觑。在被禁大背景下，如何利用好这些零散分布在各种渠道的现货 AI 服务器成为一个现实问题，若能统筹规划，则将大大缓解产业算力困境。此外消费级显卡如 rtx 4090 也有着不错性能，若能将长尾消费级显卡利用在如推理测等要求较低的场景，也能缓解部分算力需求。

2.1.5 跨区域、跨集群、跨架构的算力调度调优能力日益重要

在大规模训练上，和传统云计算比较，需要考虑的问题更加复杂。首先，面对单卡无法装载的大模型，如何利用多卡来突破内存限制的瓶颈是个问题。其次，大规模训练会用到大量的计算资源，大量计算资源间如何通信、协作是另一个难题。最后，如何平衡各类层出不穷的大规模训练技术，使得众多技术形成一个完整高效的训练方案，更是系统性工程。我们将大规模训练技术面临的挑战分为四个部分：内存、通讯、计算和调优。

内存墙（GPU Memory Wall）：在计算过程中，神经网络模型每一层的卷积或者全连接计算，都会把权重 W_m 长期保存下来，用作网络的权重参数更新（静态内存）。另外针对诸如 ADAM 的优化器，会存储优化器的动量等信息，用于优化器计算（动态内存）。一块有 16G 显存的 AI 芯片，最大能塞满 20+亿参数的模型，但是这时候已经没有额外空间，留给动态内存进行分配了。静态内存和动态内存都可能造成内存墙的问题。通讯墙：大模型通过模型并行、流水线并行切分到 AI 集群后，通讯便成了主要的性能瓶颈。随着机器规模的扩大，基于同步的 All Reduce 通讯聚合方式，会因为大量的 AI 芯片和服务器之间频繁进行同步，出现水桶效应，也就是最慢的一路通讯，将会决定整个 AI 集群的通讯的高度。如果采用目前比较流行的 Ring-AllReduce 的通信聚合方式，当通讯的环越大，通讯的延长将会不断地被扩大。另外网络协议的多次握手的方式，诸如此类的开销会导致训练无法有效利用带宽。

性能墙：性能墙呢主要是指计算资源利用率的问题。随着大模型的提出，对算力需求更加迫切，理论上在 4K 的集群上每块卡快 1 分钟，总体就快了 68 个小时。大模型会增加对算力的需求，但是随着大模型引入各项分布式并行技术的同时，会降低计算资源的利用率。调优墙：所以在数千节点的集群上，需要考虑到提升算法工程师分布式调试调优的效率，另外还要考虑降低工程师对大模型进行并行切分的难度。除了对人的考虑，还要对硬件集群的管理，需要保证计算的正确性、性能、可用性。要是有一台机器坏了，如何快速恢复训练中的参数。

总结来看，现阶段大模型训练上，最核心的两个要素分别是数据和算力，过去 AI 的发展方向聚焦在用少量的数据和参数做出模型，而随着 openAI 现象级产品爆发后，人们发现用海量的数据和算力训练出来的模型能力有了质的飞跃，当前大模型还处在早期阶段，现阶段模型参数和算力需求依旧有这极大的提升空间，因此我们判断，在很长一段时间，不断地提高参数量和提升算力集群规模，是大模型发展的主要思路，通过“大力出奇迹” 的形式反而更容易训练出高质量大模型。我们以百度为例，为了支撑超大规模的这张 AIPod 网络，百度选择了 3 层无收敛的 CLOS 组网结构。服务器在最下面，连接到 Leaf 层交换机，也就是图里的 LF，然后 Leaf 交换再通过 Spine 交换机连接起来，就是图里的 SP。最后 Spine 交换机再通过 SuperSpine，也就是 SSP 互联起来。根据百度的数据，平均单 GPU 的 Allreduce 带宽有 5GB/s 的时候，大规模分布式的整体加速比只有 70%。想要获得 90%的加速比，单 GPU 的 AllReduce 带宽则需要做到 20GB/s，相当于单 GPU 跑满 400G 网卡。

百度 AIPod 网络采用了 8 通道的架构。每个服务器上的 8 个网口，对应 8 个 GPU，分别连接 8 个不同的 Leaf 交换机。这 8 个 Leaf 交换机一组，构成了一个汇聚组 Group。这样的一个汇聚组下最大可以有 512 张 GPU。进一步，8 个 Leaf 交换机再往上连入不同的 8 个通道，每个通道内 Spine 交换机和 Leaf 交换机之间做 fullmesh 全互联。这样的一个集群最大可以支持超过 16K GPU。

虽然主要的通信发生在同一个通道内，但总还是会存在跨通道的通信。百度通过 SuperSpine 把不同的通道的 Spine 交换机连接起来，打通各个通道。这就是 AIPod 的组网方式。AIPod 的网络采用了无收敛，或者说收敛比为 1:1 的方案，交换机的上联带宽等于下联带宽，确保集群内互通带宽充足。为了尽可能支撑更大的规模，百度在选择交换机的时候，会选用当前顶级容量的交换芯片，比如曾经的 12.8T 或者 25.6T 芯片，现在已经演进到了单芯片 51.2T 的交换机。 AI 算力全球龙头英伟达的通信之路。英伟达作为全球 GPU 领军企业，早在十年前就开始布局 AI 领域，对 AI 发展有着深刻思考和理解。我们回顾英伟达超算方案，从 DGX A100 到 DGX H100，再到最新的 DGX GH200，我们可以清楚的看到，除了 GPU 芯片计算能力的提升以外，通信能力的大幅度持续增长，是另一个最明显的变化。在 AI 领域，通信的作用不亚于计算，通信能力的不足或确实将直接限制 GPU 芯片计算能力的发挥，英伟达早在 2019 年收购网络交换公司 Mellanox，加码布局数据中心网络交换领域，充分体现英伟达的超前眼光和对于通信的重视。

我们以 GH200 为例，NVlink 双向宽带 900GB/s，单向宽带 450GB/s，8 张卡即 3.6Tbps，总带宽28.8Tbps，分摊到三个NVlink Switch，单个NVlink Switch的上下行带宽为9.6Tbps，对应 800G 光模块为 9.6T/800g*2=24 只，一台服务器共有 72 只 800G 光模块，GPU 与 800G 光模块比例为 1:9。而此前 DGX H100 架构 GPU 与 800G 光模块比例约为 1:3， DGX A100 则主要以 400G 光模块为主。从英伟达产品的迭代来看，我们也清晰的看到算力龙头在通信上的持续发力，通信匹配计算能力的提升将会一直演绎。

打破通信墙，是目前高效发挥算力集群能力的无二之选。集群中显卡数量的增长，对应算力若不能匹配线性提升，则无法发挥出高价买入的 GPU 能力。当前，最佳的发挥集群中 GPU 能力的方式，便是打破通信强，通过更高速率的互联，允许万卡规模集群中跨 GPU 之间的数据交换，保证数据交换不出现阻塞，可以说，通信能力的提高，是当前最高效的“调优”方式，再出色的调度和调优，也比不上广泛使用高性能交换机和高端高速率光模块修建的集群内部“高速公路”。次外，目前跨架构、跨集群的算力调度也是现实问题，英伟达不同代际产品之间并不能混合组网，而不同数据中心之间的算力调度难度也不小。东数西算等跨区域算力调度需求也正在增长。具体到模型训练层面，调优也是一个重要方面。

2.1.6 从比特币算力演变看 AI 算力发展

1）根源：都有增长的内驱力

在过去的十年中，抖音、小红书等平台大幅降低了内容创作、分享的壁垒，UGC 模式的内容丰富程度和规模远超过往。而当前无论是带货直播还是内容创作，门槛均比之前有所提高，UGC 也“卷”了起来。而当 AIGC 来临时，内容竞争又将升维，例如数字虚拟人将实现包括外形、声纹、对话内容的模拟，我们看到的很多内容将是 AI 生成，作为个体需要保证自身的内容生产、进化速度快于行业均值，背后的算力投入将首当其冲，否则将直接影响账号盈利能力。我们认为，市场忽略了算力的竞争性，考虑商业因素，算力生意存在分子与分母端。对比特币挖矿而言，其分子是个体的算力，分母是全网算力，个体矿工能挖得的比特币数量取决于其自身算力占全网算力的比例。而对 AIGC 而言，其能获得的用户注意力的分子是个体算力驱动下的内容生产能力，分母是全网的内容膨胀速度。从 UGC 到 AIGC 的升维中，谁的内容生产力提升更快，谁就能获得更多商业利益，因此产业自驱之下，市场将追求更高的算力、更优的模型算法、更高功耗比的网络架构以及更便宜的电力。

2）需求端：都增长迅猛

根据 BitInfoCharts，2023 年 10 月 31 日比特币全网日平均算力达 476.73EH/s，相比 2009 年全网算力 5MH/s 上下波动，14 年时间，比特币算力增长超过 89 万亿倍。 AI 这端，在 ChatGPT 引发 AI 浪潮后，国内大模型也开始于 3、4 月份密集发布，自研 AI 大模型进入“百花齐放”阶段，而大模型的涌现开启了算力“军备赛”。根据 OpenAI 测算，自 2012 年至 2018 年，用于训练 AI 所需要的算力大约每隔 3-4 个月翻倍，总共增长了 30 万倍（而摩尔定律在相同时间只有 7 倍的增长），每年头部训练模型所需算力增长幅度高达 10 倍，整体呈现指数级上涨。举例来说，AI 大模型所需算力与模型参数及模型训练使用的数据量正相关。2017 年以来，AIGC 模型的参数量逐年增加，2021 年以来，这一趋势呈现出明显加快的状态，从 ELMo 的 9400 万个参数一路飙升，至 2020 年年中，GPT-3 引领行业走入千亿参数时代，参数达 1750 亿个，截至 2021 年年中，英伟达大语言模型 MT-NLG 更是超过了 5300 亿。

3）业态：都在从个体户走向集中化与云化

从 2009 年 1 月中本聪使用多核 CPU 挖出比特币创世区块，到液冷矿机面市，比特币矿机的发展经历了一个短暂而迅速的发展历程。对比特币挖矿而言，个体矿工能挖得的比特币数量取决于其自身算力所占全网算力的比例。随着全网算力持续增长，比特币产出竞争逐渐成为芯片性能竞争，算力竞争推动矿机技术和挖矿模式产生变革。芯片更专业：比特币挖矿最初用 CPU，后来用计算能力更强的 GPU，后来用 FPGA，目前用更专业的 ASIC 矿机。集中化与云化：挖矿模式方面，最初的矿工个人挖矿逐渐被矿场、矿池、云挖矿的方式取代。矿场：将大量矿机在物理上集中起来，共同运维管理。矿场负责寻找优质电力资源、通过风冷、液冷等方式为矿机散热、检测有无矿机宕机。矿池：突破了地理位置的限制，将分散在全球的矿工及矿场算力联结，云端合作“挖矿”。云挖矿：云挖矿服务提供商在云端向散户出租算力。

与比特币挖矿相比，AI 云算力发展也经历了类似过程。

芯片更专业、计算能力更强：2012 年，多伦多大学的研究人员 Alex Krizhevsky 在 ImageNet 计算机视觉挑战赛中，首次使用 GPU 驱动的深度学习网络击败其他竞争对手。由此，在深度学习算法中使用 GPU 驱动逐渐变为主流，各大厂商开始使用 GPU 训练神经网络模型。我们统计了部分英伟达有代表性的显卡，发现 2017 年以来，2022 年 3 月面世的 H100 较 2017 年 3 月推出的 GTX 1080ti，在单精度（FP32）上，是后者的 12 倍（134/11.34），在 AIGC 常用的双精度（FP64）算力上，是后者的 192 倍（68/0.35）。

集中化：我们注意到，多个上市公司涉足 AIDC 行业，类似于比特币矿场，它们集中管理 GPU，负责寻找优质电力、检测 GPU 宕机情况并维修、调度算力与散热等等。

云化：面临暴增的 AI 算力需求，大模型训练模型使用的算力资源 GPU 陷入了供应短缺，“云算力”模式兴起。它能让 AI 大模型厂商无需购买英伟达 A100 显卡等硬件，而直接按需租用云算力平台算力，这使得初创企业或非头部模型厂商也能尝试进入 AIGC 领域。

2.2 算力调优：大模型时代，通信即调优

2.2.1 算力调优是算力发展的终身课题

算力调优概念范畴庞大，囊括软硬件技术，涵盖宏微观场景。“算力调优”概念伴随 AI 引发的算力需求热潮随之诞生，本质上算力调优是将算力作为一种资源，资源都是有限的，将有限的算力资源进行重新配置并达到帕累托最优的过程即可称之为“算力调优”。算力调优可以区分为宏观和微观两大场景：

微观层面：微观层面的算力调优聚焦于模型调优。一方面，大模型训练最直接接触到算力资源，伴随深度学习模型越来越大，训练模型需要的 GPU 越来越多，通过算力调优，可以减少模型训练时占据的显存，是降本增效的关键步骤；另一方面在大模型的推理领域，将模型放入嵌入式系统的需求相当普遍，通过算力调优减少模型推理时的内存也至关重要。

宏观层面：宏观层面算力调优包含模型调优、网络调优、算力调度三大层级，除了直接影响算力使用效率的模型调优，网络调优的重要性也日益提高，在大模型对大规模分布式并行训练有更强诉求的背景下，适应 AI 大模型的高性能网络至少具备超大规模、超高带宽和超长稳定三大性能；算力调度本质上是将算力作为资源，进行资源分配和优化的过程，核心解决了算力资源供需不匹配的问题。

算力发展产生三大边际变化，推动算力调优成为核心议题。算力调优概念的诞生与兴起，主要伴随了算力及网络的三大变化，算力需求总量、扩散趋势和需求特征均在 5G、AI 等产业加速发展的背景下发生边际变化：

算力需求总量增加：一方面通用算力需求不断增加，5G 推进逐步落地，各类应用逐渐兴起，对算力需求逐步提升，此外大数据、智能汽车、智慧城市、物联网等各类新业态新平台的兴起也加大通用算力的需求量；另一方面智能算力需求提升迅速，伴随 AIGC 产业的加速发展，国内大模型训练及推理快速推进，智算成为大模型落地必不可缺的生产力之一，需求空间庞大，根据 IDC 及浪潮预测，到 2026 年国内通用算力规模将达到 111.3EFLOPS，智能算力规模将达到 1271.4EFLOPS。

算力需求扩散：算力需求期初主要集中在单一设备上如计算机、工业智能设备等，伴随 5G 和 AI 时代的到来，海量数据扩散到各类设备上，汽车、公路、城市智慧屏等各类终端都需要数据处理能力，算力需求从数据中心向网络边缘和终端设备扩散。

算力需求多样化：随着数字经济的崛起，算力需求逐渐走向多元化，如自动驾驶对算力需求集中在高性能、低延迟、实时性；而生成式 AI 由于需要大量 GPU 并行计算，对算力需求集中在稳定长时间输出能力上；边缘计算的需求点主要在于短距离和低时延。

未来伴随 AI、5G、数字经济的持续发展，算力资源持续紧缺，算力调优将成为算力使用者的终身课题。无论是传统算力、智算算力、或边缘算力，都对算力具备相当持久的需求，未来技术的迭代创新、各类 AI 应用的渐次爆发、算力辐射范围从 B 端到 C 端的扩大，都会进一步加大算力资源的紧缺，无论是从效用角度、成本角度出发，算力调优都将成为算力使用方必须重视和投资的关键环节。

2.2.2 网络调优：算力调优的核心手段

1）源起：从 GPU 的通信出发 AI 时代

GPU 成为核心处理器，分布式训练诉求提升。GPU 采用并行计算方式，擅长处理大量、简单的运算，因此多适用于图像图形处理和 AI 推理。但是大模型复杂度日益提升，单卡 GPU 显存有限，无法满足训练需求，比如百度文心一言大模型有 2600 亿个参数，但是实际上一个 80G 显存的 A800，算上训练中间的计算状态，只能存放 10-20 亿参数，存放 2600 亿的模型就需要 100-200 块 GPU；此外，后续大模型训练需要更多参数和更多计算，由此产生的 GPU 需求更为庞大。为适应算力需求，需要联合多张 GPU 甚至多台服务器协同工作，分布式训练成为核心训练方式。

网络连接在分布式系统中担任重要角色。网络在分布式系统中提供了连接作用，可以根据连接层级区分为单卡、多卡、多机互联，单卡内的网络为计算用的神经网，多卡之间的连接（即 GPU 互联）通常采用 PCIe 或各种高带宽通信网络，多机之间的连接（即服务器互联）通常采用 RDMA 网络。

①多卡互联：传统 PCIe 与 NVLINK/CAPI/GenZ/CCIX/CXL 的“百家争鸣”

总线是数据通信必备管道，PCIe 是最泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道，对数据传输速度起到决定性作用，目前最普及的总线协议为英特尔 2001 年提出的 PCIe（PCI-Express）协议，PCIe 主要用于连接 CPU 与其他高速设备如 GPU、SSD、网卡、显卡等，2003 年 PCIe1.0 版本发布，后续大致每过三年会更新一代，目前已经更新到6.0版本，传输速率高达64GT/s，16通道的带宽达到256GB/s，性能和可扩展性不断提高。

PCIe 总线树形拓扑和端到端传输方式限制了连接数量和速度，PCIe Switch 诞生。PCIe 采用端对端数据传输链路，PCIe 链路的两端只能各接入一个设备，设备识别数量有限，无法满足有大量设备连接或需要高速数据传输的场景，因此 PCIe Switch 诞生。PCIe Switch 具备连接和交换双重功能，可以让一个 PCIe 端口识别和连接更多设备，解决通道数量不够的问题，并可以将多条 PCIe 总线连接在一起，从而形成一个高速网络，实现多设备通信，简言之 PCIe Switch 相当于 PCIe 的拓展器。

GPU 互联时代， PCIe 传输速率和网络延迟无法满足需求， NVLINK/CAPI/GenZ/CCIX/CXL 等“百家争鸣”时代开启。 AIGC 的发展极大刺激算力需求的增加，GPU 多卡组合成为趋势，GPU 互联的带宽通常需要在数百 GB/S 以上，PCIe 的数据传输速率成为瓶颈，链路接口的串并转换会网络延时，影响 GPU 并行计算效率，还由于 GPU 发出的信号需要先传递到 PCIe Switch，PCIe Switch 涉及到数据的处理又会造成额外的网络延时，此外 PCIe 总线与存储器地址分离，每次访问内存会加重网络延迟，因此 PCIe 协议在 GPU 多卡通信中效率并不高。为了将总线通信效率提升，降低延时，各家纷纷推出替代协议：

CAPI 协议：由 IBM 最早推出，后逐渐演化成 Open CAPI，本质是现有高速 I/O 标准之上的应用程序扩展，添加了缓存一致性和更低延迟等内容，但由于 IBM 服务器份额的持续下降，CAPI 协议缺少用户基础，最终未能广泛流传。 GenZ 协议：GenZ 是不依赖于任何芯片平台的开放性组织，众多厂家参与其中包括 AMD、ARM、IBM、Nvidia、Xilinx 等，GenZ 将总线协议拓展成交换式网络并加入 GenZSwitch 提高了拓展性。 CXL 协议（陆续兼并上述两个协议）：2019 年由 Intel 推出，与 CAPI 协议思路类似，2021 年底吸收 GenZ 协议共同发展，2022 年兼并 Open CAPI 协议，CXL 具备内存接口，逐渐成长为设备互连标准的重要主导协议之一。 CCIX 协议：ARM 加入的另一个开放协议，功能类似 GenZ 但未被吸收兼并。

NVLINK 协议：英伟达提出的高速 GPU 互联协议，对比传统 PCIe 总线协议，NVLINK 主要在三个方面做出较大改变：1）支持网状拓扑目，解决通道有限问题；2）统一内存，允许 GPU 共享公共内存池，减少 GPU 之间复制数据的需要，从而提高效率； 3）直接内存访问，不需要 CPU 参与，GPU 可直接读取彼此的内存，从而降低网络延迟。此外，为解决 GPU 之间通讯不均衡问题，英伟达还引入 NVSwitch，一种类似交换机 ASIC 的物理芯片，通过 NVLink 接口将多个 GPU 高速互联，创建高带宽多节点 GPU 集群。2023 年 5 月 29 日，英伟达推出 AI 超级计算机 DGX GH200，通过 NVLink 和 NVSwitch 连接 256 个 GH200 芯片，所有 GPU 连接成一个整体协同运行，可访问内存突破 100TB。

②多机互联：IB 网络与以太网络并存

分布式训练下 RDMA 网络成为最佳选择，包含 IB 网络和以太网络。传统的 TCP/IP 网络通信是通过内核发送消息，涉及较多数据移动和数据复制，不适用高性能计算、大数据分析等需要 IO 高并发、低时延的场景。RDMA 是一种计算机网络技术，可以直接远程访问内存数据，无需操作系统内核介入，不占用 CPU 资源，可以显著提高数据传输的性能并且降低延迟，因此更适配于大规模并行计算机集群的网络需求。目前有三种 RDMA： Infiniband、RoCE、iWARP，后两者是基于以太网的技术：

Infiniband：是专为 RDMA 设计的网络，从硬件级别保证可靠传输，具备更高的带宽和更低的时延。但是成本高，需要配套 IB 网卡和 IB 交换机。 RoCE：基于以太网做 RDMA，可以使用普通的以太网交换机，成本较低，但是需要支持 RoCE 的网卡。 iWARP：基于 TCP 的 RDMA 网络，利用 TCP 达到可靠传输。相比 RoCE，在大型组网的情况下，iWARP 的大量 TCP 连接会占用大量的内存资源，对系统规格要求更高。可以使用普通的以太网交换机，但是需要支持 iWARP 的网卡。

2.2.3 现状：AI 的网络新需求

AI 大模型的训练和推理对网络提出了有三大新的需求：超大规模、超高带宽以及超长稳定。 1）超大规模-训练快慢：规模的大小直接决定模型训练的快慢。一个 1750 亿的模型，如果采用 2 千张 GPU，需要训练 100 天以上。采用 8 千卡则可以把时间压缩到 30 天左右。 2）超高带宽-效率：Allreduce 带宽直接决定大规模分布式下的整体效率。平均单 GPU 的 Allreduce 带宽有 5GB/s 的时候，大规模分布式的整体加速比只有约 70%；平均单 GPU 的 Allreduce 带宽 20GB/s 才能获得约 90%的加速比，相当于单 GPU 跑满 400G 网卡。 3）超长稳定-训练不中断：大模型训练时长至少是几个星期，长时间下的稳定性尤为重要。稳定性又可以细分为 GPU 可用性+网络可用性： GPU 可用性：根据百度智能云技术站测算，假定单 GPU 的月可用性是 99.9%，那么在千卡规模下模型训练一月内遇到故障发生中断的概率是 60%，而如果采用 8 千卡中断概率就有 99%。即使 GPU 的可用性提升到 99.99%，8 千卡下的中断概率仍然在 50%左右。网络可用性：存储的读写性能也对大模型的训练非常重要，这里面就包括了数据集的读取以及训练过程中 checkpoint 的读写。网络必须保证更高的可用性，才能尽可能减少模型的训练中断，降低模型做 checkpoint 的频率以及开销。

超长稳定性能在三大基础性能中，属于必不可少的刚需地位，直接影响模型训练和后续推理的延续性以及成功率。保持任务长时间不中断对于大模型训练至关重要，一旦硬件出现故障，在光模块集群中容易造成“多米诺骨牌”式失误，即演变成 1*N 个硬件出错，影响模型训练的整个流程，根据百度智能云技术站测算，一个可以承载 16000 卡的集群会有将近 10 万个光模块，假定一个模块的 MTBF（一个硬件设备在故障前的平均使用时长）是 1 千万小时，由于模块基数太大，哪怕是 1000 万小时的 MTBF，也会导致平均下来 4 天左右就会发生一个故障发生，在大基数背景下，单体的小概率事件会演变成总体的大概率事件。大模型训练中，网络极其复杂度，一些硬件故障无法被显式直接感知，为保障模型训练的长期稳定性，各大平台均在不同程度上应用智算可视化工具，对数据进行实时监控采集。

百度百舸平台大模型配备两大核心工具，任务可视化工具+故障诊断工具。其高精度可视化工具可以把一个任务的几百上千个实例的监控数据合并到一起来看，用于判断任务是否正常训练。

openAI 在训练过程中加 checkpoint 保证连续性。在 OpenAI 和机器学习的背景下，checkpoint（检查点）是指在训练过程中保存的已训练模型的特定时间点的版本，包含模型的权重、参数和其他重要信息。在训练过程中加入 checkpoint 以后，一旦出现训练中断，可以随时返回并使用已保存的 checkpoint 处的模型，无需从头开始训练。此外，checkpoint 除了能提供恢复训练功能，还有其他几个作用，如实验可重现性、模型评估、迁移学习等。

2.2.4 未来：网络为主，可视化为辅

面对 AI 大模型对算力网络通信功能提出的新需求，核心在于网络通信能力的提升，辅助以智算可视化等必备硬件。超大规模、超高带宽、以及超长稳定三大新需求，核心都在于网络通信能力的提升，一方面可以采用英伟达全套架构，搭配以专业的 IB 网络，另一条出路在于自研高规格的网络架构，其本质都是集中精力提升网络性能。此外，辅助以核心硬件如网络可视化，也是调优的重要部分。在一个算力集群中，无论是使用以太网还是 InfiniBand 协议搭建通信网络，数据都是以若干个包（packet）的形式进行传输。为了实现对通信网络的流量监控，避免网络拥堵或硬件失效影响整个系统的效率，就需要实时监测每条通信链路的的工作状态。例如，在一个常规的三层网络架构中，有一种经典的调优方式 DPFR（Data Plane Fast Recovery），可以做到毫秒级收敛。

网络调优最核心的原理就是利用软件或硬件技术抓取数据包进行分析。数据包的嗅探抓取分为软件实现和硬件实现两种路径。以软件实现的数据抓包最常用，国内外知名产品有 Wireshark（处理 TCP/UDP）、Fiddler （处理 HTTP/HTTPS）、tcpdump&windump、solarwinds、nast、Kismet 等。以 Wireshark 为例，其基本工作原理是：程序将网卡的工作模式设置为“混杂模式”（普通模式下，网卡只处理属于自己的 MAC 地址的数据包，混杂模式下，网卡会处理所有流经的数据包），同时由 Wireshark 进行数据包的截获、重发、编辑和转存。

软件抓包会占用部分系统性能。首先，混杂模式下网卡处于“广播模式”，会处理网络下层收发的所有数据包，本身就会消耗网卡一部分性能；其次，软件抓包不是在链路层串行或并行抓取，而是将数据包进行复制和存储，占用了一部分 CPU 和存储的资源。同时，类似 Wireshark 这种软件大多只能做到对系统里的单一网络节点进行流量监控，难以覆盖到全局网络，适合被动的故障排除作业，不适用于主动风险监测。为不影响系统整体性能，并行或串行接入的软硬件结合工具应运而生，常用的工具有 DPI 和 DFI。DPI（Deep Packet Inspection，深度报文检测）是一种基于报文的应用层信息对流量进行检测和控制的功能。DPI 着重对应用层的分析，能够识别各种应用及其内容。当 IP 数据包、TCP 或 UDP 数据流通过支持 DPI 技术的硬件设备时，设备会通过深入读取报文载荷来进行重组和分析，从而识别整个应用程序的内容，然后按照设备定义的管理策略对流量进行后续处理。DFI（Deep/Dynamic Flow Inspection，深度/动态流检测）采用的是一种基于流量行为的应用识别技术，即不同的应用类型体现在会话连接或数据流上的状态各有不同。DPI 技术适用于需要精细和准确识别、精细管理的环境；而 DFI 技术适用于需要高效识别、粗放管理的环境。

DPI/DFI 由独立硬件串/并接在物理层，不会影响物理层的性能表现。以浩瀚深度的 DPI 软硬件产品为例，其可以部署在电信网络的各层级网络节点，同时通过 SaaS/PaaS 完成对各层级监测节点数据收集、分析和呈现。DPI 硬件串接或并接在通信物理层，通过镜像数据包实现近乎无损的网络监测。DPI 软件嵌入在 DPI 硬件、独立服务器或交换机/路由器中，实现网络监测。

网络可视化——流量监控高效工具。流量监控 SaaS/PaaS 用来实现对各层级 DPI 监测节点的数据收集、分析和呈现，将网络数据以客户和应用所需要的方式展示，帮助用户精准掌握网络运行情况，以及其中蕴含的有价值信息；同时结合大数据分析与挖掘、多维度数据关联分析、流量控制和管理等手段，实现网络管理、信息安全与商业智能的一类应用系统，通常称为网络可视化。

恒为科技进一步投入智算可视化研发，从传统网络可视化、信创基础产品，向智算基础架构方向积极扩展，新产品以及新技术研发持续推进，其中包括针对智算系统 100G 以太网/IB 网、200G 以太网/IB 网的智算可视化运维系统，以及 100G 类 IB 的低延时国产智算加速网卡和交换机系统。

2.2.5 模型调优

模型层面调优，亦或者是软件层面调优，与我们平时所认为的例如对于游戏，软件等等的性能优化有一定区别。在当下模型快速迭代，参数战争依然如火如荼的当下，如何削减参数，如何减少训练时所需的 GPU 总数亦或是算力总量，并不是头部玩家关注的重点，头部玩家关心的是，如何让自己重金投入的 GPU 集群快速达到满载算力，从而进一步实现领先于对手的模型迭代与参数扩张。综上，模型层面的调优，在当下的业界，可以理解为，如何通过模型架构的设计，进一步压榨 GPU 的性能，而并非压缩模型的非必要环节，从而节省模型的训练所需的算力。当前的 AI 模型训练过程主要基于两个主要框架进行，即 Tensor Flow 和 PyTorch。这两个框架除了给予 AI 训练所必须的基本环境，包括了操作系统、工具和运算流程，也在压榨 GPU 算力层面给予了较为完善的框架。模型训练过程与我们日常生产中的流水线类似，即一个模型中有几层训练步骤，对应了生产线上有几道工序。模型架构层面优化 GPU 使用能力的方法主要是并行，即对流水线的工人的任务分配或者流水线的优化。

模型层面的并行主要有两种，第一种是数据并行，第二种是模型并行。首先，第一种数据并行。数据并行，是指将一层模型运算中所需要的数据切分至 N 张显卡进行运算，N 张显卡运算出结果后，即可汇总进行下一层。模型并行指的是将一次模型训练需要的 N 层运算，分别放入 N 张显卡进行运算，但随着模型体积愈发庞大，单个显卡难以容纳一整层的计算，所以模型并行在当下正在加速被数据并行所替代，数据并行的瓶颈则在于数据实时的切分与沟通，并行方式的变化，也在一定程度上，进一步提高了通信能力的重要性。

此外除了框架或者训练原理层面自带的并行能力外，专用的训练过程中调优工具也进一步方便了用户的使用，当下，全球模型训练者使用的训练调优工具基本以微软提供的开源工具库 Deepspeed 为主，DeepSpeed 通过将训练数据预处理等方式，优化了数据进入 GPU 的效率和所需空间，从而为发挥 GPU 集群性能或者提高小 GPU 训练上限提供了解决方案。

有了模型调优层面的两大工具，框架与 Deepspeed，接下来的调优便是利用这两个环节提供的能力，进行经验的积累，例如数据并行的时候如何保证各个环节的先后顺序，数据块分配，如何利用 Deepspeed 进行进一步的数据处理等等，经验的积累会进一步加深各个头部大模型厂商的训练能力壁垒，从而使得大模型格局更集中。

正如本节开头所说，当下大模型时代，模型的算法层面调优，或者是去优化模型训练中所需要的算力与金钱性价比这种路线已经逐渐式微。在过往的小模型时代，由于资金投入的有限，对于快速商业化的追求，行业内和实验室会更多的关注小算力下的小模型优化。但是随着以 GPT 为代表的大模型的横空出世，重剑无锋的参数、数据、算力堆叠，被业界逐渐认为是走向 AGI 的必经之路，当下，模型算法层面的调优，模型性价比的提升可能会在一定程度上放缓，模型层面的进化，可能更多的会发生于训练系统和工具库层面如何去更好的调用 GPU 算力。

2.3 算力调度：全局最强辅助

2.3.1What-算力调度是什么

算力调度本质上是将算力作为资源，进行资源分配和优化的过程。从宏观来看，算力调度是通过智能分配策略实现算力的灵活流动，解决国内算力需求与资源分布不均的矛盾；从微观来看，算力调度是对用户的各种需求匹配合适的资源，根据不同业务场景对多样性算力资源进行自动的需求匹配和调度。算力调度核心解决了算力资源供需不匹配的问题。算力调度主要用于解决算力供需矛盾、算力网络传输问题、以及算力资源普惠问题，根据算力资源提供方的供给能力和应用需求方的动态资源需求，进行算力资源整合和分配，涉及基础设施底层的计算、存储、网络等多维资源的一致性管理、一体化编排和统一调度。

2.3.2Where-算力在哪里调度

算力调度的场景较为广泛，既可以按照产业链分为云与云之间、云和数据中心之间、云网端之间，也可以按照行业、地区、层级进行划分，目前较为典型的两个调度场景存在于跨区域和跨层级：跨区域调度：即“东数西算”，东部科技企业数量较多对算力的依赖性较高，且由于数据中心建设相对较早，缺乏统筹规划，对需求估计不足，打通东西部算力资源、实现东西部算力协同，是建立在算力资源跨区域调度核心能力至上的。跨层级调度：算力不仅仅集中于数据中心，更是扩散到边缘网关、甚至各类终端，因此云—边—端的算力资源协调也称为算力调度的重要应用场景之一。

2.3.3How-如何实施

算力调度目前尚处于逐步落地阶段，具体实施步骤有待在执行中逐渐完善，但是根据算力分布分散、需求具备多样性和灵活性等特质，通常情况下算力调度至少需要包含三大步骤：整合多元异构资源：算力调度首先需要标准化底层算力资源，如 CPU、GPU、神经网络处理器等，建立度量模型，形成评估标准。然后，摸清算力调度区域的基础设施和资源情况，整合不同所有方的闲置资源。搭建算力调度平台：通过统一的平台整合如实时感知、供需匹配、智能调度、服务运营和监测管理等多种功能，平台充当算网大脑，根据资源分布情况动态计算最佳调度策略，实现统一的算力交易和售卖。建立标准规范体系：标准规范体系包括算力交易、管理和安全规则，涉及产品定价、自动结算、账本记录、权利义务和可信服务机制。

2.3.4Who-谁在参与

算力调度平台作为算网大脑，通过整合不同来源、类型和架构的算力资源，按需调动分配算力，在算力发展中后期重要性将会进一步提升，目前国内已经涌现多个算力调度平台，按照主导方的不同可以分为四大类，其中运营商算力调度平台的基础能力优势较为显著：

电信运营商主导平台：由中国电信、中国移动、中国联通牵头或参与建设并运营的算力调度平台，拥有强大的网络基础设施，能够在全国范围内实现算力资源的高速互联，保障数据和算力的快速传输和稳定运行。比如中国移动推出移动云智能算力调度平台，中国电信天翼云下的“息壤”平台即具备智能高效算力调度能力，中国联通推出算网一体化编排调度体系进行算网资源的智能调配。

地方政府主导平台：由西部一些节点城市牵头或建设运营的算力调度平台，依托西部地区的自然资源和能源优势，建设低成本且符合低碳要求。比如贵州大数据与实体经济深度融合公共服务平台，将建成面向全省专注于服务大数据与实体经济深度融合、数字化产业转型的公共服务平台。

企业主导平台：由部分互联网或科技巨头企业牵头或参与的算力调度平台，依托企业在 AI、大数据、云计算等方面的技术积累和客户积累，整合算力资源并实现跨区域、跨境、跨平台的互联互通和优化配置。比如阿里云发布的洛神云网络具备云企业网的全球化智能云网调度能力，中科曙光推出的曙光云计算平台可提供云服务器、云存储、云数据库、云安全等服务。

行业机构主导型平台：主要由行业机构牵头或参与参与的算力调度平台，以强大的政策支撑力和行业影响力为基础，促进算力资源的整合和共享，保证算力调度平台的稳定性和安全性。如中国信通院联合中国电信发布全国一体化算力算网调度平台可以实现跨资源池/跨架构/跨厂商的异构算力资源调度，目前已接入天翼云、华为云、阿里云等。

3.1 软件服务的三个方向：数据管理、模型落地、训练可视化

3.1.1 数据管理

模型微调的基础是数据管理。优质的、结构化的数据要素，推动大模型训练向着高精确度、高安全性和垂直化专业化的方向前进。现有的开源 LLM 称为“预训练模型”，也就是说其他人已经收集了大量的训练数据并提前训练了模型，例如 NVIDIA NeMo 和 MetaLlama 都是“多面手”，它们能流利地使用英各种语言，并且对各种话题都有不同程度的了解，但是碍于训练时的数据，这些 LLM 往往对某个专业领域不够深入。以 snowflake 为例，该平台支持客户使用自己的数据集进行模型的进一步训练和微调，以保证客户定制的模型能够在特定领域做到专精，减少 AI 幻觉。Snowflake 子公司 Applica 凭借 TILT（Text-Image-Layout-Transformer）模型，专精于智能文档。

3.1.2 模型落地

Modular Mojo：下一代设计模型与加速库设计语言。Modular 创建了 Mojo 编程语言，基于 Python 的语法和社区生态和 MILR（一种开源编译器），针对 AI 开发时的异构计算和 Python 的多线程编译问题进行深入优化。

octoML：模型部署工具，快速实现成品模型在各种算力设备上的优化和部署。以 OctoML 部署的 StableDiffusion 为例，OctoML 利用机器学习优化技术能够实现三倍的推理速度，同时还支持快速模型微调。 OctoML 优化了多 GPU 部署和连续批处理，Llama2 实现 3 倍性能提升。大模型的参数数量给 GPU 带来的负载并非线性增长而是指数增长，因为参数数量的提升带来了多 GPU 并行计算问题和大模型最为经典的 KV 缓存问题。OctoAI 针对以上问题进行了优化。

Deci：模型部署层面优化，小模型功能优化。DeciLM 解码器的 Transformer 具有可变的 Grouped-Query Attention（GQA）的能力：其会改变不同 Transformer 层的 attention 组、键值和数值的数量，DeciLM 是第一个在 Transformer 层结构互不重复的语言模型。60 亿参数的 DeciLM 模型在跑分上胜过 PyTorch 的 70 亿参数 Llama2。

3.1.3 训练可视化

Databricks：GPU 资源管理工具，模型和训练进度可视化，Databricks 核心业务是将数据湖和数据仓库统一到一个平台中，也就是湖仓一体，和上文的 snowflake 相似， Databricks 在数据库功能实现方式上与 snowflake 存在区别。Lakehouse AI 通过对整套算力集群的资源管理，帮助开发者进行模型训练和推理的监控。Databricks Lakehouse Monitoring 通过监控数据管道和训练管道实现 LLM 的性能和质量管理，并创建可视化界面。

3.2 国内市场展望

前文我们复盘了几家在各自环节具有代表性意义的超算软件公司，显然，在模型与 AI 进展更加领先的海外，我们已经能够看到客户需求与行业创造的共振。但国内目前的 AI 生态，仍然处于先追赶算力，再追赶模型的阶段，对于商业部署，全流程可视化等等的后续需求，市场尚未显现。但我们认为，AI 大势在国内不可阻挡，并且随着算力资源，模型资源向着互联网大厂、运营商等加速集中，国内现有的中小型 AI 参与者可以未雨绸缪地参考海外模式进行转型或者扩张。算力租赁/调优厂商参考 databrick 模式。上节提到，databrick 软件拥有几大特色，训练资源，训练流程的可视化，训练算力。训练用存储的实时扩容等，并通过把这些能力形成一套完整的 SaaS 平台，获得了客户的认可。相比 Databrick，国内算力租赁厂商，算力调优厂商拥有更加自主可控的算力资源与算力可视化硬件基础，如果能够在此之上配合 SaaS 整合能力和存储相关服务，有望成为软硬件一体的综合训练服务 SaaS 平台。

数据库厂商参考 snowflake、cloudflare 模式。近年来，海外以 Snowflake 为代表的全新数据库巨头将云端数据存储带入了新的高度。如今随着 AI 对于训练数据的需求，如何将数据库安全，合理的输送到训练集群，如何将现有数据库自动转换成适用于 AI 训练的数据，已经成为这些头部数据库公司的下一代进化方向。国内数据库公司目前多服务于信创等场景，对于云存储，AI 数据转化，支持 AI 训练等方向仍然有很大的发展空间。

中小模型，垂直场景创业者参考 DECI、octoML 模式。随着海外大模型厂商渐渐往垂直领域渗透，垂类应用厂商逐渐从独立开发小模型转向接入成熟大模型，同时医药，图像识别等需要特殊处理或者独立数据库支持的行业依然依赖于独立模型。海外因此逐渐涌现出一批如 DECI、octoML 等帮助客户快速进行成熟模型在行业内落地服务的公司，这批公司通过针对现有模型的“准确率与推理算力再平衡”、“低算力环境优化运行”等服务，帮助垂直行业公司快速 AI 化。随着国内模型格局逐渐向大厂集中，中小模型创业者或是垂类场景创业者转向帮助已有垂类应用快速 AI 化，将打开新的末端生态。

不难发现北美的创业公司更多的集中在大厂无法兼顾或者覆盖的用户端部署和优化环节，对于涉及训练，生态等较为核心的环节，北美则多为英伟达及其合作的巨头伙伴所掌握。但随着英伟达，AMD 等海外算力在国内受限，国内算力及其配套生态则有望变得更加开放。影响算力发挥的核心环节主要集中在 GPU 配套的编译器以及覆盖海量垂直应用场景的加速库，编译器环节需要对于 GPU 架构的强耦合，因此产业链外溢机会可能较少。但加速库需要各类场景下的客户与 GPU 厂商共同进步。当前以昇腾为代表的国产 GPU 加速生态仍然处于建设初期，因此给予了国内第三方相关厂商与 GPU 互相合作建设加速库的机会，因此，可能在加速库共建的基础上，国内软件创业公司将对于后续的落地部署环节能有更强的垂直扩张能力。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）