1.美国加强限制规则,海外高性能芯片进口受限
1.1.从“性能指标”到“性能密度指标”,英伟达高端芯片进口受限范围扩大
2023 年 10 月 17 日,美国商务部出台了出口管制清单的 ECNN 3A090 和 4A090 要求,以进一 步限制高性能 AI 芯片的出口,同时将 13 家中国公司列入实体清单。修改后的出国管制设计 产品包括但不限于:英伟达 A100、A800、H100、H800、L40、L40S 以及 RTX 4090 产品。实际 上,任何集成了一个或多个及以上的芯片的系统,包括但不限于英伟达 DGX、HGX 系统,都在 新规涵盖范围之内。 此前,2022 年 8 月 26 日,美国政府要求英伟达停止向中国(包括中国香港)出口两款用于 人工智能发展的高端计算芯片,涉及英伟达 A100 和 H100 两款芯片,以及未来推出峰值性能 等同或超过 A100 的其他芯片。同时,英伟达应用这些高性能芯片的系统级产品也均在新的 管制范围内。2022 年 9 月 1 日,英伟达发布声明称美国政府允许英伟达在 2023 年 9 月 1 日 前,通过公司的香港工厂履行 A100 和 H100 的订单和物流运输,但售卖给中国的终端客户仍 需要受美国政府批准。
限制强度加大,新增多款芯片受到新规限制。根据英伟达主要芯片规格,可以计算每种芯片 的性能密度指标。在新规发布之前,超过旧规性能指标限制的芯片仅为英伟达 A100,但当加 入性能密度指标后,新规不仅限制了厂商出略低于性能标准的芯片以规避限制情况,同时针 对数据中心芯片与非数据中心芯片进行了不同的限制约定,使更多的英伟达芯片受到禁令限 制。
1.2.人工智能大势所趋,各地政策推进实施
“1+N”政策体系全面推动人工智能产业。2017 年国务院发布《新一代人工智能发展规划》, 部委层面陆续出台相关发展规划、实施方案等落地政策,形成“1+N”政策体系,从相关法律 法规和伦理规范、人工智能发展支持政策、标准和产权体系、监管和评估体系以及 AI 人才培 训等五个角度全面推动人工智能健康快速发展。 同时,各一二线城市均针对 AI 产业制定了产业规模目标和企业数量目标,其中北京市于 2023 年 5 月 30 日发布《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023- 2025 年)》与《北京市促进通用人工智能创新发展的若干措施》两项重磅政策,以迅速建设 具有全球广泛影响力的人工智能创新策源地。
算力发展目标明确,将带动 AI 算力的迅速发展。2023 年 10 月,工业和信息化部、中央网信 办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部门联合发布《算力基础 设施高质量发展行动计划》,在计算力、运载力、存储力、应用赋能等方面提出了具体目标, 以进一步加强算力资源配置,提升国内算力总体水平。智算的快速发展,一方面要求智算中 心的建设需要更加合理,要兼顾东西部协同发展和资源的合理利用。另一方面,智能算力更 多的采用 AI 芯片,带来更大带宽的网络传输需求,这些都将显著促进 AI 芯片和网络技术的 研发创新。
2.构建完整的芯片生态系统,“硬件+软件”缺一不可
芯片方面,英伟达通过“CPU+GPU+DPU”三芯布局,数据中心正成长为公司最大业务。CPU 作为 逻辑处理单元,能更好地处理各种需要快速逻辑判断和并行处理能力的计算任务;GPU 侧重对 图像像素进行大规模的数据矩阵运算处理,与 AI 算法的并行结构运算匹配,GPU 在 AI 领域 有着先天优势;DPU 则特别适合处理数据中心和网络设备的需求,能有效处理数据包和协议。 英伟达通过将 CPU、GPU 和 DPU 集成到同一平台上,可以为客户提供更全面、高效的计算解决 方案。公司推出的 Grace Hopper 超级芯片将 Grace 和 Hopper 架构相结合,为加速 AI 和 高性能计算 (HPC) 应用提供 CPU+GPU 相结合的一致内存模型,并在大型服务器上广泛部署。 2021 年及以前,游戏业务营收占比最高,但随着 AGI 引爆算力需求,公司数据中心成长极快。 根据公司 2022 年年报,其数据中心业务营收约 150 亿美元(占比约 56%),已成为公司最大业 务。
GPU 领域深耕数十年,长期占据市场领导地位。1999 年英伟达推出的首个 GPU 架构,开创了 现代显卡的时代,代表产品是 GeForce 256 显卡,此后其架构经历了多次变革迭代,GPU 计 算能力的不断提升,从 2017 到 2022 这五年间,公司先后推出了 Volta、Ampere、Hopper 等 针对高性能计算和 AI 训练的架构,并以此为基础发布了 V100、A100、H100 等高端 GPU。通 过不断的技术革新,英伟达 GPU 产品向量双精度浮点算力已从 7.8TFLOPS 增至 30TFLOPS。根 据 Jon Peddie Research(JPR)报告显示,2023 年 Q1,英伟达 GPU 市场份额达到 84%,Q2 达到 80%,占据市场领导地位。
2022 年 3 月 GTC 2022 大会上,英伟达正式发布了基于 Hopper 架构的面向数据中心的新一 代顶级计算核心 GH100、计算卡 H100。在机器学习及人工智能领域开放产业联盟 MLCommons 公布了最新的 MLPerf 基准评测中,英伟达 H100 Tensor Core GPU 在每次 AI 推理测试中都 展现出最高性能。得益于软件优化,该 GPU 的性能比去年 9 月份首次亮相时提高了 54%,, A100 则是英伟达于 2020 年推出的上一代数据中心专用 GPU,但依然是目前 AI 训练的主流芯 片产品。根据 New Street Research 的数据,英伟达占据了可用于机器学习的图形处理器 市场的 95%。
NVLink 是英伟达自研的高速互连技术,解决了多 GPU 并行计算时内存共享和通信的瓶颈问 题,能有效提升数据中心的整体运算能力。PCIe 是 Intel 主导的高速串行计算机扩展总线标 准,是当前服务器主流的总线解决方案,PCIe 标准迭代周期约为 3 年/代,PCIe 3.0 是目前 消费市场的主流选择,4.0 于 2017 年正式推出,自 2021 年下半年开始在数据中心逐步应用, 并逐渐从企业级市场下沉到消费市场。目前 Intel/AMD 等主流 CPU 厂商正快速推出 PCIe 5.0 产品,用于 AI 的高性能企业级服务器通常采用 PCIe5.0 接口。NVLink 是英伟达自研的高速 接口,可以提供更强大的数据传输能力和更高的吞吐量,能有效缩短数据传输时间,满足当 前针对大数据和复杂运算的高带宽需求。随着 NVIDIA GPU 架构的更新和技术的不断发展, NVLink 的版本也在不断演进,以满足不断增长的计算需求和提供更优秀的性能。
CUDA 架构搭建英伟达软件生态,是英伟达 AI 解决方案的核心优势之一。CUDA(Compute Unified Device Architecture)是由英伟达公司推出的 GPU 加速平台,在推出 CUDA 之前, 程序员想要调用 GPU 的运算资源必须先编写大量底层代码,在开发和调试上需要花费大量的 时间,而 CUDA 提供了易于使用的编程模型和软件环境,允许开发者使用类似于 C/C++的高层 语言进行编程,使得开发者可以借助英伟达的图形处理器(GPU)进行更为高效的并行运算。 经过多年优化,目前 CUDA 已成为全球 AI 基础设施,主流的 AI 框架、库、工具都以 CUDA 为 基础进行开发。国内第一批大模型厂商使用的基本都是英伟达已经构建完善的 CUDA 生态。 即便竞争对手的 GPU 性能的硬件参数上比肩英伟达,如果缺乏 CUDA 的优化,其性能依然无 法达到英伟达 GPU 的水平。
基于其“芯片+ NVLink + CUDA”的生态系统,英伟达稳坐行业龙头地位,产品全面覆盖 AI 场景。公司 20 多年来始终引领 GPU 行业的发展,将 GPU 的主要应用场景从游戏以及画图等 图像显示扩展到了以 AI、云计算等大数据相关的并行计算领域。根据 Jon Peddie Research 发布的 GPU 市场数据统计报告,英伟达 2022 年全年 PCGPU 出货量高达 3034 万块,是 AMD 的近 4.5 倍;截至 2022 年四季度,在独立 GPU 市场,英伟达占据 84%的市场份额,远超同业竞 争公司。
3.华为昇腾软硬件全面布局,构建国产 AI 算力基石
3.1.昇腾生态包括全栈的 AI 计算基础设施、行业应用及服务
昇腾生态包括昇腾系列处理器、系列硬件、CANN 异构计算架构、AI 计算框架、应用使能、开 发工具链、管理运维工具、行业应用及服务等全产业链。 其硬件系统包括: 基于华为达芬奇内核的昇腾系列处理器等多样化 AI 算力; 给予昇腾处理器的系列硬件产品,比如嵌入式模组、板卡、小站、服务器、集群等。 其基础软件体系包括: 异构计算架构 CANN 以及对应的驱动、运行时、加速库、编译器、调试调优工具、开发工 具链 MindStudio 和各种运维管理工具等; AI 计算框架,包括开源的 MindSpore,以及各种业界流行的框架,作为生态的有机组成 部分。同时昇腾计算产业支持各种计算框架的对接。
基于达芬奇架构的昇腾芯片,运算性能优异,可应用于 AI 训练/推理场景。DaVinci 架构是 面向 AI 计算设计的架构,通过独创的 16*16*16 的 3D Cube 设计,每时钟周期可以进行 4096 个 16 位半精度浮点 MAC 计算。同样是完成 4096 次运算,2D 结构需要 64 行*64 列才能计算, 3D Cube 只需要 16*16*16 的结构就能算出,因此在核数与频率确定的情况下,每时钟周期进 行越多的计算则算力指标越高,而 Davinci 架构的 3D 设计实现了这一点。 从性能指标上来看,昇腾 910 半精度 FP16 的运算性能可达 320TFLOPS,整型 INT8 算力可达 640TOPS,英伟达 A100 的 FP16 运算性能为 312TFLOPS。
计算代价大幅缩小,功耗水平明显降低。Davinci 架构的 3D 设计以最小的计算代价增加矩阵 乘的算力,实现更高的 AI 能效。2018 年 10 月华为联合奥迪展示了 L4 级无人驾驶的路测, 汽车上配备了华为的 MDC 车载计算单元,但根据第五届世界互联网大会上前华为公司董事兼 华为企业 BG 总裁阎力大披露,支持 L4 级无人驾驶这样非常复杂的边缘计算场景时,昇腾 310 芯片组仅消耗共计 200 瓦的能耗,相比英伟达系列芯片均有大幅缩减。
HCCS 是华为自研的高速互连接口,可为内核、设备、集群提供系统内存的一致访问,片间带 宽最高可达 480Gbps,是业界主流 CPU 互联速率的 2 倍多,HCCS 单个 AI 处理器提供 3 条链 路能实现最多 4 个鲲鹏 920 处理器互联和最高 256 个物理核的 NUMA 架构。相比于英伟达 NVLink 与 PCIe 5.0,NVLink 单条链路双向带宽最大为 50GB/s,PCIe 5.0 仅为 4GB/s,HCCS 单条链路双向带宽可以达到 20GB/s,HCCS 在单一链路的单向/双向互联带宽上比 PCIe 5.0 更具优势,将有效提升多个 AI 处理器协同训练的能力。
CANN 是华为针对 AI 场景推出的异构计算架构,通过提供多层次的编程接口,支持用户快速 构建基于异腾平台的 AI 应用和业务。CANN 支持端边云全场景协同,支持超过 10 种设备形 态、EMUI、Andriod、openEuler、UOS、Ubuntu、Debian、Suse 等超过 14 种操作系统和多种 AI 计算框架,一套体系支持 CPU、NPU 等架构;
软件生态建设是华为的一大优势。为了帮助 AI 开发者更简单、更高效的开发和使用 AI 技术, 华为推出面向全流程开发工具链 MindStudio。MindStudio 针对算子开发、模型训练、模型推 理、应用开发、应用部署的所有全流程工具链进行整合,为开发者提供工程管理、编译、调 试、运行、性能分析等全流程开发,提高开发效率。
3.2.基于“自研芯片+自研接口+自研软件生态”,华为推出全系列解决方案
供开发者使用的高性能开发板 Atlas 200 DK,Atlas 200 DK 开发者套件(型号 3000)是以 Atlas 200 AI 加速模块(型号 3000)为核心的开发者板形态终端类产品(其中 Atlas 200 AI 加速模块是高性能 AI 计算模块,集成了昇腾 310 AI 处理器,芯片内置 2 个 AI core,可支 持 128 位宽的 LPDDR4X,最大算力为 22TOPS)。
训练卡 Atlas 300 T。Atlas 300 T 训练卡(型号 9000)可以配合服务器为数据中心提供 AI 加速卡,单卡最高可提供 220 TFLOPS FP16 算力。产品具有强算力、高度集成、高速带宽等 特点,可满足大量人工智能训练以及高性能计算领域的算力需求。
推理卡 Atlas 300 I 。Atlas 300I 推理卡采用 4 个昇腾 310AI 处理器的 PCIe HHHL 卡,实 现快速高效的推理计算、图像识别及视频处理等工作,支持多种规格的 H.264、H.265 视频编 解码。
Atlas 800 训练服务器,8 颗昇腾算力芯片+4 颗鲲鹏 CPU。Atlas 800 训练服务器(型号: 9000)是基于华为鲲鹏+昇腾处理器的 AI 训练服务器,具有超强算力密度、超高能效与高速 网络带宽等特点。该服务器广泛应用于深度学习模型开发和训练,适用于智慧城市、智慧医 疗、天文探索、石油勘探等需要大算力的行业领域。
Atlas 800 推理服务器,8 颗昇腾推理卡+2 颗鲲鹏 CPU。Atlas 800 推理服务器 (型号: 3000)是基于昇腾处理器的推理服务器,最大可支持 8 个 Atlas 300I 推理卡,提供强大的 实时推理能力,广泛应用于中心侧 AI 推理场景。
由数千颗昇腾处理器构成的 Atlas 900 AI 集群。Atlas 900 AI 集群由数千颗昇腾处理器构 成,整合 HCCS、 PCIe 4.0 和 100G RoCE 三种高速接口。其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。它可以在 60 秒完成基于 Resnet-50 模型训练,比第 2 名快 15%,这可以让使用者更快的进行 AI 训练,高效地推进预测天气、勘探石油、自动驾 驶等等商用进程。
4.科技巨头纷纷布局算力芯片,AI 浪潮势不可挡
4.1.AMD 的“MI 系列+Infinity Fabric+ROCm 平台”,成为英伟达全球范围内最强 劲的对手
Radeon Instinct 系列是 AMD 专为数据中心和企业市场推出的 GPU 解决方案,旨在支持深度 学习、高性能计算和科学研究等。从 2017 年发布 Radeon Instinct MI6,到如今更新至 Radeon Instinct MI300 系列,采用高性能的 GCN 或 RDNA 架构,支持大规模的并行计算和机器学习 任务。同时支持 ROCm(Radeon Open Compute)平台,以提供开发和部署机器学习模型的工 具和库。
2023 年 AMD 公司推出 Radeon Instinct MI300 系列,正式迈进“百亿亿级计算”时代。AMD Instinct MI300 系列加速器基于 AMD CDNA 3 架构打造,包括 AMD Instinct MI300A APU 加 速器(创新的 AI 和 HPC 工作负载专用 APU)和 AMD Instinct MI300X GPU 加速器,可为 广泛的AI和HPC工作负载提供领先的应用程序性能。随着 AI 工作负载的扩展,AMD Instinct MI300X 加速器提供了采用 UBB 业界标准 OCP 平台设计的普适性解决方案,支持客户将 8 个 GPU 整合为一个性能主导型节点,并且具有全互联式点对点环形设计,单一平台内的 HBM3 显存总计可达到 1.5 TB——提供足以应对各类 AI 或 HPC 工作负载部署的性能密集 型解决方案。 2023 年 6 月,AMD 首席执行官苏姿丰(Lisa Su)在旧金山举行的发布会上表示,MI300X 提 供的 HBM 密度最高是英伟达 Al 芯片 H100 的 2.4 倍,其 HBM 带宽最高是 H100 的 1.6 倍。 MI300X 是针对 LLM 的优化版,拥有 192GB 的 HBM3 内存、5.2TB/秒的带宽和 896GB/秒的 Infinity Fabric 带宽。AMD 将 1530 亿个晶体管集成在共 12 个 5 纳米的小芯片中。 Infinity Fabric 是 AMD 的高速接口技术,用于连接 CPU 和 GPU 内部的不同部分,以及连接 不同的 CPU 和 GPU,理论峰值 P2P I/O 带宽最高可达 896 GB/s,与 NV Link 旗鼓相当。多 达 8 个 Infinity Fabric 链接将 AMD Instinct MI300X 与节点中的第三代 EPYC 处理器和其 他 GPU 相连,以实现统一的 CPU 内存/GPU 显存一致性和系统吞吐量最大化,通过加速器的强 大性能使 CPU 代码更简化。
ROCm 是一个开源项目,支持多种加速器厂商和架构,提供了开放的可移植性和互操作性。作 为一个开源平台,任何 CPU/GPU 供应商都可以利用 ROCm,这意味着用 CUDA 或其他平台编 写的代码可以移植到供应商中立的 HIP 格式,用户可以从那里为 ROCm 平台编译代码。 ROCm 平台针对 AMD 的 Redeon Instinct 系列有优化,并对主流机器学习框架都有所支持。 AMD 将 AI 方案部署到 Radeon Instinct 系列上,使开发者可以使用 ROCm 平台在 Radeon Instinct 系列上实现更加高效和稳定的运行。同时,ROCm 平台提供了对 TensorFlow 和 PyTorch 等主要机器学习框架的原生支持,从优化的 MIOpen 库到全面的 MIVisionX 计算 机视觉和机器智能库、实用程序和应用程序,AMD 与人工智能开放社区广泛合作,以促进和 扩展机器和深度学习功能和优化,从而帮助扩大加速计算所适用的工作负载。
但在生态系统和性能上,ROCm 还和 CUDA 有一定差距。相比于 NVIDIA 的 CUDA,ROCm 的生态 系统相对较弱,且只支持 Linux,同时更新速度较慢,生态不够完善。而在性能上,在大部 分应用场景中,尽管在测试中 MI 系列的理论性能高于 NVIDIA 的加速器,但由于 ROCm 平台 的优化问题,AMD 的程序性能普遍低于 NVIDIA。
4.2.特斯拉自研 Dojo 超算服务器,芯片间高带宽互连为其一大特色
特斯拉自研宏、微架构提高运行效率与可编程性,D1 芯片在算力、互联带宽具有很强的优势。 与 Nvidia,Google 等厂商的计算集群相比,Dojo 在互连、内存访问以及互联和内存访问的 IO 上是对称的,这就使得其具有独一档的 Scale Out(横向拓展)的能力,从而提高系统运 行效率。微架构上,D1 芯片内部核心 Training Node 采用了图灵完备的 SMT + SIMD 设计, 其可编程性有可能会强于英伟达的 Tensor Core 架构和华为的 Cube 架构,并且为每一个 Node 设计了上下左右各 64bit 的片上 NoC 通道,这使得 Node 之间核心堆叠和数据传输的 难度大大降低。D1 芯片采用台积电 7nm 制程,算力达 22.6TFLOPS,总互连带宽可达 16TB/s, 远超英伟达 A100 的 600GB/s、华为昇腾 910 的 90GB/s。其组成的机柜集群 Dojo ExaPOD 算 力在 BF16/FP32 精度下可达到 1.1ExaFLOPs,相当于约 3200 片 A100 的算力,并拥有 1.3TB 的高速 SRAM 和 13TB 的高带宽 DRAM。同时,美国时间 2023 年 8 月 28 日,特斯拉上线了由 1 万片 H100 组成的超级计算机,将用来训练包括 FSD 自动驾驶系统在内的各种 AI 应用。目前, 特斯拉的 AI 训练方向主要为自动驾驶,其硬件 Hardware 4.0 已经搭载自研 FSD 2.0。
特斯拉将加快 Dojo 建设更新,全新版本 Dojo 性能将提升近十倍。据特斯拉 AI 官方账号在 Twitter上披露的算力预期图显示,预计在2024年10月,Dojo整体算力规模达到100EFLOPs, 相当于约 30 万块 A100 的算力总和。在 2022 年 AI Day 上,特斯拉公布了 Dojo 的未来路线 规划,同时宣布公司正在研发全新版本的 Dojo 构建,包括 Dojo D2 芯片、Dojo Training Tile V2、Dip V2 和 DNIC V2。通过硬件研发更新,全新版本 Dojo 超级计算机将在性能上提 升近十倍。马斯克在 Twitter 上曾表示,Dojo V1 主要面向大量的视频数据训练而优化,并 不是面向通用人工智能(AGI),但 Dojo V2 将突破这一点。因此,Dojo 未来有望成为特斯拉 的 AI 支柱,依靠其强大算力,特斯拉拥有的海量数据将充分释放其功能,Dojo 可全方面促 进特斯拉前沿科技领域如自动驾驶、人形机器人、SpaceX 等领域。
自主研发 FSD2.0 芯片推动 HW4.0 更新,助力特斯拉自动驾驶突破。特斯拉在自动驾驶领域 多年来不断探索,处于行业前列,其依赖于 FSD 芯片与 HW 硬件。2023 年 2 月 HW4.0 发布, 其搭载了 FSD2.0 芯片。FSD2.0 芯片的 ARM Cortex-A72 CPU 内核由 12 个增加至 20 个,运行 频率在 1.37GHz-2.35GHz 之间,采用 7nm 工艺,算力预测最多达到 216TOPS,仍低于英伟达 Orin254TOPS。显存方面,特斯拉成为第一个在车载领域用 GDRR 的公司。通过 FSD2.0 芯片 更新升级以及 HW4.0 架构调整,特斯拉自动驾驶有望突破。
4.3.Intel 推出 GPU 系列芯片和 oneAPI 开发平台,完善其 AI 数据中心布局
英特尔在数据中心的布局主要通过优化其至强系列 CPU 与推出数据中心 GPU max 系列和 flax 系列以及对标 DPU 的 IPU 数据接口芯片来实现。在英特尔 2022 年投资者会议上,英特尔 DCAI 公布了 2022 年至 2024 年下一代英特尔®至强产品的路线图。数据中心 GPUmax系列有 max1550 与 max1100 两个系列,其专为 AI 和科学计算领域的数据密集型计算模型提供突破性性能。 在 2021 年 6 月,英特尔首度提出 IPU 的产品概念。IPU 可以释放 CPU 的计算资源,以便于 解决现代工作负载挑战,帮助提升云服务的性能。英特尔 IPU 既有基于 FPGA 的方案,如 Oak Springs Canyon,也有基于 ASIC 的方案,如 Mount Evans。
在软件生态上,英特尔推出了与英伟达的 CUDA 和 AMD 的 ROCm 对标的 oneAPI。oneAPI 是由 英特尔提出的一种开放的、统一的编程模型,它旨在简化在英特尔芯片上进行并行计算的复 杂性。优点是它可以跨 CPU、GPU、FPGA 和其他硬件架构运行。 通过这种方式,一套代码就可以应用于多种硬件平台,实现跨平台的并行计算,大大提高了 开发效率和应用性能,其精简程度对标英伟达 CUDA 架构与 AMD 的 ROCm。
4.4.Google 推出 Cloud TPU 解决方案,更专注于机器学习领域
Google Cloud TPU v5e 专为提供大中型训练与推理所需的成本效益和性能而设计。性能上, TPU v5e 能够平衡性能、灵活性和效率,允许多达 256 个芯片互连,聚合带宽超过 400 Tb/s 和 100 petaOps 的 INT8 性能,更加高的带宽,对于大模型的数据传输非常有利。Cloud TPU v5e 通过基准测试显示,大模型的训练速度提高了 5 倍。在推理指标方面,Cloud TPU v5e 也实现了巨大的提升,能够每秒实时处理 1000 秒的内部语音到文本和情感预测模型。
和英伟达通用型 GPU 相比,谷歌 TPU 更加专注深度学习领域,可加快深度学习运算速度,降 低功耗。英伟达的 A100 和 H100 属于广义上的通用型 GPU,GPU 具有通用计算能力,适用于 高性能计算、深度学习以及大规模数据分析等多种计算工作负载,而不仅仅是深度学习。谷 歌 TPU 采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运 算速度,尤其对于中型 LLM 设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达 A100/H100。同时,TPU 使用了脉动阵列等设计来优化矩阵乘法与卷积运算。
TensorFlow 框架的广泛性、泛用性为 Google 构筑 AI 护城河。TensorFlow 是由 Google 团 队开发的最重要的深度学习框架,也是全世界使用人数最多、社区最为庞大的一个框架。 Tensorflow 灵活的架构可以部署在一个或多个 CPU、GPU 的台式及服务器中,支持多家 NVIDIA、 AMD 等多家厂商的 GPU 加速器,或者使用单一的 API 应用在移动设备中。
Google 以软件优势带动硬件发展,以 TensorFlow 框架助力 Cloud TPU。Google 的 Cloud TPU 系列加速器经过优化,可加速和扩展使用 TensorFlow 编程的特定 ML 工作负载。Cloud TPU 还简化了对 ML 计算资源的计算和管理,可使得 ML 模型加速最优化,并根据需求动态调整 容量;Cloud TPU 的大规模、高集群的 ML 模型已经过多年优化,无需投入专门的能源、冷 却、网络和存储设备等方面的精力、时间和专业知识来进行设计、安装和维护。
4.5.Meta 2020 年推出第一代 MTIA 方案,侧重于处理低/中复杂度模型
作为 Facebook 母公司,META 在 AR/VR 头显全球市场上有明显份额优势,并开发有 Llama 2、 Falcon 40B、Stable Diffusion 等 LLM 模型;为实现差异化竞争、提高公司核心实力,META 在 AI、AR 芯片生态领域持续探索自研,目前已推出 AI 推理定制芯片 MTIA v1、RSC 超算集 群与深度学习框架 Pytorch、Caffe2go 等。 2020 年 Meta 推出第一代 MTIA 全栈解决方案,包括 MTIA 芯片、PyTorch 与推荐模型, 目前侧重于处理低/中复杂度的 AI 模型。其中,加速器采用台积电 7nm 工艺制造,具备 800 MHz 的运行功率,在 INT8、FP16 精度下分别能够提供 102.4 TOPS、51.2 TFLOPS 算力。 MTIA 第一代致力于提高推荐模型效率、应用于广告及其他新闻推送,采用开源芯片架构 RISC-V,功耗仅有 25 瓦,远低于英伟达等主流厂商的芯片产品;在基准测试中第一代 MTIA 芯片处理低/中等复杂度的 AI 模型效率高于 GPU,在这方面相较竞品芯片有明显优势。
根据 Facebook 官网披露,RSC AI 服务器系列由 META 与 Penguin Computing、英伟达、 Pure Storage 合作组装,于 2022 年 1 月首次亮相。目前,RSC 包含 2000 个英伟达 DGX A100 系统和 16000 个英伟达 A100 GPU,能实现近 5 exaflops 的混合精度算力,已用于推 动包括生成式 AI 在内的多领域前沿研究。Meta 将 RSC 应用于训练有 650 亿参数的大语言模 型 LLaMA 并将该模型作为门控版本分享给研究社区,以帮助研究人员在无大量硬件的情况 下对特定任务进行研究、微调。
5.AI 产业带动国内算力数据中心建设,大规模招标陆续启动
AI 产业崛起,国产 AI 芯片和服务器的需求在快速增长。2023 年 11 月 29 日,在 AICC 2023 中国人工智能算力大会上,国际数据公司(IDC)与浪潮信息联合发布《2023-2024 中国人工 智能计算力发展评估报告》。根据报告,2023 年中国 AI 服务器市场规模将达 91 亿美元,同 比增长 82.5%,智能算力规模预计达到 414.1EFLOPS,同比增长 59.3%。在 GPU、CPU 领域, 国产厂商如华为、中科曙光、兆芯、海光等纷纷推出自主研发的芯片产品,打破了国外厂商 在高端芯片市场的垄断。 在算力需求不断增长的大背景下,数据中心的建设也在加速进行。新技术和新应用的快速发 展,如工业互联网、云计算、大数据等,加上 ChatGPT 技术的推广,对数据资源的存储、计 算和应用需求提出了更高要求。国内外的数据中心建设有望迎来一个高峰期。根据《新型数 据中心发展三年行动计划(2021-2023 年)》、《数字中国发展报告(2022 年)》以及共研产业 咨询数据,到 2023 年,我国数据中心机架行业市场规模将达到 750 万架,市场规模预计将达 到 2470.1 亿元人民币。
2023 年 10 月 15 日,中国电信官网披露,AI 算力服务器(2023-2024 年)集中采购项目总计 4157 台,预计采购总额超过 80 亿元,根据评审结果,超聚变、浪潮、新华三等厂商入围, 并显著增加了对训练型服务器的投资。这一采购规模与 2021-2022 年仅采购 1268 台 GPU 型 服务器相比,有显著增长。
具体到各标包的分布,标包 1 和标包 2 均属于 I 系列服务器,包括 2073 台训练型风冷服务 器、125 台训练型液冷服务器和 1182 台 InfiniBand 交换机。而标包 3 和标包 4 则为 G 系列 服务器,分别包括 1048 台训练型风冷服务器和 929 台训练型液冷服务器。 中标厂商主要为国内服务器集成商,为国产芯片导入营造良好的环境。超聚变、浪潮信息、 紫光华山、宁畅、中兴通讯、烽火通信和联想在 I 系列风冷和液冷服务器的投标中各占一席 之地,超聚变在风冷服务器和液冷服务器的中标金额和市场份额中均是第一。另一方面,在 G 系列服务器的标包中,华鲲振宇、昆仑、烽火通信、宝德计算、新华三、湘江鲲鹏、DCN 和 黄河信产等公司均成为中标候选人。
6.重点公司分析
6.1.兴森科技
兴森科技是国内领先的印制电路板(PCB)样板及批量板的设计和制造服务提供商,公司于 2012 年开始涉足 CSP 封装基板领域,是国内 IC 封装基板行业的先行者之一。目前,公司在 薄板加工能力和精细路线能力方面居于国内领先地位,并与国内外主流的芯片厂商、封装厂 建立了合作关系,积极投入 FCBGA 封装基板领域。
6.2.新益昌
新益昌是国内领先的 LED 和半导体固晶机综合解决方案提供商,随近年来 3C 电子产品需求增 加,同时以云计算、大数据、新能源及可穿戴设备等为主的新型应用领域强劲需求下,半导 体市场出现巨大需求。根据 WSTS 预测,2024 年全球半导体销售额预计可回升至 5760 亿美元。 其中,半导体封装环节的重点是固晶及焊线环节,固晶环节对设备的超高精度、定位能力具 有极高的要求,技术壁垒很高,是公司的核心竞争力所在。根据公司 2023 半年报披露,公司 凭借过硬的产品质量和技术创新能力以及配套服务能力,在半导体封装领域为晶导微、灿瑞 科技、扬杰科技、通富微、固锝电子、华天科技等知名公司在内的庞大优质客户群体提供定 制化服务。目前,公司半导体固晶设备近年来客户导入顺利,受到业内认可,业务收入快速 增长,根据公司 12 月 27 日发布的自愿披露订单情况,公司截至 12 月 26 日,固晶机板块在 手订单共计 4.13 亿元。
6.3.天承科技
天承科技成立于 2010 年,主要经营 PCB 所需要的专用电子化学品的研发、生产和销售(功能 湿电子化学品)。PCB 专用电子化学品专用性强、品种多,公司经过多年积累,目前技术已经 涵盖水平沉铜、电镀、垂直沉铜、化学沉锡、去膜、棕化、粗化、微蚀等多个 PCB 制作工艺 流程,技术指标与应用性能达到行业先进水平,能够满足下游厂商对于生产高频高速 PCB、 HDI、多层软板及软硬结合板等高端 PCB 需求,同时公司也解决了触摸屏金属网格沉铜,品牌 知名度较高。
6.4.德邦科技
公司以其在高端电子封装材料研发及产业化领域的专业实力,已被认定为国家级的专精特新 “小巨人”企业,其业务聚焦于集成电路封装材料、智能终端封装材料、新能源应用材料及 高端装备应用材料等四大类别。这些产品广泛用于不同的封装工艺环节和应用场景,如晶圆 加工、芯片级封装、功率器件封装、板级封装、模组及系统集成封装等,在国家集成电路产业基金的重点支持下,已在集成电路封装、智能终端封装、动力电池封装、光伏叠瓦封装等 领域取得显著的技术突破。
6.5.华海诚科
公司是一家专注于半导体封装材料的研发及产业化的国家级专精特新“小巨人”企业,以其在 环氧塑封料领域的显著成就而闻名。在先进封装领域,华海诚科也取得了显著进展。据公司 业绩会披露,其应用于 QN 封装的产品已通过通富微电和长电科技等知名企业的验收,并开 始小批量销售。此外,跟据公司招股书,FC 底填胶等多款产品也已进入小批量生产和销售阶 段,而应用于 FCBGA 的产品和液态塑封材料(LMC)目前正处于客户验证阶段, 2021 年,公司 成为长电科技、华天科技等多家知名封装企业的主要内资供应商。
6.6.英维克
液冷系统是一种先进的散热技术,它通过利用液体的高导热系数,有效提升了散热效率,尤 其在处理高功率、高热量的 AI 服务器和 GPU/CPU 等高性能计算设备时表现卓越。 2005 年创立以来,深圳英维克公司在精密温控节能设备领域持续发展和创新,成为该领域在 国内的技术领导者。最初,该公司专注于为信息和通信行业提供温控解决方案,产品范围涵 盖了通信基站、户外机柜和数据中心节能空调等,根据公司 2020 年报披露,公司与华为、中 兴等行业巨头建立了深入合作关系。2013 年,英维克洞察市场前景,进入储能温控领域,到 2020 年,已牢固占据行业领先地位。2015 年,公司进一步扩张,设立深圳科泰,进军新能源 车空调领域,并于 2018 年收购上海科泰,拓展至轨道交通领域。在不断拓宽温控解决方案的 同时,公司通过构建平台化解决方案,发挥了协同效应,增强了市场竞争力。
6.7.飞荣达
自 1993 年成立以来,公司在电子辅料产品生产领域取得了显著发展。自 2000 年开始,公司 着手开发国际主流品牌的电磁屏蔽和导热材料与相关散热解决方案,逐步扩展其产品线至金 属屏蔽器件、导电布衬垫、导热界面器件等,拓展应用至计算机和手机等高端领域。据公司 公告与 2022 年年报,在通信基站领域,通过与中兴通讯的合作,公司成功开发并试制了 3D VC 技术样机,标志着 5G 基站首次采用这一先进的散热技术。在服务器领域,飞荣达向包括 华为和超聚变在内的多个知名客户提供了一系列散热与电磁屏蔽解决方案和产品。其产品线 涵盖单相和两相液冷模组、轴流风扇以及专门设计的散热器等,以满足客户多样化的散热需 求。 公司不仅拥有华为、中兴、微软等国内外大型企业客户,还成功扩展至 Facebook 和 Google 等全球知名企业。这一广泛的客户基础证明了其产品的实力和市场认可度。飞荣达的优势还 体现在其完整的散热产业链布局上,公司不仅在散热器件和材料领域具有强劲竞争力,而且 上下游一体化的产业链布局进一步增强了公司在整个散热行业的综合竞争优势。随着液冷散 热市场的不断扩大及市场潜力逐步释放,飞荣达有望获得显著的市场机遇。
6.8.思泉新材
思泉新材是一家专注于热管理材料的多元化功能性材料提供商,在电子电气产品稳定性及可 靠性提升方面表现卓越。其主营业务包括研发、生产和销售热管理材料、磁性材料、纳米防 护材料等。作为国内电子电气功能性材料领域的领先高新技术企业,思泉新材在自主研发和 技术创新方面具有显著优势。 公司在行业内获得了多项殊荣和认可,包括“专精特新‘小巨人’企业”称号和“2021 年广 东省专精特新中小企业”。此外,思泉新材还拥有“广东省石墨散热复合材料工程技术研究中 心”和“广东省博士工作站”,并被认定为“2020 年度广东省知识产权示范企业”。至 2022 年底, 公司共拥有 73 项专利,其中包括 22 项发明专利,展现了其在知识产权保护方面的重视和成 效。
6.9.恒铭达
作为专业从事消费电子产品高附加值精密功能性器件的科技企业,公司具备显著的技术研发 优势、丰富的生产经验、创新的生产工艺以及高精密与高品质的产品。公司的能力不仅仅局 限于产品供应,而是涵盖了设计研发、材料选型、产品试制和测试、批量生产、及时配送及 后续跟踪服务等一系列综合解决方案,提供了全方位的客户支持。作为国家高新技术企业, 恒铭达拥有 6 项发明专利和 27 项实用新型专利,这些成就反映了其在自主研发和创新方面 的扎实实力。
6.10.华丰科技
高速连接器,作为现代电子设备间信号传输的关键组件,其设计和功能的优势日益凸显,其 具备的高速传输性、低信号损耗、低串扰性能、高密度设计,能支持高达数百 Gbps 的传输速 度,对于 AI 服务器、GPU&CPU 等高带宽需求的设备来说至关重要。 公司专注于光电连接器和线缆组件的研发、生产和销售,并向客户提供全面的系统解决方案。 华丰科技以技术创新为驱动力,深耕于通讯、防务、工业等多个重要行业。其产品广泛应用 于通讯、航空、航天、船舶、电子设备、核电、新能源汽车、轨道交通等关键领域。
6.11.飞荣达
自 1993 年成立以来,公司在电子辅料产品生产领域取得了显著发展。自 2000 年开始,公司 着手开发国际主流品牌的电磁屏蔽和导热材料与相关散热解决方案,逐步扩展其产品线至金 属屏蔽器件、导电布衬垫、导热界面器件等,拓展应用至计算机和手机等高端领域。据公司 公告与 2022 年年报,在通信基站领域,通过与中兴通讯的合作,公司成功开发并试制了 3D VC 技术样机,标志着 5G 基站首次采用这一先进的散热技术。在服务器领域,飞荣达向包括 华为和超聚变在内的多个知名客户提供了一系列散热与电磁屏蔽解决方案和产品。其产品线 涵盖单相和两相液冷模组、轴流风扇以及专门设计的散热器等,以满足客户多样化的散热需 求。 公司不仅拥有华为、中兴、微软等国内外大型企业客户,还成功扩展至 Facebook 和 Google 等全球知名企业。这一广泛的客户基础证明了其产品的实力和市场认可度。飞荣达的优势还 体现在其完整的散热产业链布局上,公司不仅在散热器件和材料领域具有强劲竞争力,而且 上下游一体化的产业链布局进一步增强了公司在整个散热行业的综合竞争优势。随着液冷散 热市场的不断扩大及市场潜力逐步释放,飞荣达有望获得显著的市场机遇。
6.12.世运电路
世运电路作为国内 PCB 行业的大型先进企业之一,拥有从单面板到 24 层板、金属基板、高密 度互联(HDI)、软板和软硬结合板等多种线路板产品。公司目前正建设“年产 300 万平方米线 路板新建项目”,分三期建设,其中一期项目已于 2022 年投产。预计该项目全部达产后,公 司整体产能将增加至 700 万平方米,为公司未来在新能源汽车、光伏储能和人工智能等领域 的技术市场转型提供强大的产能支持。
6.13.方正科技:
方正科技成立于 1993 年,目前已经成为国内首屈一指的集 PCB 产品研发、生产、制造和销售 的龙头企业。公司业务涵盖 PCB 元器件——高速宽带接入——多垂直行业解决方案,致力于 利用云计算、大数据分析等前沿技术为智慧城市建设提供从顶层设计到垂直行业软硬件解决 方案。公司 PCB 产品客户主要集中在通信设备、通讯终端、IT 产品、工业医疗、汽车电子、 消费电子等领域。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
电子行业专题报告:AI浪潮势不可挡,昇腾发力铸造国产算力基石.pdf
经纬恒润研究报告:汽车电子五域技术为基,攀登中央计算之巅.pdf
盛弘股份研究报告:电力电子尖兵,谋远终迎盛放.pdf
电子产品相关知识培训.docx
TCL电子研究报告:智屏+互联网+创新三驾马车,股权激励开启新篇章.pdf
电子行业企业管理-保险公估人年(电子习题).docx
AI人脸识别诈骗敲响金融安全警钟.pdf
AI搜索专题报告:怎么看Kimi的空间?.pdf
边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf
人形机器人专题报告:AI驱动,未来已来.pdf
建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf