01 全面对标英伟达,开启国产自主可控新征程
全球龙头英伟达业绩持续高度景气,印证全球AI产业趋势
英伟达二季度业绩持续超预期,印证AI景气度:美东时间8月23日,英伟达公布2024财年第二财季季报。二季度营收135.07亿美元,同 比增长101%,远超市场预期的指引区间107.8亿到112.2亿美元,相较于华尔街预期水平高22%-29%以上。业绩指引方面,英伟达预计, 本季度、即2024财年第三财季营业收入为160亿美元,正负浮动2%,相当于指引范围在156.8亿到163.2亿美元之间。以160亿美元计 算,英伟达预期三季度营收将同比增长170%,连续两个季度翻倍增长,高于市场预期。
AI芯片所在业务同环比均翻倍激增较市场预期高近30%,游戏业务同比重回增长: AI对英伟达业绩的贡献突出。包括AI显卡在内的英伟 达核心业务数据中心同样收入翻倍激增,二季度数据中心营业收入为103.2亿美元,同比增长171%,环比增长141%;二季度游戏营收 24.9亿美元,同比增长22%,环比增长11%,英伟达称,数据中心收入主要来自云服务商和大型消费类互联网公司。基于Hopper和A mpere 架构GPU的英伟达HGX平台之所以强劲需求,主要源于开发生成式AI和大语言模型的推动。
英伟达三大AI法宝:高性能芯片,其中IC设计是重点
全球高端GPU领导者,经数十代产品迭代,技术指标全面升级。从2011年英伟达推出Tesla M2090数据中心GPU,到2022年H100、 L40等型号产品,多项核心技术指标大幅提升。其中,CUDA作为GPU内部主要的计算单元,从512个升级到超14000个;芯片工艺尺 寸也从40nm降至4nm;单精度浮点算力从1332GFLOPS增至超50TFLOPS。GPU产品性能整体大幅跃升。
推出Grace系列,加速大型 AI、HPC、云和超大规模工作负载。2022年公司发布首款CPU产品Grace,用于高性能计算和云计算。 Grace CPU超级芯片采用NVLink®-C2C 技术,可提供 144 个 Arm®Neoverse V2 核心和 1 TB/s 的内存带宽,每瓦性能是当今领先 CPU的 2 倍。此外,公司还推出的Grace Hopper超级芯片将 Grace 和 Hopper 架构相结合,为加速 AI 和高性能计算 (HPC) 应用提供 CPU+GPU 相结合的一致内存模型。
2023年,英伟达发布多款AI超算产品,助力全球生态:其中包括DGX服务器、DGX GH200 AI超级计算机、AI foundations云服务等产 品,其中DGX GH AI超级计算机由NVIDIA GH200 Grace Hopper超级芯片和NVIDIA NVLink Switch System驱动,相比上一代将 NVLink带宽提升了48倍以上。
英伟达三大AI法宝: Nvlink、NVSwitch助力芯片快速互联互通
速度更快、可扩展性更强的互连已成为当前的迫切需求: AI和高性能计算领域的计算需求不断增长,对于能够在每个GPU之间实现无缝 高速通信的多节点、多GPU系统的需求也在与日俱增。要打造功能强大且能够满足业务速度需求的端到端计算平台,可扩展的快速互 连必不可少。简而言之,随着模型复杂程度增加,单张GPU无法完成训练任务,需要联合多张GPU,乃至多台服务器搭建集群协同工 作,并需要GPU之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。
英伟达推出NVLink技术代替传统的PCIe技术:第四代NVIDIA® NVLink® 技术可为多GPU系统配置提供高于以往1.5倍的带宽,以及增 强的可扩展性。单个 NVIDIA H100 Tensor Core GPU 支持多达18个NVLink 连接,总带宽为900GB/s,是PCIe 5.0带宽的7倍。NVIDIA DGX™ H100等服务器可利用这项技术来提高可扩展性,进而实现超快速的深度学习训练。
NVSwitch与Nvlink协同互联,助力英伟达高速通信能力构建: NVSwitch是一种高速交换机技术,可以将多个 GPU 和 CPU 直接连接起 来,形成一个高性能计算系统。每个NVSwitch都有 64 个 NVLink 端口,并配有 NVIDIA SHARP™ 引擎,可用于网络内归约和组播加 速。
国产芯片之光:华为海思鲲鹏CPU
鲲鹏包括服务器和PC机芯片: 芯片端——鲲鹏920面向数据中心,主打低功耗强性能。鲲鹏处理器是华为自主研发的基于ARM架构的企业级系列处理器产品,包含 “算、存、传、管、智”五个产品系统体系。规格方面,鲲鹏920可以支持64个内核,主频可达2.6GHz,集成8通道DDR4,集成 100G RoCE以太网卡。与此同时,鲲鹏920支持PCIe4.0及CCIX接口,可提供640Gbps总带宽。根据华为云官微,华为表示鲲鹏920大 部分性能提升来自优化的分支预测算法和增加的OP单元数量,以及改进的内存子系统架构。 服务器端——打造TaiShan服务器,实现高效能计算。华为还推出基于鲲鹏920的三款ARM TaiShan200 服务器,新服务器专为高性 能、高效率场景而设计,主要应用于大数据、分布式存储、ARM原生应用等场景。 构建自主生态,打造国产算力。目前,华为正基于“硬件开放、软件开源、使能伙伴、发展人才”的策略推动鲲鹏计算产业的发展。
华为昇腾芯片,统一达芬奇架构助力AI计算引擎
昇腾AI芯片的计算核心主要由AI Core构成: AI Core采用了达芬奇架构,它包括了三种基础计算资源,矩阵计算单元、向量计算单元和 标量计算单元。这三种计算单元分别对应了张量、向量和标量三种常见的计算模式,在实际的计算过程中各司其职,形成了三条独立的 执行流水线,在系统软件的统一调度下互相配合达到优化的计算效率,AI Core中的矩阵计算单元目前可以支持INT8、INT4和FP16的计 算;向量计算单元目前可以支持FP16和FP32的计算。我们认为本质上讲昇腾芯片属于专为AI而生的特定域架构芯片。
存储转换单元(MTE)是达芬奇架构的特色:比如通用GPU要通过矩阵计算来实现卷积,首先要通过Im2Col的方法把输入的网络和特征 数据重新以一定的格式排列起来,通用GPU通过软件实现,效率较为低下,达芬奇架构采用了一个专用的存储转换单元来完成此过程, 可以在较短的时间之内完成整个转置过程,定制化电路模块的设计可以提升AI Core的执行效率,从而能够实现不间断的卷积计算。
算力为底,携手基础软硬件创新,开启国产AI生态
华为全联接大会2023期间,华为计算产品线总裁张熙伟发表《算力为基,共筑AI新生态》主题演讲,他表示:华为将深耕算力底座,聚焦鲲 鹏、昇腾基础软硬件创新,携手伙伴与开发者,打造开放、易用平台,使能百模千态,共赢数智未来。 全面开放,灵活选择使能大模型创新:昇腾提供丰富的融合算子,如主流的FlashAttention、FFN等,可在昇腾上实现性能倍级提升;其次, 昇腾已全面支持PyTorch、飞桨、昇思等业界框架,同时PyTorch社区也在持续增强对昇腾的支持。在加速库与开发套件上,除了兼容业界主 流的DeepSpeed、Megatron外,昇腾自主构建了大模型加速库AscendSpeed,提供丰富的大模型训练并行能力。同时,HuggingFace社区 最新的Transformers、Accelerate等代码仓也已原生支持昇腾。模型层面上,目前已有50+主流的基础大模型基于昇腾训练迭代。深度开放,使能开发者构筑差异化竞争力:算子和加速库是决定大模型训练与推理性能的关键,为支撑开发者孵化出更高性能的自定义算子、 加速库,华为新增开放底层运行时,开发者可直接使用NPU上的核资源、控制流、任务调度等接口,原生构建差异化竞争力,各类接口将于 年底前陆续开放。在编程上,今年5月华为发布的Ascend C编程语言,简化开发逻辑,匹配开发习惯。
02 华为领衔演绎国产AI计算生态崛起
集成电路产业突围:外部限制增多,国产突围势在必行
我们认为华为AI计算产业的核心在于芯片的自主可控,其中以鲲鹏和昇腾为主导的海思芯片尤为重要,因此国产集成电路产业突围尤为重要。 我国集成电路发展迅速,需求量较高,产业重要性不可忽视:根据中国半导体行业协会显示,2017年至2021年,中国集成电路产业销售额 呈逐年上升的趋势,2021年首次突破万亿,为10458.3亿元,较上年增长18.20%。产业链上游为集成电路设计环节包括半导体设备、IP以 及EDA等,中游包括IC设计、IC制造、IC封测等,下游应用包含消费电子、人工智能、航空航天、新能源、5G等。产业链下游应用领域中涵 盖大量新兴产业,以至于发展集成电路产业已上升为国家战略的高度,成为我国技术发展的核心。 国外制裁持续封锁我国技术发展,国家技术发展政策落地,国产突围势在必行:2016年至今,美国出台一系列针对中国芯片行业的限制措施, 持续加码对中国的技术封锁。包括对华为及其70多家关联企业实施出口管制、限制购买ASML的目前最先进的芯片制造设备EUV等。为推进 自主可控,近年我国发布了众多集成电路中央政策。今年9月,四部门发布《关于提高集成电路和工业母机企业研发费用加计扣除比例的公 告》,提高企业研发费用税前扣除比例,增厚企业利润,鼓励集成电路产业发展。
EDA软件:EDA被誉为“芯片之母”,撬动万亿集成电路市场
EDA(Electronic Design Automation,电子设计自动化):被誉为“芯片之母”。是指用于辅助完成大规模集成电路芯片整个工艺流程的 计算机软件工具集群。尤其对于设计与制造流程,EDA可谓举足轻重。 芯片设计类EDA软件:提高设计效率和精度。根据处理的信号不同,可分为数字芯片设计类EDA软件和模拟芯片设计类EDA软件。1)数字 芯片设计类EDA软件:主要用于数字芯片设计环节,包括架构设计、RTL(Register Transfer Level,寄存器传输级)编码、物理验证等工 具。2)模拟芯片设计类EDA软件:相比较而言,模拟芯片设计的自动化程度低于数字芯片设计。主要包括用于电路设计、仿真验证、版图 设计、寄生参数提取等环节的工具。 芯片制造类EDA软件:优化制造流程,提高量产良率。主要指晶圆厂在工艺平台开发阶段和晶圆生产阶段使用的,用于支撑其完成半导体器 件/制造工艺开发、器件建模和PDK等环节。
光刻:芯片性能的基石,正处于打破垄断“从0到1”的长征路
光刻机行业处于供不应求,且寡头垄断的格局内,加速国产替代速度:由于一些技术限制,尤其高端光刻机技术受制于国外供应商。根据智 研咨询数据显示,2022年中国光刻机产量约为95台,而需求量为652台。供求远低于需求。且按营收来看,光刻机市场份额已被尼康、佳能 和阿斯麦国外企业垄断。 加速国产替代进程,已然取得重大突破,中国光刻机产业正处于从“0”到“1”的长征路上: 今年2月,哈尔滨工业大学,公布“高速超精密激光干涉仪”研发成果,是一项可以用于7nm及以下的技术。 首台28nm国产机有望年底交付:据新华网援引《证券日报》消息称,上海微电子在28nm浸没式光刻机的研发上取得重大突破,预计在 2023年年底向市场交付国产的第一台SSA/800-10W光刻机设备。
服务器:从信创到AI,国产服务器需求火爆
信创需求逐渐回暖,招标启动带来业绩释放,华为昇腾+鲲鹏服务器有望大放异彩:金融信创需求高增,2023年7月13日,中信银行股份有 限公司发布《通用基础设施集成商入围采购项目》招标公告,招标金额共计65亿元,其中ARM芯片服务器预计采购金额为34.01亿元,C86 芯片服务器预计采购金额为10.20亿元,此外还包括数据中心级别交换路由、防火墙设备等重要基础设施,可以看出ARM芯片服务器占据了 大部分的招标总额。我们判断,下半年有望进入信创订单释放期。
运营商信创需求同样火爆:根据C114讯消息,中国电信AI算力服务器(2023-2024年)集中采购项已批准,公告显示,本项分为4个标包, 分别为训练型风冷服务器(I系列)、训练型液冷服务器(I系列)、训练型风冷服务器(G系列)、训练型液冷服务器(G系列)。预估采购 规模为4175台,I系列配套InfiniBand交换机1182台。其中G系列为国产服务器,从占比来看,国产G系列占比大约为50%。我们判断,信创 国产服务器占运营商招标比重正逐年增加,此外,我们判断相关运营商信创招标有望落地加速。
算力组网:华为AI能力的提升,有望带动相关产品快速放量
我国正处于处于智算中心建设的加速期,信创与AI双轮驱动,华为相关产品有望加速放量:我国相关AI应用目前已有雏形。此外,在我国AIGC 短期应用爆发的趋势下,算力建设同样也是印证本轮景气度的先行指标,目前我国正处于从“智算”到“超算”跨越的新时代,我国正处于 智能算力建设的加速期。我们认为在AI+信创大背景下,华为有望凭借生态优势和产品优势,其相关AI产品有望快速放量。
华为领衔演绎国产AI崛起,构筑世界AI算力第二选择:我们认为华为发布相关全新产品, 例如Atlas 900 SuperCluster、星河AI网络解决方 案、华为星河AI智算交换机、知识库存储OceanStor A800等全新产品,其本质上是打造大算力,大存力,大运力的解决方案,有望打造领 先的AI大模型训练集群。而从数据中心架构或是组网能力上来看,其算力核心依旧围绕核心三大部分硬件产品,分别是算力服务器、交换机 等产品,其中,我们判断以昇腾服务器凭借高性能、高参数与HCCS互联互通形式有望在智算中心建设的加速期快速放量,有望带动华为交 换机等产品的放量,而昇腾服务器与华为交换机产品的放量,有望带动国产光模块的放量。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
AIGC行业专题报告:华为算力分拆,全球AI算力的第二极.pdf
中科创达研究报告:全球领先智能操作系统提供商迎终端AI机遇.pdf
澜起科技研究报告:DDR5渗透提速,AI助力互联新品持续发力.pdf
传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf
Astera Labs公司研究:数据中心连接方案独角兽,产品受益于AI服务器强劲需求.pdf
业务视角的中国企业AI+学习发展报告,燃动智火.pdf