【中信证券】科技行业前瞻研究系列报告99:从英伟达看国产GPU发展机遇与挑战.pdf

2022-09-16
38页
2MB

报告缘起


市场需求:AI、高性能计算、图形渲染等推动 GPU 等并行计算芯片需求


需求场景:AI 训练&推理、复杂科学计算、大规模图形渲染等,持续推动并行计算芯 片需求。由于 GPU(Graphics Processing Uni,图形处理器)是由成百上千个阵列排布的 运算单元 ALU 组成,使得 GPU 更适用于大规模并发运算,其在图形处理、计算加速等领 域有着广泛的运用。2)由于 GPU 加速器强大的并行处理能力,超算中心工作人员可以更 好地设计深度网络结构,使得其在超算领域&数据中心领域更具经济效益,导致 GPU 在 AI 训练&推理、科学计算等领域有着广泛的应用。


GPU 用于 AI 训练&AI 推理领域。在典型 AI 模型卷积网络中,大量数据以图片形 式导入,在进行运算过程中,数据均为矩阵形式,而矩阵运算通常适合并行,因 此 AI 算法的特性,使得 GPU 的运算速度明显大于 CPU,使得 GPU 得以大量应 用在 AI 的训练与推理当中。


GPU 可用于复杂科学计算中。科学计算将物理、化学、生物、航空航天等领域 的问题转化为数学模型,通过计算和求解模型用于实际产业。从计算数据来看, 由于科学计算中所用数据多数以矩阵为形式,同时由于科学计算对误差有强制要 求,因此在运算中需要在并行运算基础上保证一定的精度。而现代 GPU 在并行& 矩阵运算的基础上,已经能够满足科学计算所需的精度要求。


近些年来,随着人工智能软件算法的发展,复杂科学计算的进步,以及图形渲染功能 的增加,带动底层芯片并行计算能力需求的快速提升。以全球 AI 芯片领军者英伟达的发展 状况来看,公司 AI 芯片算力由 2012 年的 4Tops 提升至 2021 年的 1248Tops,9 年时间提 升了约 315 倍。


AI 框架、并行计算框架等引入&丰富,不断推动针对并行计算芯片软件开发门槛降低。 1)从人工智能软件算法框架的发展历史来看,2015 年谷歌宣布开源 TensorFlow,2019 年 PFN 宣布将研究方向由 Chainer 转向 PyTorch。目前 AI 框架形成了 TensorFlow 和PyTorch 双寡头垄断的竞争格局。其中,谷歌开源 TensorFlow 项目,在很大程度上降低 了人工智能的开发门槛和难度。2)TensorFlow 主要用于处理机器学习中的计算机视觉、 推荐系统和自然语言处理(NLP)的模型训练和推理,涉及模型隐藏层相对较多,模型量 相对较大,基本上均需要 CUDA 的加速处理。随着 TensorFlow 的开源,涉及到的开发开 发者快速增加,CUDA 软件下载量也呈现陡增趋势。据英伟达在 2021GTC 大会上宣布, 截至 2020 年底,CUDA 累计下载量超过 2000 万次,其中 2020 年下载量超过 600 万次。 涉及到的开发人员约 230 万人(2020 年新增超过 60 万人)。


算法丰富、算法复杂度提升等,亦成为市场需求的重要驱动力。1)如前所述,过去 9 年,AI 芯片的算力大幅提升,也带动 AI 算法模型参数的大幅增加。从 Alexnet、ResNet 开始,到 BERT 网络模型,参数量已超过 3 亿规模,随后 GPT-3 模型超过百亿,Switch Transformer 的问世还一举突破万亿规模。2)英伟达 2020 年发布的 Megatron-LM 模型, 参数量达到了 83 亿,相比于在 2018 年以参数量震惊世界的 BERT 模型又提升了 5 倍。 模型体积几何倍数的增长也带了更多数据中心侧的需求,只有依靠上千块 GPU 并行运算 才能在以天为单位的训练时长中完成对 Transformer 模型的训练。


2021 年,全球数据中心逻辑计算芯片市场规模高达 436 亿美元。1)在过去数年,全 球数据中心芯片市场保持高速增长,由 2012 的 122 亿美元增长至 2021 的 436 亿美元, 符合增长率约 15%。2)从市占率来看,早期英特尔和 Altera 几乎垄断数据中心约市场份 额,伴随着 AMD 和英伟达产品矩阵的增加,AMD 和英伟达在数据中心领域中的的市占率 不断提升。截至 2022Q2,英特尔全球数据中心芯片市占率约 41.5%、英伟达市占率为 34.0%、AMD 市占率为 24.5%。


英伟达历史借鉴:产品技术、软件生态等构筑 GPU 核心壁垒


近期,英伟达最新两则公告,导致市场对国产 GPU 的关注度提升。1)8 月 31 日, 英伟达发布公告称:(a)8 月 26 日,美国政府对英伟达未来出口到中国(包括香港)和俄罗 斯的 A100 和即将推出的 H100 芯片实施了新的许可证要求,该许可立即生效。新的许可 证要求将解决涉及的产品可能用于或转移到中国和俄罗斯的“军事最终用途”或“军事最 终用户”的风险。(b)该许可涉及到的芯片主要包括:英伟达 A100 和即将出货的 H100 两款芯片、基于 A100/H100 打造的 DGX 产品、以及未来实现峰值性能和芯片对芯片 I/O 性能均等于或大于大致相当于 A100 的阈值的任何 NVIDIA 芯片。目前来看,美国政府对 中国以及俄罗斯出口限制的主要是针对数据中心的高端独立 GPU 芯片及相关产品。(c) 公司于 2022 年 8 月 24 日提供的 FY2023Q3 展望(对应 CY2022 年 8 月-CY2022 年 10 月),其中有对中国大约 4 亿美元的潜在销售可能会受到新的许可证要求的限制。2)9 月 1 日,公司发布公告称,公司已美国政府新的授权审批,具体内容包括:(a)美国政府已 批准英伟达继续开发 H100 芯片所需要的出口、在出口和国内转移。(b)允许英伟达在 2023 年 3 月 1 日前,为 A100 的美国客户提供所需的出口支持。目前,公司 A100 的美国客户 包括戴尔、思科等服务器设备厂商,以及终端客户亚马逊、谷歌等。(c)美国政府授权 A100 和 H100,在 2023 年 9 月 1 日之前通过英伟达在中国香港的工厂履行订单和物流。(d) 美国政府放宽许可授权的主要原因是,A100 的部分开发工作是依赖 中国工程师&中国运营部门进行。若 A100 无法完成开发,对英伟达的业绩影响相对较大。


英伟达图形渲染领域:保持稳定、高频技术迭代,不断实现技术领先,例如 RTX&DLSS 等技术,并和开发者、应用厂商构成稳固的合作同盟。1)2020 年安培架构产品中,RTX 技术升级到第二代,并逐步向第三代 Tensor Core 技术推进,带动 RTX 系列显卡图像运算 能力的全面提升,而 DLSS、Reflex 等能力带动游戏体验的提升,DLSS 2.0 将 FPS 提升 近 30,Reflex 降低 50%的游戏延迟。对于超大型以及精品游戏的运行,大幅提升体验能 力。对于大型 3A 游戏,在高画质条件下需满足 45-90FPS,电竞场景下需要 120-140FPS。 在 GTX 的传统产品线中,开启 RT(光线追踪)之后,游戏帧数从 60 掉至不足 30 帧。但 在 RTX 产品中,可提升至 90FPS 以上。2)鉴于英伟达 GPU 在软件领域的优势显著,公 司 PC 用独显 GPU ASP 亦显著高于竞争对手 AMD。2016 年,英伟达 PC 用独显 GPU ASP 为 81.3 美元/个,AMD 对应 ASP 为 31.0 美元/个。2021 年,英伟达 PC 用独显 GPU ASP 为 163.2 美元/个,AMD 对应 ASP 为 86.6 美元/个。


英伟达数据中心领域:借助 CUDA 实现 GPU 从图形显示到通用计算的跨越,以及产 业生态壁垒的构建,并借助 DSA、NVlink 等架构创新、优化等实现持续性能领先。1)沿 着技术层面的核心差异,我们按照训练&推理、边缘&数据中心两个维度,梳理目前全球主 要的 AI 芯片参与者,整体而言,相较于全球其他主要竞争对手,英伟达在产品完整度、存 量市场份额等层面实现领先,同时我们判断这种领先优势长周期亦将大概率维持。2)从 公司的软件生态布局来看,英伟达构建了从底层到上游细分领域的应用开发软件,可大幅 降低开发者的开发周期。


产品丰富度&技术竞争力:英伟达系统级产品布局、在训练环节的突出表现&领 先优势已基本成为市场的共识,而在推理领域,伴随新一代安培架构、Hopper 架构的升级,以及由此实现的训练、推理的统一,以及对稀疏矩阵运算问题的良 好支持,目前在推理方面,英伟达最新的 A100 芯片的 Int 8 Tops 已经达到 1248, 较上一代提升超过 5X。同时在训练环节,根据 Mlperf 的评测,在图像识别、对 话式 AI、推荐系统等多个模型的对比评测中,英伟达芯片训练性能全面领先华为、 谷歌等主要竞争对手。基于技术层面的全面分析,我们判断英伟达有望在企业对 外服务(训练、推理)、企业内部服务(训练)环节保持持续领先,但在企业内 部服务(推理)仍面临延迟、功耗等层面的明显短板。而我们看到,英伟达在数 据中心市场的产品迭代节奏继续延续既有的习惯,即继续保持对芯片性能的狂热 追逐,以及每两年升级一次产品(CPU、DPU、GPU)的频率。


英伟达基于 CUDA 构建了丰富的软件生态,显著提升 GPU 的易用性。从软件技 术分类来看,公司在软件领域中的产品布局主要分为:基础架构、游戏与娱乐、 应用工具、应用框架四大部分。具体内容如下:(a)在基础架构方面,公司软件 产品主要围绕 AI&通用能力布局。其中 AI 主要包括边缘 AI、AI 垂直领域解决方 案、AI 推理等;通用领域则围绕 IO 传输、vGPU 等。(b)在游戏娱乐方面,公 司的产品布局主要包括 Geforce 云游戏平台、直播领域的 Broadcast App 和元宇 宙领域中的 Omniverse Machinima;(c)在应用工具方面,公司可面向不同的应 用场景(AI、数据分析、元宇宙等领域),提供不同的开发工具。如:在 AI 领域, 可提供加速 AI 部署与工作流程的 NGC 产品;在元宇宙领域,可提供 3D 虚拟协 作的 Omniverse 产品。(d)在具体应用框架方面,主要凭借公司 AI 与数据分析 能力,在自动驾驶、视频分析、推荐系统等各垂直领域提供具体应用框架,帮助 提高各行业运营效率。


小结:伴随 AI、高性能计算、大规模图形渲染等应用场景的不断拓展和丰富,市场对 大算力并行计算芯片的需求快速增长,截止目前,全球数据中心领域逻辑芯片市场规模已 经超过 400 亿美元。同时近期市场对国产 GPU 领域的关注度提升。基于英伟达的历史复 盘,可以看出公司在图形渲染&数据中心领域保持较高的市占率,并实现产业引领。我们 认为核心原因在于:借助持续、高频迭代保持产品技术行业领先,并借助 CUDA 等实现软 件生态构建,不断提升产品易用性等。GPU 作为大算力并行计算芯片领域最为可行的承载 者,在本篇报告中,我们将从全球市场出发,就 GPU 产业本身的产品特性、技术路线、 市场空间,以及国内市场现状、演进路径、竞争格局等展开系统的分析和讨论,力图针对 国内 GPU 市场构建一个完整的产业&投资蓝图。


全球 GPU 市场:并行计算理想载体芯片,数据中心为中期需求增长主要场景


GPU:通用并行计算理想载体芯片,从图形处理向 AI、高性能计算等领域 扩展


GPU 定义:图形处理器,但承载功能已在早期定义上明显泛化。1)发展早期,更多称为图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电 脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运 算工作的微处理器。2)由于计算机只能识别二进制数字,因此在进行图形运算时,要把 图片转换成计算机能够理解的二级制数组(见下图图示),因此 GPU 在进行运算时,所针 对的都是矩阵数据,因此 GPU 的大部分计算是并行的。这意味着 GPU 更加适合并行计算 与矩阵运算。


GPU 应用场景:由早期的图形渲染,逐步拓展至高性能运算、科学计算等领域,GPU 是通用并行计算的理想载体。1)由于计算机以及图形运算的特性,GPU 所进行的运算多 数为矩阵运算、并行运算,这些特征使得 GPU 更加适合当前以 AI 为代表的高性能计算、 科学计算等领域,GPU 的使用范围也由早期的图形渲染领域,逐步拓展至高性能运算&科 学运算领域。2)与其他逻辑计算芯片相比,GPU 在通用性、计算速度、规模化部署经济 性等核心指标上面,能够做到较好的平衡,因此在目前 AI、复杂科学计算等并行计算领域, 逐步形成了 GPU 主导,FPGA、ASIC、CPU 为辅的稳定局面。


CPU:适合处理复杂的串行计算和逻辑控制,并行运算性能显著弱于 GPU。由 于功能与设计架构的不同,CPU 与 GPU 的计算能力也存在差异,CPU 的架构 使得其适合流水线式的串行计算与复杂计算,而 GPU 的架构使得其适合运算逻 辑简单但可以同步进行的并行计算。因此在参数上,我们会看到 CPU 具有更高 的频率与缓存,而 GPU 具备更多的核心。


FPGA:灵活性突出,但易用性、计算速度、经济性较 GPU 欠佳。FPGA 是一 种偏向于硬件的可编程芯片,FPGA 中使用了大量逻辑门(数字电路中的基础部 件,通过电压高低以及组合,将输入的命令转化为 0 或 1),建立真值表(输入 不同代码,输出不同结果的查询表),通过可编程逻辑布线(可以理解为电路开 关,编程即是对开关调整,实现门之间的电路组合)来实现算法。由于直接对硬 件编程,相较于 GPU 的平均计算效率与可编程性更高,但由于需要直接对硬件 进行编程以及较高的成本(为满足编程要求通常晶体管冗余设计),通用性、大 规模部署成本以及最高计算能力不如 GPU。


ASIC:特定场景性能最优,但通用性不足。ASIC 芯片是针对某一特定场景所研 制的专用芯片,优势在于运算效率极高、部署成本较低。但对于实际应用而言,如果算法出现迭代升级或数据结构发生改变,ASIC 的效率将会大幅下降,因此 相较于 GPU 而言,ASIC 更多用于挖矿、音视频解码等专用场景。因此 ASIC 的 平均算力会更强,但在通用场景下以及最高运算能力上,GPU 优势更大。


小结:整体而言,正是基于 GPU 本身的优异特性,以及英伟达等企业在芯片架构、 软件生态等层面的不断努力,叠加 AI、高性能计算、大规模图形渲染等应用场景的快速崛 起,GPU 逐步成为全球大算力并行计算领域的主导者。而在产品端,我们也总结发现, GPU 厂商亦结合下游的应用场景,在一个大的体系结构下,针对计算单元、缓存、总线带 宽等技术点的优化和组合。在下文内容中,我们主要讨论当下最主流的应用场景&产品: 用于游戏等场景中图形渲染的显卡,以及用于数据中心 AI、高性能计算等场景的 GPGPU (通用计算 GPU)。


图形渲染:游戏为主,中期有望保持 10%~15%平稳增长


目前在图形渲染领域,游戏画面渲染为主要应用场景,同时亦包括图形工作站等场景, 独立显卡为主要硬件载体。IDC 数据显示,目前全球独立显卡出货量,近 5 年稳定在 8000-9300 万部。按独立显卡的类型划分,其中台式机用独立显卡比例约 40%-53%,笔 记本&工作站独立显卡比例约 47%-60%。按照品牌商来看,英伟达独立显卡近 5 年市占率 一直稳步提升,市占率由 2018 年的 58.8%提升至 2021 年的 74.3%,AMD 市占率由 2018 年的 31%降低至 2021 年的 19%。


市场规模判断:预计 2025、2030 年将分别达到 278、568 亿美元。2021 年,英伟达 游戏显卡业务实现销售收入 105 亿美元,专业视觉收入(图形工作站)21 亿美元。我们 假设英伟达在全球游戏显卡领域收入占比 80%,专业视觉领域收入占比 80%,则 2021 年, 在图形渲染(含游戏、专业视觉等)领域,全球 GPU 市场规模为 158 亿美元。同时为了 测算该领域中期市场规模,我们作出如下简化假设:1)假设图形渲染领域,中期应用场 景仍主要由游戏画面渲染、专业视觉构成,其他长尾场景忽略;2)显卡 ASP,参考英伟 达产品价格走势,考虑到产品性能、制造成本等因素,预计显卡 ASP 年复合增速在 10%~15% 之间,取中位值 12.5%;3)游戏用户,疫情期间,全球高端游戏玩家出现大幅增长(预 计增幅 1 亿人),中期预计保持平稳增长,每年增速 0~5%,取中位值 2.5%;4)假设专 业视觉的市场规模占游戏比例维持在 20%左右。综合上述假设,中性情形下,我们预计全 球 GPU(图形渲染)在 2025、2030 年的市场规模有望分别达到 278、568 亿美元。


数据中心:AI&高性能计算等,预计中期保持 25%以上年均复合增速


市场格局:英伟达 GPU 在 AI 训练、高性能计算领域占据主导地位。作为图形渲染之 后另一主要应用场景,目前客户主要通过在数据中心部署英伟达、AMD 的 GPU 芯片,实 现 AI 训练、高性能计算等,同时辅以自研加速卡等,服务于特定场景的 AI 训练、推理等。 1)根据 Liftr Insights 数据显示,2021Q1,在全球 TOP 云厂商数据中心 AI 加速芯片市场, 英伟达份额占比为 78%,近年来基本稳定在 80%附近,市场领先地位稳固。同时根据 Lifter 2019 年 5 月的数据显示,全球四大云计算平台阿里云、AWS、Azure 和谷歌云(GCP) 中,英伟达 TESLA 系列 GPU 产品的市场占有率大幅领先。其中,阿里云采用英伟达 TESLA 系列 GPU 比例为 81%,AWS、Azure 和 GCP 使用比例分别为 89%、100%和 100%,市 场份额绝对领先。2)另外据 Top500.Org 数据显示,英伟达 GPU 产品在全球 Top 500 超 算中心的渗透率逐年提高,由 2013H1 的 72.2%提升至 2021H2 的 90.3%,几乎处于垄断 地位。


市场规模:我们测算全球数据中心 GPU芯片市场规模,2021年约为 100亿美元左右。 FY2022(对应 CY2021)英伟达数据中心营收约 106 亿美元,其中 Mellanox 营收约 25.7 亿美元,则英伟达数据中心 GPU 相关产品营收约 80.3 亿美元。在市场竞争段落中提到, 英伟达在数据中心领域中的市占率约 80%,依次测算,2021 年,全球数据中心 GPU 芯片 市场规模约为 100 亿美元左右。


GPU 数量:我们测算 2021 年,全球数据中心 GPU 芯片市场出货量约 200 万个。依 据英伟达在数据中心领域中 GPU 产品的价格测算,假设对应产品的 ASP 约 5000 美元/ 个,对应 FY2022 年(对应 CY2021 年)英伟达 GPU 产品出货量约 160 万个。在市场竞 争段落中提到,英伟达在数据中心领域中的市占率约 80%,依次计算,全球数据中心 GPU 市场出货量约 200 万个。


数据中心 GPU 市场规模:预计 2025、2030 年将分别达到 245、828 亿美元。结合 既有的认知和判断,我们做出如下简化假设:1)假设中期全球数据中心大算力逻辑芯片 市场增速和过去相似(2014~2021 年),年市场规模复合增速维持在 15%~20%之间,取 中位值 17.5%;2)数据中心领域,并行计算需求占比持续提升,预计每年相对份额提升 3%左右。基于上述简化假设,我们中性预计,全球数据中心 GPU 市场规模将在 2025、 2030 年分别达到 245、828 亿美元,同时若中期 AI 技术进步、高性能计算需求超出我们 的预期,则最终市场规模将显著高于我们当前的预测。


国内 GPU 市场:中期潜在空间可观,本土厂商开始 规模崛起&产品落地


国内市场现状:和全球市场同步,预计 2030 年规模将突破 300 亿美元


图形渲染:当前国内市场规模约 27 亿美元,预计 2025、2030 年将分别达到 47、97 亿美元。由于缺乏直接的统计数据,我们做出如下简化假设:1)IDC 数据显示,2016-2021 年,全球 PC 出货量为 2.6-3.5 亿台,同期国内 PC 销量占全球销量比重约在 17%左右, 我们假设在图形渲染领域,国内 GPU 出货量占比亦和 PC 表现相对一致,并保持和全球 市场相似的增速,以及应用场景分布等。参考我们在上文中的测算,我们测算、预测 2021 年、2025 年、2030 年,国内 GPU(图形渲染)的市场规模约为 27、47、97 亿美元。当 然,若考虑到国内庞大的游戏用户数,以及专业视觉等领域的旺盛需求等,最终的实际数 据料将大幅优于我们当前的测算&预测。


数据中心:我们测算国内数据中心 GPU 市场约占全球 20%左右比重,对应 2021 年 整体出货量约 40 万个,对应市场规模约 20 亿美元。1)从互联网云厂商 Capex 支出来看, 阿里巴巴+腾讯+百度三家互联网厂商的 Capex 占全球主要互联网云商场(微软、亚马逊 (含租赁)、谷歌、Meta)总 Capex 比例的 7%-13%。若扣除亚马逊在租赁领域中的 Capex 支出,我们预计中国三家互联网厂商的 Capex 占比将超过 10%。2)Top 500.Org 网站显 示,截至 2021 年 11 月,全球 Top 500 超算中心,中国拥有 173 个超算中心,为全世界 最多的超算中心国家,占有率约 34.6%。3)综合考虑中国互联网云厂商 Capex 占比约 10%, Top 500 超级计算机个数市占率约 34.6%,我们认为中国数据中心 GPU 需求量约占全球数据中心总 GPU 需求量的 20%左右。4)如前面章节测算,我们判断 2021 年全球数据中 心 GPU 加速器市场出货量约 180-200 万个,2021 年全球数据中心 GPU 加速市场规模约 100 亿美元。按照 20%市占率计算,我们预计 2021 年中国数据中心 GPU 加速器市场出 货量约 40 万个,对应市场规模约 20 亿美元。


中期展望:我们预计 2030 年国内数据中心 GPU 芯片市场规模有望增长至 250 亿美 元,对应 CAGR 为 32%。如前所述,我们预计全球数据中心 GPU 加速市场规模有望由 2021 年的 100 亿美元增长至 2030 年的 828 亿美元(对应 CAGR 为 26%)。综合考虑国 内 AI、高性能产业的发展,以及头部科技公司的资本开支,Top 500 超级计算机数量等, 我们认为未来中国数据中心 GPU 芯片需求量将占到全球数据中心总 GPU 需求量的 25%-30%左右。依此计算,我们预计中国数据中心 GPU 芯片市场规模有望由 2021 年的 20 亿美元增长至 2030 年的 250 亿美元(对应 CAGR 为 32%)。当然考虑到国内企业在 AI、高性能计算领域的积极努力和进展,最终实际数字大概率会好于我们当前的中性预期。


国内市场格局:本土厂商快速崛起,产品亦逐步上市


国内 GPU 厂商:开始快速崛起,大多数企业目前已发布 1-3 款相关产品,大部分核 心团队具有英伟达、AMD 工作经历。1)2014-2020 年,国内成立若干 GPU&云端 AI 芯 片相关企业,目前此类企业已发布 1-3 代产品,产品落地进度不断加快。2)从国产 GPU 相关企业创始人的团队背景来看,大部分企业创始人团队均有在英伟达、AMD 等企业有 多年的工作经验。


产品竞争力:国内厂商产品核心参数约落后英伟达、AMD 1~2 代左右,正逐步从“可 用”走向“好用”。1)通过对比海外 GPU 厂商和国内 GPU 厂商相关产品的参数,可以看 出国内 GPU 厂商在半精度&单精度领域中的计算能力,相差约 1 代差距;国内 GPU 厂商 在双精度(64 位)计算领域能力近乎空白,但双精度运算更多应用于复杂科学计算。2) 考虑到英伟达、AMD 在 GPU 架构中加入了张量核 TensorCore 或 Matrix Core(可用于执 行融合乘法加法运算),这种计算单元层面的 DSA 架构设计,亦使得他们在 AI 训练、推 理环节具有更高的计算效率:


英伟达 Tensor Core:2017 年公司发布的 Volta 架构首次引入了张量核 Tensor Core 模块,用于执行融合乘法加法,支持 INT32 计算;2018 年公司发布的 Turing 架构对 Tensor Core 进行了升级,并增加了对 INT8、INT4、Binary(INT1)的计算 能力;2020 年公司发布的 Ampere 架构对 Tensor Core 再次升级,增加了 TF32 和 BF16 两种数据格式的支持,也增加了对稀疏矩阵计算的支持。2022 年公司 发布的 Hopper 架构对 Tensor Core 再次升级,增加了 TF8 数据格式的支持。


AMD Matrix Core:2020 年英伟达推出张量核 Matrix Core,对标英伟达 Tensor Core,并用于 MI100 加速器(可支持 FP64、FP32 计算格式);2021 年底,AMD 发布 MI250/250X 加速卡,基于 Matrix Core 的加持下,FP64/FP32 计算能力可 提升一倍。


本土 GPU 厂商:有望率先在 AI 领域实现落地,并逐步扩展至图形渲染、复杂科学计算等场景


市场机遇:基于上文对英伟达历史的复盘和分析,作为典型的通用芯片,产品技术、 软件生态是 GPU 厂商不断做大做强的核心基础和支撑。同时在 GPU 实际落地应用中,需 要将硬件、软件应用、游戏引擎、操作系统、OEM 等众多环节匹配到一起,才能更好地 发挥性能作用。目前国产 GPU 厂商正处于起步阶段,市场需求、产业政策均有利于其发 展&壮大:


1)国产 GPU 厂商开始切入相关客户产品中:英伟达最新公告背景下,倒逼国内相关 客户开始使用国产 GPU 产品,在一定程度上能够帮助相关企业与客户建立密切联系,进 而帮助相关企业进行快速的技术和产品迭代。 2)市场需求:依据我们前文预测,2030 年全球 GPU(图形渲染)市场规模为 568 亿美元,中国市场规模约 97 亿美元;2030 年全球数据中心 GPU(AI、高性能计算等)市 场规模为 828 亿美元,中国市场规模约 250 亿美元。


面临挑战:目前国产 GPU 厂商大多仍处于早期发展阶段,仍需要在技术、产品商业 化落地等方面不断努力: 1)核心技术人才招募。(a)从英伟达 GPU&AMD 的发展历史来看,公司 GPU 架构 基本可以做到两年更新一代,这对于架构师对于芯片研发的理解和应用场景的全判断要求 较高。如:Jim Keller 于 2012 年左右加入 AMD,帮助涉及了 Zen 微架构,大幅提升公司 产品在数据中心领域的竞争力。(b)GPU 下游应用领域,并非是单纯的硬件算力比拼, 对于软件开发及软件生态的建设亦相对重要。未来如何招聘大量的软件&AI 人才,仍是国 产 GPU 厂商目前需要面临的重要问题。 2)产品设计、流片、客户验证,再到量产交付的全流程跑通。(a)GPU 是一种技术 门槛极高的细分赛道领域,前期投入资金成本相对较高,这对于企业的融资能力要求相对 较高。(b)从 GPU 的开发及使用流程来看,GPU 从最初设计到制造、流片、量产,周期 通常不会低于 18-24 个月。从产品点亮到推出,再到后续的大量出货和用户验证,再到 后续找到可持续落得的应用场景,仍面临着较多的挑战。


技术路线选择:AI 为中短期最可能突破&落地场景,并可逐步向图形渲染、复杂科学 计算等领域扩展。目前 GPU 的应用场景,主要应用于图形渲染、AI 训练&推理、复杂科 学计算等领域,结合市场规模、客户结构、技术特性等要素,对于本土 GPU 厂商而言, 我们判断,AI 将是最可能率先获得突破的领域,并在此基础上,不断向图形渲染、复杂科 学计算等领域进行延伸:


AI 训练:大模型逐步成为 AI 领域的主流,叠加下游自然语言理解、计算机视觉、 推荐系统等应用场景的不断扩展,AI 训练料将成为中期国内 GPU 最大的需求领 域。同时 AI 模型更多基于神经网络结构,因此对计算精度要求并不严苛,亦使 得本土 GPU 厂商面临的技术门槛相应降低,我们预计这将是本土 GPU 厂商最容 易实现突破的领域。


AI 推理:从英伟达&谷歌等科技巨头的产品参数来看,AI 推理环节对计算精度的 要求显著低于 AI 训练环节,一般 4~8 位即可满足,但 AI 推理本身对实时性要求 较高,且下游场景过于碎片化,如何实现灵活性、细分场景之间的有效平衡,是 当前面临的主要难题,因此初创企业更多在自动驾驶、安防等领域寻找市场机遇。


图形渲染:主要场景包括游戏画面渲染,以及专业图形创作&渲染等领域,作为 典型的 2C 市场,客户更专注产品的性价比、品牌、生态支持等,且 GPU 图形 管线设计复杂度相对更高。


复杂科学计算:主要应用场景包括国防、航天、气象等高性能计算领域,为控制 累计误差,需要较高的计算精度,一般需要 64 位双精度运算,整体技术架构复 杂性远大于 AI 训练、推理环节。


国内部分重点 GPU 企业介绍


摩尔线程:专注于研发设计全功能 GPU 芯片及相关产品


英伟达背景出身,打造研运一体 GPU 公司。成立于 2020 年 10 月,致力于构建视觉 计算及人工智能领域计算平台,研发全球领先的 GPU,建立高性能计算生态系统。摩尔线 程拥有能够覆盖 GPU 研发设计、生产制造、市场销售、服务支持等完整成熟的团队,逐 步成为国产现代全功能 GPU 实现的核心力量。创始人张建中是前英伟达全球副总裁,中 国区总经理,英伟达中国公司创始人,曾任惠普、戴尔公司高管。 全功能 GPU 苏堤问世。公司成立不到 300 天的时间,于 2021 年 11 月公布首颗国产 全功能 GPU 芯片研制成功,开创国产 GPU 研发速度先河。2022 年 3 月 30 日,公司推 出基于其统一系统架构 MUSA 的首款 GPU 苏堤、基于苏堤的首款台式机显卡 MTT S60、 首款数据中心级产品 MTT S2000,开拓 GPU 在中国市场的生态系统,助力驱动数字经济 的发展。


沐曦集成电路:国产高性能 GPU 芯片解决方案领先公司


公司概述:沐曦集成成立于 2020 年 9 月。公司专注于设计具有完全自主知识产权, 针对异构计算等各类应用的高性能通用 GPU 芯片,致力于打造国内具有商用价值的 GPU 芯片,产品主要应用方向包括人工智能、云计算、数据中心等高性能异构计算领域。 公司创始人团队背景。公司汇聚顶尖技术、量产经验、管理能力人才,创始人陈维良 曾任AMD GPU设计高级总监、AMD全球GPU SOC设计总负责人、AMD全球通用GPUMI 产品线(高性能计算、云计算)设计总负责人。公司拥有国内最完整的 GPU 设计研发团队, 参与过 AMD 从图像到高性能计算应用 GPU 的架构设计和量产,团队构建完整,且有多年 合作共事基础。


目前公司有两款产品,MXN 系列的 MXN 100 和 MXC 系列的 MXC 500。(1)MXN 系列是面向云端数据中心应用的人工智能推理产品,采用先进工艺结合高带宽内存,提供 强大的 AI 算力和领先的视频编解码能力,可广泛应用于智慧城市、公有云计算、智能视频 处理、云游戏等场景。目前的 MXN 100 是一款 7nm 芯片,于 2022 年 8 月已经流片,成 功点亮。目前在正常测试软硬件,公司预计年底送达客户侧测试。(2)MXC 系列通用 GPU(GPGPU)芯片是针对 AI 训练和推理及科学计算的完美解决方案,沐曦自主知识产权 架构提供强大高精度及多精度混合算力,可广泛应用于人工智能、数据中心以及科学计算、 教育和科研等场景。MXC 500 是一款 6nm 芯片,公司计划 2022 年 10 月流片,2023 年 上半年回片。


瀚博半导体:从 AI 与视频转向更广阔的通用计算市场


公司概览:专注于高性能通用加速芯片的 AI 与视频芯片厂商。公司成立于 2018 年 12 月,创始人钱军曾在思科、AMD 担任高管,具备 25 年以上的芯片设计经验。公司曾于 2020 和 2021 年间完成 A 轮、A+ 轮和 B 轮融资,总募资额超过人民币 24 亿元。其 中最近一笔融资发生于 2021 年 12 月,由阿里巴巴集团、人保资本、经纬创投和五源资 本联合领投,包含 B-1 和 B-2 轮,共计人民币 16 亿元。 产品布局:从加速卡向 GPU 迈进。目前公司拥有 VA1 通用 AI 推理加速卡与 SV100 系列芯片。VA1 加速卡具备高效的 AI 推理能力,INT8 峰值算力超 2000TOPS,并能够满 足高密度视频的解码,支持 FP16 的浮点数运算。SV100 芯片则聚焦云端的推理,支持深 度学习与计算机视觉等场景。根据公司在 2022 年世界人工智能大会的披露,公司发布了 瀚博统一计算架构、全新数据中心(云端)AI 推理卡载天 VA10、边缘 AI 推理加速卡载 天 VE1、以及瀚博软件平台 VastStream 扩展版等产品,并将继续整合统一计算架构,在 边缘计算、云计算以及软件平台上持续进行投入,并预览了云端 GPU 芯片 SG100,正 式进入到 GPU 市场。


商业化:签约多家政企客户,并与快手等互联网厂商建立合作。根据公司在 2022 世 界人工智能大会的披露,2022 年以来,公司先后与福建大数据集团、国宁瑞能,高新兴、 超聚变等行业领先企业,在智慧城市、智慧政务、智慧交通、智慧园区、智慧能源等多元 场景,开展深入合作,为企业智能化、数据化提供国产 AI 算力解决方案。而公司依靠在视 频领域的特色,亦与快手等互联网厂商建立合作关系。


壁仞科技:专研通用计算体系,向图形渲染进发


公司概览:聚焦高性能算力芯片,专研通计算体系。GPU 壁仞科技创立于 2019 年, 主要从事 GPU、DSA(专用加速器)的研发和销售,致力于开发原创通用计算体系,提 供智能计算领域一体化解决方案。创始人张文曾任商汤科技总裁,具有哈佛大学法学博士 及哥伦比亚工商管理硕士学位;联合创始人焦国方是图形 GPU 产品线总经理,具有超过 25 年的 GPU 产品架构及研发经验,曾任高通 GPU 团队负责人;联席 CEO 李新荣曾任 AMD 全球副总裁、中国研发中心总经理。


由通用计算向图形渲染全功能发力,补齐 GPU 全领域能力。1)公司聚焦云端通用智 能芯片,并逐步扩展产品线至人工智能训练和推理、图形渲染等多个领域,实现 GPU 芯 片的全功能全领域覆盖。2)目前公司产品线主要为 BR100 系列的通用 GPU,针对人工 智能(AI)训练、推理,及科学计算等更广泛的通用计算场景开发,包含 BR100 与 BR104 两款产品。其中 BR100 产品形态为 OAM 模组,搭载一颗 BR100 GPU 芯片,制程为 7nm, 在 FP32 精度下能够实现 256TFLOPS 的计算峰值。BR104 产品形态为 PCIe 板卡,搭载 一颗 BR104 GPU 芯片,用于数据中心 GPU 服务器,采用 7nm 制程,FP32 精度下可达 到 128TFLOPS 计算峰值。此外,公司提供 BIRENSUPA 软件开发平台,为旗下硬件提供 完整功能架构的软件开发平台。后续看,公司将继续围绕通用计算芯片,进行硬件与软件 的开发。


商业化:GPU 芯片已经点亮,客户拓展进行时。2022 年 3 月,公司点亮了国内算力 最大通用 GPU 芯片,2022 年 8 月发布首款通用 GPU 芯片,产品线逐步进入到落地阶段。 在客户资源方面,根据公司在 2022 年世界人工智能大会上的披露,公司正在积极布局 BR100 商业化落地,目前已有平安科技、浪潮信息、万国数据等建立合作。


阿里平头哥:专注云与 AI 的芯片研发厂商


技术驱动产品创新,打造智联网芯片平台。平头哥半导体有限公司成立于 2018 年 9 月 19 日,是阿里巴巴集团的全资半导体芯片业务主体,由中天微和达摩院合并而来。平 头哥拥有端云一体全栈产品系列,涵盖数据中心人工智能芯片、处理器 IP 授权等,实现芯 片端到端设计链路全覆盖。平头哥坚持以技术驱动创新,以芯力量拥抱数智未来的研发理 念,主要打造面向汽车、家电、工业等领域的智联网芯片平台。


AI 芯片:以 CPU 为主,兼顾部分 ASIC 芯片。平头哥目前产品分为四大类:1)玄铁 系列的 CPU 芯片,此类芯片包含 8、9 以及无剑三大系列,基于 RISC-V 架构进行设计, 由于 RISC-V 本身的架构特性,适用范围较广,既能用于智能监控、机器视觉、人工智能、 5G、边缘服务器等对处理器性能要求很高的应用领域,又能用在对功耗和成本极其敏感的 IoT、MCU 等领域。2)倚天系列的服务器芯片,倚天 710 采用 2.5D 封装,分为两个 DIE, 总计 600 亿晶体管。包含 128 个 Armv9 高性能 CPU 核,用于服务器。3)含光 AI 芯片, 含光 800 基于 12nm 工艺, 集成 170 亿晶体管,性能峰值算力达 820 TOPS(INT 8), 支持 Tensorflow、MXNet、Caffe、ONNX 等主流深度学习框架。4)羽阵 RFID 芯片,羽 阵 600 是一颗低功耗、高性能超高频 RFID 电子标签芯片,用于智慧物流、智慧仓储、智 慧零售、资产管理等应用场景。


商业化:服务阿里巴巴自身业务的同时,对外进行输出。作为阿里巴巴旗下的芯片平 台,平头哥高性能产品直接用于阿里云相关产品,例如含光 800 已经广泛用于阿里云、阿 里电商搜索与营销等领域。但在 AI 之外,平头哥 RISC-V 架构芯片由于适用范围大,亦广 泛用于其他场景,根据阿里平头哥公开披露,截至 2020 年,玄铁系列 CPU 已经出货 20 亿颗,自研嵌入式 CPU IP 核授权客户超 100 家。根据纳思达在 2021 年 6 月公开披露, 公司是阿里平头哥国产玄铁系列 CPU 的最大客户, 基于玄铁系列 CPU 的芯片出货量累计 已超过了 5 亿颗。2022 年阿里平头哥与国内 MCU 厂商爱普特达成合作。在服务阿里自身 业务的同时,对外进行多维度拓展。


昆仑芯:产品聚焦 AI 加速芯片,自研 XPU 架构赋能智慧应用


专注 AI 加速,打造全链路服务体系。昆仑芯科技是一家 AI 芯片公司,于 2021 年 4 月正式从百度独立出来,当前已完成 130 亿人民币和 20 亿美元两轮融资。昆仑芯前身是 百度智能芯片及架构部,于 2011 年 6 月设立,期间在实际业务场景中持续深耕 AI 加速领 域,是一家在体系结构、芯片实现、软件系统和场景应用均有深厚积累的 AI 芯片企业。


自研 XPU 产品架构,赋能智慧应用场景。昆仑芯科技研发实力雄厚,CEO 欧阳剑是 原百度首席架构师 (T11),智能芯片业务总经理,基础技术体系联席技术委员会主席,百 度无人驾驶初始团队成员。团队成员拥有全球顶尖学术背景,多数成员来自百度、高通、 Marvell、Tesla 等行业头部公司,并提出了 100%自研的、面向通用人工智能计算的核心 架构 XPU。目前,昆仑芯科技已与智能产业的上下游企业建立了良好的合作生态,通过向 不同行业提供以人工智能芯片为基础的算力产品,辐射互联网、智慧城市、智算中心、智 慧工业、智慧应急、智慧交通、智慧金融等“智慧+”产业。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

半导体行业专题研究:从英伟达看国产GPU发展机遇与挑战.pdf

2024半导体行业薪酬报告.pdf

锡行业研究报告:半导体上游核心材料,供给趋紧+需求复苏下价格中枢有望持续提升.pdf

京仪装备研究报告:国内半导体专用温控废气处理设备专精特新“小巨人”.pdf

半导体设备行业专题报告:键合设备,推动先进封装发展的关键力量.pdf

半导体封装设备行业深度报告: 后摩尔时代封装技术快速发展,封装设备迎国产化机遇.pdf

PCB行业专题报告:GB200单颗GPUHDI价值量有望提升,产业链迎新机遇.pdf

英伟达GTC专题分析:新一代GPU、具身智能与AI应用.pdf

超威半导体研究报告:CPU攻城略地,GPU仍需磨炼.pdf

景嘉微研究报告:国产GPU老兵,高效研发促进产品革新.pdf

GPU行业专题报告:GPU框架,从ROCm、Pytorch看生态壁垒.pdf

英伟达公司研究:超级工厂是怎样炼成的.pdf

英伟达2024 GTC大会要点梳理.pdf

英伟达研究报告:百川终将归海,AI奇点到来.pdf

英伟达研究报告:受益数据中心AI芯片高景气度,上游供应链响应快速.pdf

英伟达研究报告:加速,规模,超线性.pdf

【中信证券】科技行业前瞻研究系列报告99:从英伟达看国产GPU发展机遇与挑战.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00