【国盛证券】百川终将归海，AI奇点到来.pdf

2024-02-19

35页

3MB

1. 全球领先的算力平台

1.1 全球算力之源

英伟达（NVIDIA）由黄仁勋、Chris Malachowsky 和 Curtis Priem 创立于 1993 年。 1999 年，英伟达推出 Geforce 256，被称为 GPU（Graphics Processing Unit）的定义者。起初的若干年，英伟达核心产品是游戏显卡——这一阶段的战役在经历了与关键对手 ATI 的缠斗、与重要客户微软和索尼的诉讼和合作、与两大 CPU 巨头 Intel 和 AMD 的合纵连横之后，终于以在 2006 年以 AMD 收购 ATI、2009 年 Intel 暂时取消自研 GPU 计划为标志而暂落下帷幕。

此后的时间里，一方面，英伟达将芯片产品扩展至更多行业赛道——如 2008 年苹果的 Macbook 搭载英伟达 GeForce 9400MG、2012 年特斯拉的 Model S 搭载英伟达自动驾驶芯片、2019-2021 年加密货币浪潮中的 GTX1060 和 CMP 系列；另一方面英伟达也在积极向 DPU 和 CPU 环节延展——2020 年英伟达收购 Mellanox Technologies 从而将芯片产品扩展至 DPU，2021 年英伟达在 GTC 2021 大会推出了基于 ARM 架构的首款 CPU 并命名为 Grace。至此，英伟达形成了“GPU+CPU+DPU”的产品组合，成为横贯数据中心、游戏显卡、专业可视化、自动驾驶等多个赛道的算力之王。

1.1.1 业务一览：全球算力之王

英伟达的算力芯片产品遍及数据中心、游戏显卡、专业可视化、自动驾驶等多个行业赛道。公司作为业内的算力之王，其统治力从相应赛道市占率可见一斑：在数据中心赛道，Trendforce 数据显示，2023 年的 AI 芯片市场中英伟达出货量约占 60-70%，几家互联网巨头的自研 ASIC 芯片约占 20%。当然，如果仅看数据中心 GPU 产品，则英伟达 A100、H100 等产品在模型训练等方面几乎没有可替代的对手选项。在游戏显卡赛道，JPR 数据显示，英伟达占据了 PC 独立显卡的 80%以上出货量。收购了 ATI 的 AMD 当前则在 10%左右的市占率浮动。

1.1.2 财务构成：AI 需求推动数据中心业务强劲增长

英伟达的核心芯片产品线包括数据中心、游戏、专业可视化、自动驾驶等。截至 2023 财年（结束于 2023 年 1 月），英伟达年度收入约 270 亿美金，同比持平。其中，数据中心业务占比 56%，游戏业务占比 34%，专业可视化占比 6%，自动驾驶业务占比 3%，其他业务占比 2%。截至 2024Q3 财季（结束于 2023 年 10 月），英伟达季度收入约 180 亿美金，同比增长 206%。其中，数据中心业务占比 80%，游戏业务占比 16%，专业可视化占比 2%，自动驾驶业务占比 1%。 2024Q3 财季，得益于 AI 算力需求强劲，英伟达数据中心业务同比增长 279%，单业务收入亦创新高。

同样，得益于 AI 算力需求暴增带来的数据中心 GPU 供不应求，英伟达利润表现也非常强劲：截至 2023 财年（结束于 2023 年 1 月），英伟达年度 GAAP 口径利润约 43.7 亿美金，non-GAAP 口径利润约 83.7 亿美金。公司 non-GAAP 净利润率达 31%。截至 2024Q3 财季（结束于 2023 年 10 月），英伟达季度 GAAP 口径利润约 92.4 亿美金，non-GAAP 口径利润约 100.2 亿美金。公司 non-GAAP 净利润率达 55%。

1.2 硬件：“GPU+CPU+DPU”，纵横多个行业赛道

1）数据中心

英伟达的数据中心业务涵盖自下而上、从硬件产品到软件平台的全栈产品。其中硬件部分包含 GPU、CPU、DPU 三大类别芯片；软件方面包括 CUDA 并行编程模型、CUDA- x 应用程序加速库、应用程序编程接口、或 API、SDK 和工具、以及特定领域的应用程序框架等；平台端则包含 NVDIA HPC、NVDIA AI、NVDIA Omniverse 等平台。英伟达计算平台专注于在超大规模、云、企业、公共部门和边缘数据中心加速最计算密集型的工作负载，如人工智能、数据分析、图形和科学计算。

数据中心 GPU 是英伟达的王牌产品，公司主要产品包括训练/推理芯片 A100、H100、 L40、L40S 等，以及推理芯片 A10、A30 等。2024 年公司将推出性能更强的 H200、B100 等。

除了 GPU 之外，英伟达也扩大其他数据中心处理器产品组合：数据中心 CPU 方面，英伟达也在加速布局，比如推出数据中心 CPU 产品 NVIDIA Grace CPU 超级芯片。此外，英伟达也推出适用于大规模 AI 和 HPC 应用的突破性加速 CPU— —NVIDIA Grace Hopper 超级芯片。

DPU 方面，NVIDIA BlueField 网络平台为全球数据中心提供动力，凭借强大的计算能力以及用于网络、存储和安全加速的内置软件定义硬件加速器，BlueField 可为各种环境中的多种工作负载提供安全的加速基础设施。DPU 产品包含 NVIDIA BlueField-3、BlueField2、BlueField-3 SuperNIC 等。

2）游戏显卡

英伟达针对游戏市场的产品包括用于游戏台式机和笔记本电脑的 GeForce RTX 和GeForce GTX GPU，以及用于玩 PC 游戏的 GeForce NOW 云游戏平台，用于电视高质量流媒体的 SHIELD、以及用于游戏机的系统芯片(SoC)和开发服务。在 2023 财年，英伟达推出了基于 Ada Lovelace 架构的 GeForce RTX 40 系列游戏 GPU。

3）专业可视化

英伟达专业可视化产品的适用范围包括设计和制造以及数字内容创建。例如设计和制造包括计算机辅助设计、建筑设计、消费产品制造、医疗仪器和航空航天。数字内容创作包括专业视频编辑和后期制作、电影特效和广播电视图形。主要硬件产品包括 Ada Lovelace 架构的专业卡 RTX 6000 等、Ampere 架构的 RTX A6000 系列、Turing 架构的 T1000 等。

4）自动驾驶

NVIDIA 的汽车业务由自动驾驶、智能座舱、电动汽车计算平台和信息娱乐平台解决方案组成，将以 DRIVE Hyperion 品牌为自动驾驶市场提供完整的端到端解决方案。硬件方面，英伟达自动驾驶芯片主要包含 Xavier、Orin、Thor 等。

1.3 软件及平台：云服务望成长为第二曲线

当然，英伟达作为全球领先的算力平台，在硬件产品之外，亦为客户提供了多维度的软件平台服务，包括但不限于：

DGX Cloud：云服务平台，可提供 NVIDIA DGX AI 超级计算专用集群，并配以 NVIDIA AI 软件。DGX Cloud 不仅包括算力，还包括一整套“AI 训练即服务”解决方案。

Omniverse：元宇宙应用平台，使用 OpenUSD 开发工业元宇宙应用，适用于汽车、建筑、工程、施工和运营、媒体和娱乐，以及制造行业等。

GeForce Now：云游戏平台，支持玩家绑定 Steam、Epic Games 账号，通过 NVIDIA GeForce Now 云游戏来体验已有游戏库中的游戏。

Automobile Drive：自动驾驶平台，其中开放式 NVIDIA DRIVE® SDK 为开发者提供了自动驾驶所需的所有构建块和算法堆栈，该软件有助于开发者更高效地构建和部署各种先进的自动驾驶应用程序。

其中，DGX Cloud 作为英伟达数据中心业务在算力芯片产品之外的重要业务方向，将数据中心业务扩展到了算力和模型训练等相关的云服务方面。NVIDIA AI 则包括加速计算、基础 AI 软件、预训练模型和“AI 代工厂”。预训练模型和“AI 代工厂”包括语言模型 NEMO、视觉模型 PICASSO、生物学模型 BIONEMO、游戏模型 NVIDIA ACE、生成式 AI 模型（包括 GPT、T5 和 Llama 等）等等。我们认为，DGX Cloud 有望将算力和模型训练相关业务以更易得的方式提供给企业客户，长期有望成为英伟达数据中心业务的第二增长曲线。

2. 需求：AI 算力需求可以延续多久

2.1 AI 需求：对下一个时代的押注，谁也不能松懈

2022 年，OpenAI 推出 ChatGPT，带来了人工智能浪潮。此后，全球互联网及云服务大厂陆续加入大模型的军备战争，AI 算力需求快速提升。英伟达数据中心业绩的可持续性，来自于算力需求的可持续性。

2.1.1 训练端：谁在边际增加 AI 算力投入？

人工智能实力的提升，是一个互联网及云服务企业甚至于一个国家都不能错过的战斗。当前我们看到，AI 军备战争已经从 2023 年的少数几家互联网及云服务大厂，向更多地区的更多企业和部门扩展。接下来，更多国家和企业将入场 AI 军备战争：更多国家入场：法国、英国、德国、瑞典、越南、新加坡、印度、日本等国家和地区开始加大 AI 投入。更多企业增加投入：Meta、OpenAI、以及微软、谷歌等均在加大 AI 投入。模型更大：随着多模态的发展、各家模型厂商之间的竞争加剧，模型的参数数据量也更大。

2.1.2 推理端：哪些 AI 场景和应用在增加？

我们看到，AI 推理相关的算力需求正在海量袭来，而背后的驱动力则包括端侧 AI 的逐步落地、AI 应用从文娱内容领域向更多科技和制造领域扩展等方面。

端侧 AI 落地

近期 AI 大模型功能在硬件端落地的浪潮开启：AI PC、AI 手机、AI+可穿戴新型便携产品等迭起，AI 赋能硬件产品更智能、交互更顺畅、提升用户体验。 2023 年 11 月，Humane 发布无屏幕可穿戴设备 AI Pin，背后是 OpenAI 的 GPT4 为其提供 AI 能力，可实现语音通话、写文稿、听音乐、处理电子邮件、实时翻译等任务，未来计划增加导航和购物功能。2024 年 1 月，联想携 40 多款产品亮相 CES 2024，其中包括十余款 AI PC。联想宣布个人 AI 助理——Lenovo AI Now 将在今年上半年部署到产品上市。 2024 年 1 月，三星发布首款 AI 手机 Galaxy S24，全面集成了三星自研的前沿生成式 AI 模型 Gauss，同时，谷歌 AI 大模型 Gemini nano 在其中得到全面应用，为搜索、通话、短信、相机等都配置了 AI 功能。我们预期，端侧 AI 产品的快速普及将为 AI 推理带来大量需求。

领域破圈

我们认为，接下来生成式 AI 的应用，除了可以在内容领域以外，会在更多的领域和圈层落地。

首先，以自动驾驶领域为例，各类 AI 工具被广泛地应用在数据合成、4D 标注、感知模型、决策规划模型、以及当前的端到端模型探索中。其中，由于 1）数据采集成本日益提高、2）真实场景的数据采集涉及隐私安全信息，3）有效 corner case 的收集密度太低等原因，自动驾驶的训练往往面临数据不足的问题。基于此，自动驾驶领域一些企业，如 Wayve，已经开始通过生成式 AI 模型来创建驾驶场景视频，用以更好地辅助自动驾驶端侧模型的开发。英国创业公司 Wayve 在 2023 年 6 月首次推出了 GAIA-1（Generative Artifitial Intelligengce for Autonomy）、并在 2023 年 9 月更新了最新进展。GAIA-1 模型核心是一个基于自回归 Transformer 的世界模型（world model）：在输入视频、文本、动作指引后，能预测序列中下一组图像 token；这些预测的图像 token 不仅在视觉上连贯、而且和此前的文字和动作指引保持一致。随后，视频解码器（video diffusion model）将这些图像 token 转换回像素空间。除了 Wayve 以外，Tesla 也在尝试通过建立仿真场景来辅助自动驾驶模型的训练。 Tesla 在 CVPR 2023 workshop 展示了其“General World Model”，市场普遍认为其除了可以为自动驾驶决策规划模型的训练提供“模拟器”环境外、后续作用还可能体现在自动驾驶算法本身。我们认为，生成式 AI 模型有望大大降低自动驾驶模型训练的门槛、以及提升决策规划的能力天花板。

其次，在生物及材料科学领域，我们也看到了生成式 AI 在蛋白质预测、新型材料生成等“AI For Science（AI4S）”方面的巨大潜力。谷歌 Deepmind 旗下的 Alphafold 是生物医学领域比较早出圈的 AI 工具，此前就可以进行单链蛋白质的预测、以及后续扩展至具有多条蛋白质链的复合物。2023 年 10月底，新一代 Alphafold 进一步加强，不仅可以预测蛋白质结构，还可以进行对核酸、小分子配体等生物分子结构的预测。该工具有助于加速生物医学的进展。谷歌 Deepmind 旗下的另一个工具 GNoMe，则是将类似能力应用在了新材料的发现上。GNoMe 基于图神经网络对晶体材料进行预测和筛选。当前 GNoMe 发现了 220 万种新晶体材料，而且将预测材料稳定性的准确率从 50%拉高到 80%。微软 MatterGen 的突破则在于，可以针对所需要的特性，直接生成相应的新型材料。 MatterGen 基于类似 Diffusion Model 的方法，为晶体材料选取了定制的扩散过程、得出基础模型。然后引入适配器模块，在带有属性标签的附加数据集上对基础模型进行微调，最终引导生成的结果符合目标属性约束。这一技术有望大大加快设计所需特性材料的速度。

从内容生成，到自动驾驶场景仿真、到材料定制，我们认为后续生成式 AI 在科技、制造等研究及生产领域可以带来更多推理需求、也创造更多产业价值。

2.2 定量测算：模型训练与推理，全球需要多少卡

我们用粗略的测算，来估计当前全球企业在 AI 模型的训练和推理过程中所需要的算力芯片的量级：首先从训练的角度，我们以 GPT-4（根据 SemiAnalysis，约 1.8 万亿参数、13 万亿训练数据）作为基础，假设后续几年全球各国大模型数量持续增加、模型参数继续攀升，则按我们的测算，至 2030 年，全球累计需要相当于 2000 万张 H100 的等量算力需求。

其次从推理的角度，我们同样以 GPT-4（根据 SemiAnalysis，约 1.8 万亿参数、13 万亿训练数据）作为基础，假设后续几年全球各国大模型数量持续增加、模型参数继续攀升、应用迭代带来的用户访问用量持续提升，则按我们的测算，至 2030 年，全球累计需要超过 1.16 亿张相当于 A30 的等量算力需求。

3. 供给：龙头面对搅局者

3.1 AI 芯片江湖：扶持 AMD、发力自研芯片

在算力芯片如此紧缺的当下，众多互联网及云服务厂商当然也不能把鸡蛋放在一个篮子里——既不够安全、又太贵。当前的 AI 芯片赛道，除了种子选手英伟达之外，还有两类重要的阵营：以 AMD 和 Intel 为代表的 GPU 专业级新选手，以谷歌 TPU、微软 Athena 等为代表的云厂商自研芯片。以 AMD 为例，AMD 于 2023 年 6 月发布 AMD Instinct MI300X GPU 和 AMD Instinct MI300A APU。在硬件性能角度，MI300X 堪与 H100 一战：内存：内存容量较 H100 的 80GB 提高 2.4 倍至 192GB，内存带宽从 3.4TB/s 提升 1.6 倍至 5.3TB/s。 HPC 表现：算力性能高达 H100 的 2.4 倍。 AI 表现：算力性能高达 H100 的 1.3 倍。

根据 AMD 的表述，就 AMD Instinct MI300X platform 与英伟达 H100 HGX 的比较而言，在训练方面二者性能相当，在推理方面则 MI300X platform 的推理速度是 H100 HGX 的 1.4 倍（Llama2）到 1.6 倍（Bloom）。

同样，很多对 AI 芯片需求较高的大厂亦早早开始布局自研芯片，如谷歌 TPU、微软 Athena、亚马逊 Tranium 等。

其中以谷歌为例，谷歌自 2015 年发布 TPU v1 以来，不断迭代升级，在 TPU v2 时已经可以支持训练。其在 2021年 Q2 发布的 TPU v4 通过光互连实现可重配置和高可拓展性，采用 7nm 工艺，峰值算力达 275TFLOPS，性能大幅提升。根据谷歌发布的论文《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》，使用 TPU v4 芯片进行嵌入训练时，相比于使用 TPU v3 芯片，可以获得 2.7 倍的性能提升。

3.2 英伟达的破局

我们认为，英伟达对于来自竞争对手的挑战，亦具备充分的信心、以及做了其充分的准备：软硬件产品上，公司在硬件产品上持续迭代新品，在软件架构上持续延续优势。英伟达望在 2024 年发布 Hopper 架构 H200、还有望提前发布其下一代 GPU Blackwell B100。CUDA 架构开发者和下载量亦在持续提升。上下游生态上，英伟达一方面通过投资参股等方式绑定下游企业的算力需求，一方面通过上百亿美金采购承诺协议锁定上游产能。

3.2.1 软硬件产品：加速迭代下一代硬件产品、CUDA 持续保持优势

在硬件方面，英伟达或于 2024 年推出 Hopper 架构 H200、Blackwell 架构 B100。面对 AMD Instinct MI300 系列的汹汹来势，英伟达或提前其 B100 产品的推出和交付以做应对。据英伟达，2024 年推出的 Blackwell 架构 B100 GPU，在 GPT-3 175B 推理性能标竿方面击败 A100、H100 及 H200，其 AI 表现性能将是 Hopper 架构 H200 GPU 两倍以上。

在软件架构方面，AMD 为了更好地兼容 CUDA 平台，ROCm 复制了 CUDA 的技术栈，支持 HIP（类 CUDA）和 OpenCL 两种 GPU 编程模型，开发者可以用类似 CUDA 的方式为 AMD 的 GPU 产品编程，从而在源代码层面兼容 CUDA。

但在实操角度，英伟达 CUDA 架构具有较明显的先发优势。CUDA 架构当前拥有 450 万开发者，2023 年软件下载量达 4800 万次，15000 家创业企业使用 CUDA 架构。网络效应驱动 CUDA 架构受众持续增加。

3.2.2 上下游生态：绑定下游、锁定上游

除了产品端过硬之外，英伟达在需求端对下游企业的生态绑定、在供给端对上游供应商的产能锁定，也使得英伟达有着更加稳定的上下游关系。

下游：大举投资 AI 模型企业

从 2023 年到 2024 年，英伟达投资了大量大模型及 AI 相关企业。通过投资这些企业，英伟达进一步扩张了 AI 版图、我们认为有助于其绑定下游潜在需求。

上游：加强对供应商的产能锁定

在 CoWoS 和 HBM 产能稀缺的当前，“得产能者得天下”。英伟达除了此前与供应商建立的良好合作关系之外，亦在持续提升给供应商的采购协议金额。

截至 2024Q3 财季（2023 年 10 月），英伟达给供应商的采购承诺额已达 210 亿美金以上。根据我们的测算，其中后续 12 个月以内的采购承诺额在 150 亿美金以上。巨额采购协议的签订一定程度上帮助英伟达锁定了相应比例产能。而事实上，英伟达的收入兑现也和其上游采购承诺额呈现正相关——采购协议金额越高、说明其需求和产能保证度越高、收入也越高。

基于 CoWoS 的产能增长、对英伟达不同产品线的产能分配等假设，按英伟达财年维度（例：FY 2025 财年为 2024 年 1 月至 2025 年 1 月），我们测算： H100 在 2025/2026 财年的出货量望达 209 万张/155 万张。 H200 在 2025/2026 财年的出货量望达 35 万张/62 万张。 B100 在 2025/2026 财年的出货量望达 23 万张/143 万张。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）