【国金证券】数据中心产品全覆盖，充分受益AIGC浪潮.pdf

2023-10-18

29页

3MB

一、硬件创新大胆，软件生态持续投入

我们认为，衡量芯片设计企业产品的竞争力，关键在于其硬件的性能与软件生态的丰富度以及可使用度。产品的硬件性能决定了其纸面参数，而软件生态决定了硬件纸面性能可以实现多少，以及在不同应用下的适用程度。而硬件性能+软件生态+价格则综合决定了产品的性价比。公司经过多年发展，在 CPU 领域与英特尔直接竞争，在 PC GPU 以及 AI 芯片领域与英伟达直接竞争。公司在嵌入式领域收购赛灵思，与英特尔、Lattice 等厂商竞争。我们认为公司作为市场的后进入者，能够获得目前的市场地位与其硬件架构的创新以及价格较为相关，而未来加强自身竞争力则依赖于软件生态的进一步投入。 22 财年公司收入体量已经达到 236.01 亿美元，23 财年前两季度公司营收 107.12 亿美元，同比减少 13.87%。目前公司主要产品线包括数据中心业务（EPYC CPU、Instinct GPU、 DPU 等）、客户端业务（个人电脑 CPU、APU）、游戏业务（独立显卡等）以及嵌入式业务（FPGA）等，今年上半年数据中心、客户端、游戏、嵌入式业务分别占比 24.22%、16.22%、31.16%、 28.20%。

1.1 先进制程+先进封装，架构创新持续推进芯片性能与性价比

传统 SoC 设计是采用一致的制程工艺，将购买的 IP 以及自身设计的模块生产为芯片。而小芯片可以通过先进封装，将不同制程、不同架构的芯粒根据需求集成在一起，具备以下优势：（1）对于处理器等性能要求较高的部分，可以采用最先进制程，而对于 I/O 等性能要求相对较低的部分，可以采用较为成熟制程，因此可减少代工成本；（2）小芯粒的晶圆制造相比较大尺寸的晶圆代工良率也更高，小芯片+先进封装可以减少良率损失，同时降低综合成本；（3）小芯片可被视为固定模块，并可在不同产品中进行复用，具有较高的灵活性。这不仅可以加快芯片的迭代速度，还能提高芯片的可扩展性；（4）通过先进封装可以集成多个小芯片，能够满足高效能运算处理器的需求。 2022 年 3 月，Intel 牵头并联合高通、ARM、AMD、台积电、日月光、三星、微软、谷歌、 Meta 制定了通用芯粒互连技术（UCIe）标准。该标准实现了互连接口标准的统一，使不同芯片都可以通过统一的协议互连互通，大幅改善了 chiplet 技术生态。

公司是行业内较早使用 chiplet 技术的厂商。2017 年发布的第一代 EPYC CPU 是公司第一种采用 chiplet 技术的产品。第一代 EPYC 处理器具有 32 核以在服务器 CPU 市场上竞争。除了原始核心数之外，产品还包括 8 个 DDR4 内存通道和 128 个 PCIe gen3 I/O 通道，以提供当时在业界领先的内存和 I/O 带宽，满足服务器、云计算对于性能的高要求。相比传统设计方案，公司测算采用 chiplet 方式生产第一代 EPYC CPU 降低了 41%的成本，而芯片面积仅增加了 9.7%。

通过芯片架构上的较大创新，公司服务器 CPU 硬件性能较英特尔形成差异化竞争，使得公司市场份额进入增长期。我们选取与第一代 EPYC CPU 相同世代的英特尔 Skylake CPU，对比公司与英特尔同世代旗舰 CPU 性能，根据 CPU Benchmark，公司第一代 EPYC CPU 旗舰 EPYC 7601 相比英特尔同世代旗舰 Xeon 8180 虽然在单线程性能、CPU 主频、超频频率等单核性能上较为落后，但是公司依靠 Chiplet 集成更多核心，使得芯片整体第三方评分更佳。同时公司架构的优势也使得产品功耗更低，客户每年使用的成本也有所减少。

除了采用先进封装以外，公司处理器核心不断迭代升级，升级制程节点，通过先进制程叠加先进封装的形式推进硬件综合性能快速提升。第一代 EPYC CPU 采用公司 Zen 1 架构内核，采用 14 纳米工艺；第二代 EPYC CPU 采用 Zen 2 架构内核，为 7 纳米工艺；第三代 EPYC CPU 采用 Zen 3 架构内核，为 6 纳米工艺；最新一代 EPYC CPU 采用 Zen4 架构内核，为 5 纳米工艺。我们比较每一代 EPYC CPU 最高级别单核的单线程评分，根据 CPU Benchmark，第四代采用最高级别单核的 CPU 为 EPYC 9474F 单线程评分为 3179，较第一代最高级别单核 CPU EPYC 7281 的 1636 的单线程评分有了几乎翻倍提升。

从价格来看，公司产品采用 Chiplet 技术，可以实现不同制程、不同架构甚至不同晶圆厂生产的小芯片进行集成，因此无需全部采用最先进制程进行生产，而且小芯片的尺寸减少后对于良率会有所提升，因此产品的综合成本更低，给予公司更大的定价空间。公司作为市场后进者，虽然公司产品硬件具备更高第三方测试评分，但采取了较为激进的定价策略，性价比更加凸显。我们采用 CPU Benchmark 产品评分/产品售价来衡量公司与 AMD 每一世代售价最高产品的性价比，公司每一代产品性价比也较为明显。

公司在服务器 CPU 领域市占率不断提升。2017 年公司推出第一代 EPYC CPU，根据 Omidia，公司在服务器 CPU 领域已经在 2021 年第二季度首次超过 15%。

公司在 CPU 领域 chiplet 技术积累丰富，目前逐渐将技术积累运用在 AI GPU 以及 PC GPU 领域。公司上一代 AI GPU Instinct MI200 系列升级为新的 CDNA2 计算架构，搭配升级的 6nm FinFET 工艺，并使用 2.5D EFB 桥接技术，业内首创多 die 整合封装(MCM)，内部集成了两颗核心。公司最新一代 AI GPU Instinct MI300A 由 13 个小芯片整合而成，并采用了 3D 堆叠方式，拥有 24 个 Zen 4 CPU 内核，并融合了 CDNA 3 图形引擎和 8 个 HBM3 显存堆栈，容量达到了 128GB。在 PC GPU 当中，公司最新发布的 RDNA3 架构的 GPU 将 5 纳米制程的图像运算单元以及 6 纳米制程的缓存部分采用先进封装集成。我们认为，公司在 GPU 领域开始尝试使用高制程小芯粒的 chiplet 技术，在硬件纸面性能上可以较快提升，有望拉近与目前龙头英伟达的纯硬件性能的差距，积累一定规模客户群体，为未来发展提供动力。

Chiplet 技术通过先进封装集成了大量的小芯片，因此大芯片内部各个不同部分的互联非常关键。我们认为公司相关技术储备较为丰富，并且具备一定优势。即使其他竞争对手也逐渐开始尝试在新产品当中应用 chiplet 技术，公司对于大芯片内部的互联技术的 know how 仍将使得公司具备一定竞争优势。比如公司采用对 NUMA（非统一内存访问）域进行管理的技术，可以降低芯片的延时并提升效率。在公司 EPYC 7001 系列处理器中，内存控制器位于同一芯片上，最多可与八个 CPU 核心一起使用，在该芯片上的内存和 CPU 核心之间具备紧密连接。当内存控制器需要请求发送到不同一组核心的数据时，数据必须通过内部 Infinity Fabric 连接从一个芯片传递到另一个芯片。从公司 EPYC 7002 系列处理器开始，通过将内存控制器放置在 I/O 芯片上，非统一内存访问延迟大大减少。通过在 EPYC 7003 系列中增加 32 MB 的 L3 缓存， NUMA 域被更加扁平化。在第四代 EPYC 处理器中，对 Infinity Fabric 互连的优化进一步降低了延迟差异。

1.2 软件生态 ROCM 兼容 CUDA，长期发展自有生态目标不变

在 AI 领域，英伟达 2006 年开始建设自身 CUDA 生态，使得大量应用都是基于 CUDA 的生态编写。因此我们认为，在前期导入客户时，采用兼容 CUDA 的生态，可以方便客户使用，并避免大量原有程序迁移的工作。但长期看，英伟达不断升级 CUDA，使得兼容 CUDA 的生态也需要不断升级，使公司较为被动，并需要大量的维护费用，同时随升级可能出现兼容性问题。另外，公司生态为了兼容 CUDA，在执行任务的效率上相较于 CUDA 也会有所损失。因此长期发展自有生态是大势所趋。

TensorFlow、Pytorch 等主流 AI 框架已经针对 CUDA 调优。目前 ROCM 对 CUDA 实现了 API 兼容，主要通过二进制翻译以及进程虚拟机技术实现，将基于 CUDA 生态构建的应用所需要的英伟达的 GPU 指令转化为 ROCM 的指令，即将基于 CUDA 编写的程序通过 ROCM 转化、翻译为 OpenCL 的代码，再调用公司硬件产品执行命令。因此相比使用英伟达加速卡，使用公司加速卡在执行基于 CUDA 生态的程序时，会多出将 CUDA 程序转化为 OpenCL 的过程，会有一定效率损失。

目前公司 ROCM 生态已经可以兼容主流机器学习框架包括 TensorFlow、Caffe 和 PyTorch 等。ROCm 平台还支持一系列支持库，可帮助改进开发者的模型和运行时环境，包括 DeepSpeed、ONNX-RT、Jax 和 CuPy。另外公司 Infinity Hub 提供了现成的 HPC 与 AI 框架，提供从业者可使用的广泛支持库的大量内容。

目前公司与发布 transformer 的 HuggingFace 等模型厂以及 PyTorch 展开合作以构建自有生态，目前已经初步取得一定成效，PyTorch 2.0 发布时便有 ROCm 版本。考虑到 PyTorch 目前逐渐成为主流的 AI 开发框架，公司硬件在运行基于 PyTorch 2.0 开发的软件时可以直接运行，无需把所生成的 CUDA 软件转译为 OpenCL 之后进行运行，大大减少了转译带来的效率损失。同时公司 ROCM 生态是开源生态，与 CUDA 的非开源不同，可以利用开发者、模型/算法厂商以及云厂商帮助优化、丰富自身生态，有望拉近与英伟达在软件生态层面的差距。

我们认为，公司产品硬件上具备较高性价比，大客户也需考虑自身供应链安全，因此公司产品对大客户具备一定吸引力。在产品导入大型云厂商后，由于大型云厂商具备较强软件能力，对某些新兴应用可以基于公司软件生态进行开发，协助公司逐渐完善自有生态，提升产品综合性能，形成正向循环。

二、数据中心：CPU 市占率不断提高，GPU 未来发展可期，软硬件全面布局

2.1 CPU：公司市占率已近 20%，有望受益服务器市场回暖与 DDR5 渗透率提升

公司目前数据中心领域最主要产品是 EPYC 系列 CPU 产品，自从 2017 年推出第一代以后，凭借采用先进制程小芯片+先进封装的方式，在硬件性能上实现了对英特尔产品的差异化竞争。同时公司定价较英特尔产品更低，产品具备更高的性价比，因此公司在服务器 CPU 领域市占率一路提升，根据 Counterpoint，公司 2021 年服务器 CPU 市占率为 11.74%，2022 年已经提升至 19.84%。

随着公司 EPYC CPU 在服务器 CPU 市场市占率不断提升，公司数据中心业务营业收入增长明显，21、22 财年营收分别为 36.94、60.43 亿美元，同比增长分别为 119.2%、63.6%， 23 财年前二季度，公司数据中心业务营收 26.16 亿美元，同比减少 5.87%。而服务器 CPU 领域公司主要竞争对手英特尔在数据中心业务的营收则近年有所衰退，英特尔 21、22 财年数据中心业务营收同比减少 2.73%、14.62%，23 财年前二季度则同比减少 28.29%。虽然公司 EPYC CPU 相比同世代同级别英特尔至强 CPU 售价更低，但公司采用 chiplet 技术，综合成本较低，同时随着出货量提升，固定成本也被摊薄。因此公司数据中心业务营业利润率也在 22 财年超过英特尔。

23 财年前二季度，公司数据中心业务营收同比减少主要是传统云计算服务器市场库存去化，以及 AI 服务器挤占传统云计算服务器资本开支所致。根据 TrendForce，由于四大 CSP 陆续下调采购量，Dell 及 HPE 等 OEM 也在 2~4 月期间下调全年出货量预估，同比分别减少 15%及 12%，加上国际形势及经济因素影响，服务器需求展望不佳，预估今年全球服务器整机出货量将因此再下修至 1,383.5 万台，同比减少 2.85%。

随着服务器行业库存去化接近尾声，云厂商资本开支恢复，以及 AI 挤压云计算资本开支的现象逐渐减轻，我们认为传统云计算服务器有望重拾增长。每台服务器至少配备一颗 BMC 芯片，从全球 BMC 芯片龙头信骅科技月度营收来看，9 月份营收实现环比增长 32%，同比减少幅度相较 8 月也有所收窄。根据 TrendForce，预计 2024 年全球服务器整机出货同比增长 2.3%。而云厂商资本开支 24 年也有望有较大增长，根据 Couterpoint，23 年全球云厂商资本开支预计增长 7.8%，其中 35%用于 IT 设备开支，而 2024 年全球云厂商资本开支预计增长 15.1%，预计其中 36%将用于 IT 设备资本开支。

公司最新一代服务器 CPU EPYC 9004 系列采用 5 纳米 Zen4 CPU 内核，支持 DDR5 内存。第四代 EPYC 处理器带来更高的性能、核心密度和能效，每路最多可达 96 个 Zen 4 核心和 1152MB 的 L3 高速缓存，带来更加优秀的性能。Zen 4 相比于上一代 Zen 3 有大约 14%的 IPC 提升。其中贡献最大的是前端的改进，其次是存储和加载部分，再次是分支预测部分。

公司第四代 EPYC CPU 具有最多可达 128 个 Zen 4 核心，提供超高的内存带宽并支持超大内存容量，凭借全面的 x86 软件兼容性、最多可达 128 个处理内核、256 个线程、标准企业 RAS（可靠性、可用性和可维护性）和先进的安全功能，客户可以获得超高的线程密度和完整的服务生态系统，以支持快速、无缝的部署。对比公司“Genoa”与英特尔同世代“Sapphire Rapids”做多核心数产品，公司 EPYC 9684X 具备 96 个核心，英特尔至强 8490 则为 80 个核心，同时公司产品在主频、内存通道数量、PCIe 数量上都领先。

我们认为公司第四代 EPYC CPU 硬件与英特尔同世代产品有一定差异化优势，同时售价更低，有望在本世代进一步扩大公司在服务器 CPU 领域的市占率。公司第四代 EPYC CPU 有望受益于 DDR5 服务器端渗透率提升，出货进入快速爬升期。根据 TrendForce，预估 DDR5 今年全年在 CSP 与 OEM 的导入率仅约 13.4%。DDR5 导入比重正式超越 DDR4 的时间点，有望在 2024 年第三季底可以实现。

2.2 GPU：MI300 单卡性能强大，有望受益 AI GPU 缺货导入客户，与自有生态形成正向循环

公司最新一代 AI GPU 是 MI300 系列，包括 MI300A 与 MI300X，单卡硬件性能出色。其中 MI300A 兼顾 AI 与 HPC 应用，产品形态采用 CPU+GPU 合封的 chiplet 方式，而 MI300X 是专门针对 AI 的产品，并未集成 CPU 内核，而是采用仅 GPU 合封的方式。MI300 系列较为突出的特点是采用大量 HBM 内存模组与 CPU/GPU 集成，形成一个小系统。由于 HBM 具备出色的带宽，HBM 作为系统内的共享内存，单个小系统内部 CPU 与 GPU 可以与 HBM 直接连接，大幅降低了延时。另外 HBM 具备高存储容量，可以直接在单个芯片内运行大模型。

MI300 同样采用先进制程小芯片+先进封装的形式。MI300A 成为全球首个为 AI 和 HPC 打造的 APU 加速卡。采用 Chiplet 设计，拥有 13 个小芯片，基于 3D 堆叠，包括 24 个 Zen4 CPU内核，同时融合了6 颗CDNA 3 GPU和 8个HBM3，集成了 5nm 和 6nm IP，总共包含 128GB HBM3 显存和 1460 亿晶体管。根据公司发布会，MI300A 相比上一代产品 MI250X 在 AI 算力上是上一代的 8 倍，而在单位能耗的 AI 运算上是上一代的5 倍。由于上一代 MI250X FP16 算力是 383TFLOPS，我们认为 MI300A 的 FP16 算力有望达到接近 3000TFLOPS。 MI300X 没有集成 CPU，而是集成 8 个 GPU 以及 8 个 HBM 内存模组，使其集成的晶体管数量达到了 1530 亿，多于英伟达 H100 的 800 亿晶体管。此外，MI300X 拥有 192 GB 的 HBM3 DRAM 内存和每秒 5.2TB 的内存带宽。考虑到 MI300X 相比 MI300A 减少了 CPU 而增加了 GPU，单卡算力有望较 MI300A 有进一步提升。

公司 MI300 卡间互联采用公司 infinity fabric，理论最高速度可以达到 896GB/s，与 NV Link的900GB/s相差较小。通过Infinity fabric可以将8 颗MI300X 互联形成一个单元，类似英伟达的 HGX 模组。在 DPU 以及交换芯片领域，公司收购了 Pensando，未来有望达成全套连接解决方案。考虑到 Pensado 较博通等深耕数据中心互联的第三方厂商经验较少，而且起步较英伟达 NV Link 较晚，因此公司产品在卡间互联的实际效能较英伟达仍有一定差距。另外由于大量模型与算法目前都是基于 CUDA 生态编写，公司 ROCm 生态虽然兼容 CUDA，但存在一定的转译效率损失，因此使用公司硬件时会同时有卡间互联的效率损失以及转译的效率损失。考虑到公司 MI300 单卡算力以及单卡显存带宽更高，同时高容量的 HBM 也使得部单个 MI300X 可以运行 800 亿参数大模型，因此对于部分单卡运算较多，多卡交互需求较少的模型，我们认为使用公司 MI300 更具效率。从历史数据来看，公司与英伟达上一代 AI GPU 的适用模型同样也产生了一定分化，通过对比各种模型在MI210与A100的实际运行效率，并非所有模型在英伟达硬件上运行都具备更高的效率。

同时，英伟达 H100 产品 DGX 服务器整机价格昂贵，HGX 准系统交期较长，客户尤其大型云厂商考虑供应链安全为了避免被英伟达完全绑定，以及 AI GPU 需求大幅增长，给予公司 MI300 更多的导入机会。根据 TrendForce，2023 年 AI 服务器（包含搭载 GPU、FPGA、 ASIC 等）出货量预计近 120 万台，年增 38.4%，占整体服务器出货量近 9%，至 2026 年将占 15%， 2022~2026 年 AI 服务器出货量年复合成长率至 29%。而 AI 芯片 2023 年出货量将成长 46%。而根据台积电今年二季度法说会，针对高算力 AI GPU 的 CoWoS 产能到 24 年年底将较 23 年提升 1 倍，以满足市场对于高算力 AI 芯片的需求。

公司 MI300 系列产品同样采用台积电 CoWoS 封装，台积电 CoWoS 产能根据晶圆制造的采购额来进行分配，公司作为台积电重要客户之一可以获得一定比例的 CoWoS 产能。因此我们认为公司 MI300 可以正常生产，MI300A 和 MI300X 有望今年年底到明年年初正式开始销售。

2.3 DPU：完成公司数据中心硬件全面布局，未来有望提供全套解决方案

数据处理单元（DPU）主要承担起网络、存储和安全的加速处理任务，旨在满足网络侧专用计算需求，尤其适用于服务器量多、对数据传输速率要求严苛的场景。DPU 是一个可编程的专门电子电路与硬件加速的数据处理为数据为中心的计算单元。数据包以多路复用形式传入和传出 DPU。一个 DPU 一般包含一个 CPU、NIC 和可编程数据加速引擎。因此 DPU 具有 CPU 的通用性和可编程性，同时专门用于有效地处理网络数据包、存储请求或分析请求。 2022 年二季度公司完成以 19 亿美元收购云计算初创公司 Pensando。通过这次收购案，象征公司正式进军 DPU 领域，使得公司完成了数据中心领域 CPU+GPU+DPU 硬件全方位布局。Pensando 成立于 2017 年，由四位前思科工程师创所创立，专注于针对面向数据流的工作负载进行优化的芯片技术和软件，可用于包括智能交换机在内的广泛应用，主要客户有微软 Azure、IBM 云、Oracle 云等云厂商、惠普 Aruba Networks Business 等供应商以及高盛等大型企业。物联网、人工智能和 5G 正在推动海量数据增长，公司 Pensando 解决方案可以提供高度可编程的、软件定义的云服务、计算、网络、存储和安全服务。根据公司网站，与传统通用架构相比，公司 Pensando 解决方案在效率、性能和规模方面实现了 5-9 倍的提升。

在收购 Pensando 后，加上公司所收购的赛灵思 FPGA，公司形成了 EPYC CPU + Instinct GPU + Pensando DPU + 赛灵思 FPGA + Infinity Fabric 连接方案 + ROCm 软件生态的数据中心全套软硬件方案，成为了与英伟达、英特尔一样少数在数据中心与 AI 领域可以提供全套方案的厂商。

我们认为未来公司凭借服务器 CPU 端较英特尔更高的性价比方案，以及已经积累的接近 20%市场份额，有望继续提升市占率，同时受益服务器市场回暖以及 DDR5 渗透率提升，受益行业β并具有自身α。在 GPU 领域，公司凭借强大的单卡硬件性能，叠加英伟达产品缺货及大型云厂商对供应链安全的考虑，有望保持目前市场份额，短期内受益于 AI GPU 需求旺盛，受益行业高β。随着 GPU 硬件进入客户，公司 ROCm 生态有望持续迭代，扩大合作伙伴，逐渐产生自有生态，摆脱单纯兼容 CUDA 局面，既而进一步提升硬件的实际表现，最终软硬件形成正向循环。

三、端侧：消费电子业务有望受益 PC 复苏，FPGA 业务覆盖面广阔

3.1 PC 端 CPU、GPU、APU 性价比凸显，助力份额稳定提升

公司在 PC 端同时具备 x86 CPU 与独立 GPU 产品，英伟达目前在 PC 端只有独立 GPU 产品，而英特尔主要是 x86 CPU 产品，英特尔独立 GPU 出货量极低，根据 JPR，23 年 Q2 英特尔独立 GPU 出货比例仅占全球 2%。公司在 PC 端 x86 CPU 领域公司与英特尔长期保持竞争，在独立 GPU 市场与英伟达长期保持竞争。另外公司还是首家将 CPU 与独立 GPU 内核集成为 APU 的厂商，相比传统 CPU 采用集成显卡具备更强的图像渲染能力，同时比 CPU+独立 GPU 的模式集成度更高，更加适合移动端使用。

根据 Statista，23Q3 公司 PC 端 CPU 按发货量市占率目前为 35.0%，是全球第二大的 PC CPU厂商，仅次于英特尔的 62.7%。公司产品出货量占比从 20 年开始逐步提高，目前稳定在 35%左右。从营收来看，公司客户端业务（个人电脑 CPU 与 APU）过去相比英特尔个人电脑业务也具备更快的增速，但今年在出货量比例变化不大情况下，公司客户端业务营收较英特尔客户端业务下滑较大，我们认为是公司为保持市场份额今年年初对新时代产品降价导致。根据IDC，全球2022年PC出货量293.3百万台，对应CPU 293.3万颗，根据Statista，公司 22 年平均出货量市占率为 33.6%，而公司 22 年客户端营收 6887 百万美元，对应公司单颗 CPU 平均售价 63 美元。采取同样方法测算今年 1~2 季度公司 PC CPU 平均售价 42 美元。

公司 PC CPU 与服务器端 CPU 类似，同样采用先进制程小芯片+先进封装的模式，目前最新一代 PC CPU 锐龙 7 系列与服务器端最新一代 CPU 同样使用 Zen4 内核，并根据不同应用场景选择核心的类型和数量进行集成。锐龙 7000 系列处理器基于优化的高性能 TSMC 5nm 工艺构建，拥有多达 16 核心 32 线程，具有卓越的性能和领先的能效。与上代产品相比， AMD 锐龙 7950X 处理器的单核性能提升高达 29%，在 POV Ray 中为内容创建者带来高达 45%的计算性能提升，在某些特定游戏中游戏性能提升高达 15%，且每瓦性能提升高达 27%。全新 Socket AM5 平台将成为公司迄今为止最具扩展性的台式机平台，其设计兼容周期将持续到 2025 年。公司锐龙 7 系列旗舰产品较英特尔同世代 13 代酷睿旗舰产品有一定差异化优势，按照第三方评分/价格的方式所得出的性价比来看，公司产品具备一定溢价因此性价比上有所差距。而中高端、中端产品来看，公司产品主频更高运算速率更快，但综合水平来看公司产品在中高端性价比略高，而在中端性价比略低。因此综合来看，我们认为公司本世代 PC CPU 与英特尔同世代产品并无明显差别，公司与英特尔在 PC 端 CPU 的市占率也将基本保持稳定，公司产品线有望受益于行业复苏β。

全球 PC 分季度销量同比下滑幅度收窄，24 年换机周期到来有望带动销量回升。根据 IDC，全球 PC 销量 23 年同比减少 13.7%，预计出货量为 2.52 亿台，24 年全球 PC 市场有望回暖，出货量预计将增长 3.7%达到 2.61 亿台。根据 IDC，从单季度销量来看，全球 PC 销量 23Q3 同比下滑 7.6%，为 6820 万台，23Q1 以来全球 PC 销量已经环比增长，同比下滑幅度收窄。

PC 独立 GPU 市场公司与英伟达直接竞争。22 年三季度由于英伟达上一代 30 系列显卡下调价格，以及英特尔产品发布，对公司市占率产生了一定冲击。但是随着公司与英伟达新一代产品推出，公司市占率有所回升，根据 JPR 公司 2023 年第二季度独立 GPU 出货量占全球 17%。从公司与英伟达游戏与图形显示业务对比来看，公司游戏业务营收增长也更加迅速，除了 PC 端独立 GPU 的份额提升以外，公司产品也导入了 PlayStation、Xbox、Steamdeck 等游戏机平台。

公司是全球首家推出 APU 芯片的厂商，APU 将独立 GPU 核与 CPU 集成，较传统 CPU 的独立显卡在算力和图形渲染更具优势，有望受益 AI PC 趋势。由于生产 APU 需要同时具备 PC CPU 产品，以及独立 GPU 产品，英伟达目前尚无 PC 端 CPU 推出，而英特尔的独立 GPU 市占率尚不足 5%相对成熟度较低，因此目前公司是全球唯一可以生产 APU 的厂商。随着 AI 应用的推广和用户数量增多，如果 AI 推理全部在云端进行，则云厂商需要建设大量的推理算力，带来较大的资本开支和折旧压力。因此我们认为未来云厂商将下放算力到端侧，使得端侧处理大部分简单任务，并对复杂任务进行预处理。PC 作为重要的办公设备，CoPilot 等应用也已经推出，未来 AI PC 是必然趋势。公司今年发布的最新一代 Ryzen7 7040 系列 APU，采用 Zen4 CPU 内核+最新一代 GPU 内核 RDNA3。Ryzen7 7040 的 AI 引擎单元各个单元之间都可以直接通信，因此不存在传统 CPU 架构的数据阻塞情况，同时也保证了时序的确定性。此外，每个 AI 引擎单元都配备了分布式本地内存，不会出现缓存未命中的情况，同时也拥有更高的访问带宽，也降低了对内存容量的需求。Ryzen7 7040 最高可以达到 10TOPS 的算力，相比采用集成显卡的传统 CPU 上百 G 的算力相比，有两个数量级的提升，能够更好满足端侧 AI 需求。

3.2 完成收购赛灵思，加强自身 Chiplet 优势，拓展汽车、AI 推理市场

2022 年 2 月，公司完成收购赛灵思，显著扩大的规模和领先的计算、图形和自适应 SoC 产品组合。目前公司嵌入式产品线主要包括 FPGA 业务，下游覆盖医疗、机器人、汽车视觉、工业等。同时公司收购赛灵思以后，赛灵思在先进封装的长期经验也将帮助公司在先进制程小芯片+先进封装的技术路径继续迭代发展。

由于 FPGA 具有可编程的特点，可以依靠软件调整满足各种不同的应用场景，一旦开发完成将具备较长生命周期。目前赛灵思 16nm、20nm、28nm 产品生命周期将至少延续到 2035 那边，45nm 产品将至少延续到 45nm。公司收购赛灵思后，嵌入式业务营业收入大增，从 21 财年的 2.46 亿美元提升至 22 财年的 45.52 亿美元。如果将被收购前赛灵思营业收入与公司嵌入式业务营收收入合并计算，整体的营业收入也保持较稳定增长，增速都超过 20%。

从下游应用来看，公司收购赛灵思以后，除了完成了对赛灵思原有的下游应用覆盖以外，也加强了公司在汽车、AI 推理以及数据中心网络控制的能力。在融合 FPGA 技术以后，公司针对汽车市场推出了 AMD 自适应 SoC 产品。针对数据中心推理与边缘端推理，公司也推出了融合 FPGA 技术的自适应 SoC。

根据公司网站，单纯使用 CPU/GPU 进行推理处理时，需要大批量规模实现吞吐量，在 CPU、 GPU 处理以前需要等待所有输入数据就绪，即使 CPU/GPU 具备高算力优势，也需要较长的时延才能处理完成，而当使用 FPGA 作为加速器时，每个输入准备就绪时便可以进行处理，通过小批量实现吞吐量，可以有效降低时延。我们认为 FPGA 的此特性对于边缘端推理较为重要，尤其在智能驾驶等对低时延更加敏感的场景。

我们认为公司有望凭借赛灵思在 FPGA 领域深厚积累和客户资源，继续覆盖原有下游应用场景，同时融合 FPGA 技术，在 AI 推理和汽车等领域发挥技术优势。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）