【民生证券】深度报告:算力帝国的挑战者.pdf

2024-03-26
34页
3MB

1 从端到云,AMD 拥抱 AI 浪潮


1.1 复盘发展历程,AI+强化后发优势


AMD 成立于 1969 年,是全球先进的微处理器厂商,产品包含 CPU、GPU、 FPGA 等,业务涵盖数据中心、嵌入式系统、游戏等多个方面。其发展历程主要可 分为以下几个阶段:


1)(1969-1990)成立初期,产品多为其他厂商的第二供应商:1969 年,杰里·桑 德斯等员工从仙童半导体离职,创立了 AMD。在成立初期,AMD 的销售主要来 自军工等大企业,当时这些企业对第二供应商有着严格要求,并且对产品质量要求 较高,AMD 凭借高产品质量获得了这些客户的认可,成为这些客户的第二供应商, 典型代表是在 1982 年,由于 IBM 希望引入除了 Intel 以外的第二家 CPU 供货商, AMD 和 Intel 签署专利交叉授权协议,获得了 Intel 的 X86 架构技术授权。


2)(1991-2005)自研 x86 处理器,正式和英特尔展开竞争:1987 年,由于市 场需求下滑等原因,Intel 决定停止对 AMD 的授权,双方开始长达 8 年的专利诉 讼,到 1995 年 AMD 获得了 X86 架构专利诉讼的胜利。尽管 AMD 获得了诉讼 的胜利,但这 8 年时间对 AMD 拖累严重,Intel 获得了市场上绝大多数市场份额, AMD 决定不再满足于第二供应商的地位。1991 年,AMD 首次展示 Am386 处理 器,不再作为英特尔的第二来源供应商,正式与英特尔在 x86 处理器方面展开竞 争。


3)(2006-2013)引入 GPU 业务,遭遇发展瓶颈:2006 年,AMD 收购 ATI, 获得同时生产高性能 GPU 和 CPU 的能力。此后英特尔不断推出新品,在 CPU 性 能上占据优势,AMD 在竞争对手的冲击下暂时落后。2012 年,AMD 开始了 Zen 微架构的研发。


4)(2014-2021)推出 Zen 架构,重获竞争优势:2014 年,苏姿丰博士担任 AMD 的总裁及 CEO。2016 年,苏姿丰博士对外展示了 Zen 架构微处理器。2017 年, AMD 发布基于 Zen 架构的 Ryzen 处理器,弥补了与英特尔的性能差距。2019 年, 在与台积电合作时推出了 7nm 先进制程的 CPU 及 GPU。


5)(2022 至今)提出“AI 优先”,快速抢占市场:近年来,AMD 在数据中心业 务上不断发力,于 2022 年进行重大战略调整,提出“AI 优先”的发展战略;同 年 , AMD 先 后 收 购 FPGA 厂 商 赛 灵 思 及 DPU 新 锐 Pensando ,形成 “CPU+GPU+FPGA+DPU”的数据中心芯片布局。2023 年,AMD 对标英伟达 发布了采用 CDNA3 架构的 MI300 系列两款产品的相关细节,争夺市场份额。


1.2 四大业务板块,数据中心开启发力


AMD 共有数据中心、客户端、游戏及嵌入式四大业务板块。 1)数据中心业务:利用 CPU、GPU、FPGA、DPU、SoC 等芯片产品为客户提供 先进的数据中心解决方案。近年来随着 AI 行业的快速发展,数据中心业务成为公 司重点布局方向。2022 年公司通过收购赛灵思及 Pensando 完善数据中心芯片布 局,23Q1 推出高性能的 MI300 GPU 加速器,对英伟达形成强有力的竞争。 2)客户端业务:为笔记本电脑、台式电脑、商业工作站等提供 CPU 和 APU 产品。 AMD 在 1000 年推出 Athlon 处理器,进入高端处理器市场,并在 2023 年推出 首个与 X86 兼容的 64 位处理器,助力公司市场份额提升。2005-2017 年 AMD 受限于 CPU 架构,产品与 Intel 的差距逐渐拉大,而 2017 年公司推出的第一款 Zen 架构处理器帮助公司夺回客户端市场份额。 3)游戏业务:产品包括台式机和笔记本电脑 GPU,游戏机及半定制 Soc。2022 年 AMD 发布 Radeon RX 7900 系列显卡,是全球首款采用先进的 AMD chiplet 设计的游戏显卡。 4)嵌入式业务:面向较为广泛的市场,产品包括自适应的 SoC 及 FPGA,嵌入式 CPU 和 GPU 等。AMD 的嵌入式业务收入主要来自对赛灵思的收购,2022 年一 季度 AMD 对赛灵思完成收购,该板块业务的下游市场主要涵盖航空航天、工业、 汽车、消费电子、通信和数据中心等。


分业务看,游戏业务营收占比较高,数据中心及嵌入式业务营收不断提升。 2023 年公司数据中心业务营收占比 28.64%,客户端业务营收占比 20.51%,游 戏业务营收占比 27.39%,嵌入式业务营收占比 23.46%,数据中心业务首超游戏 业务成为占比最高的业务板块,客户端营收占比持续下滑。2021-2023 年公司数 据中心业务营收占比从 22.48%提升到 28.64%,上升 6.16pct;嵌入式业务营收 占比从 1.50%提升到 23.46%,上升 21.96pct,数据中心及嵌入式业务重要性不 断提升。


1.3 景气度影响短期业绩,产品组合构筑长期竞争力


近年来,数据中心及嵌入式业务成为公司业绩增长的主要驱动力,但由于下游 需求波动,公司短期业绩承压。2022 和 2023 年下游市场的需求放缓对公司业绩 产生了不利影响。2023 年公司实现营收 226.8 亿美元,同比下降 3.90%,实现净利润 8.54 亿美元,同比下降 35.3%。公司业绩下降主要原因为 2022 和 2023 年 全球 PC 和数据中心市场需求放缓。展望 2024 年,全球 PC 市场有望复苏,且 AIPC 将带动新一轮的 PC 换机周期,服务器市场也有望伴随云厂商资本开支的提 升回暖。另一方面,当前数据中心在公司业务占比中持续提升,且加速卡持续发力, 后续业绩有望实现较快增长。


受益于产品结构优化,近年来公司毛利率不断改善。近年来公司不断推出高端 处理器产品,带动毛利率持续上升,并于 2022 年赶超竞争对手英特尔,但仍落后 于英伟达。2022 年公司毛利率为 45.74%,相较 2021 年下降 2.51pcts,主要原 因为游戏业务及客户端业务表现不佳;2023 公司毛利率为 46.14%,同比提升 0.4pcts,主要原因是嵌入式及数据中心业务发展带动。


2 CPU:Zen 架构优势凸显,助力 AMD 崛起


2.1 Zen 架构王者归来


2.1.1 AMD 凭借架构的持续迭代,打入高端 CPU 市场


Zen 架构带领 AMD 进入高端 CPU 市场,正式与 Intel 开启竞争。AMD 在 2017 年以前的 CPU 架构为推土机(Bulldozer)架构系列,该架构在 2011 年首 次发布,并在 2012 年、2013 年以及 2015 年分别推出了名为打桩机(Piledriver)、 压路机(Streamroller)和挖掘机(Excavator)的更新版架构。在推土机架构时 代,AMD 的 CPU 和英伟达产品性能相去甚远,采用“价格战”的方式维持市占 率,但在 2017 年 Zen 架构推出以前,AMD 在客户端 CPU 市场份额仍在逐年下 降。 Zen 架构的推出,使得 AMD 的 CPU 性能大幅提升,正式与 Intel 同台竞 技。Zen 架构的研发始于 2015 年,2017 年发布首款基于 Zen1 架构的锐龙一代 处理器,采用格罗方德 14nm 工艺和更加主流的 SMT 多线程,CCX 内有四个 x86 核心,每个核心都有独立的 L1 和 L2 缓存,单个模块共享 8MB L3 缓存,性能相 较上一代产品提升 40%。此后 AMD 稳扎稳打,连续推出后续更新版架构,每一 代的产品 IPC 性能均提升很多。


Zen 架构相较于上一代推土机架构的提升主要包括性能、吞吐能力、能效三 个方面。性能方面,AMD 通过增强分支预测,微指令缓存等方式,增强了指令调 度窗口、指令分发宽度和执行资源能力,使得 CPU 的单线程性能大幅提升。吞吐 能力方面,Zen 架构采用高带宽、低延迟的缓存系统,单个核心缓存带宽最大提升 5 倍;使用 AMD Hyper Transport 总线技术用于内部核心互联,提升了互联速 度。能效方面,Zen 架构将制程从此前的 28nm 升级到 14nm,大大降低功耗, 并提升了 CPU 频率。


Zen 架构不断更新迭代,Chiplet 成为设计的重要组成部分。Zen2 架构开始, AMD 采用 Chiplet 设计,使用小芯片作为 CPU 的处理器,每个小芯片都包含多 个基于“Zen”的核心,其核心数从 2-128 不等,为消费者带来前所未有的可扩展 性和灵活性。以 Zen4 架构的锐龙 7000 系列处理器为例,CPU 内部含有两个 CCD 和一个 IOD,最多可以支持 16 核心,其中 CCD 为 Compute Die,用于计算; IOD 为 Input/Output Die,用于数据的输入和输出,CCD 和 IOD 之间通过 Infinity Fabric 技术实现芯间的高速互联。通过不同的 CCD 和 IOD 数量,AMD 可以实现 不同客户需求的产品部署,例如 Genoa EPYC 7004 服务器的 CCD 数量达到 12 个,从而增强了 CPU 的计算能力。


2.1.2 AMD CPU 产品矩阵


根据下游应用,AMD 处理器可分为服务器处理器、工作站处理器、PC 处理 器等多个品类。服务器处理器主要使用霄龙 CPU 产品,可用于云计算、数据库和 数据分析、超融合基础设施和虚拟化、高性能计算等多个领域;工作站处理器主要 使用锐龙 CPU 产品,根据不同应用场景设置锐龙 Threadripper PRO、锐龙 Threadripper、锐龙 PRO 移动处理器三个产品品类;嵌入式处理器主要使用霄龙 及锐龙 CPU 产品,半定制处理器使用 ARM 多核 CPU;PC 端主要使用速龙及锐 龙 CPU 产品,具有多个细分产品品类。


2.1.3 客户端:短暂衰落后重回巅峰


2017 年以前,AMD 在客户端 CPU 的市场份额呈现逐步下降的态势。2003 年 AMD 推出 64 位指令集的 K8 处理器并大获成功,此后的几年时间里面 AMD 在客户端 CPU 市场站稳了脚跟。而 2011 年开始,AMD 的推土机(Bulldozer) 架构 CPU 产品发展缓慢,部分代际间的 IPC 提升不足 10%,而竞争对手 Intel 在 2012 年推出的第三代酷睿系列处理器已经达到 22nm 制程,两家厂商之间的性能 差距逐步拉大,AMD 的市场份额也随之从 2011 年的 20%下降至 2017 年谷底的 8%。 Zen 架构推出后,AMD 在客户端的 CPU 市场份额快速回升,2023 年已达到 22.83%。2017 年,伴随 AMD 研发了 3 年的 Zen 架构问世,AMD 在 CPU 处理性能上开始快速赶超,同时凭借相较 Intel 更高的制程,AMD 的处理器在功 耗、性价比方面均有优异的表现,公司的 CPU 市场份额也随之快速提升,2023 年 AMD 在客户端 CPU 的市场份额已达到 22.83%,基本达到历史最高水平。


2.1.4 服务器:推出霄龙系列,AMD 强势回归


AMD 曾中途放弃服务器 CPU 市场,而 Lisa Su 凭借霄龙处理器,使得 AMD 在服务器市场强势回归。由于投入过高,投入时间过长以及回报低等问题,AMD 在 2013 年宣布退出服务器市场,AMD 在服务器市场的份额也从 2006 年最高点 的 14%一路下降至 2016 年的 1%。而 2014 年伴随 Lisa Su 加入 AMD 以及 Zen 架构的开发,2017 年 AMD 发布的第一代 EPYC(霄龙)处理器,公司在服务器 CPU 的市场份额开始快速提升,2021 年 AMD 服务器市场份额已达到 15%。尽 管受到全球经济下行的冲击,2022 年公司市场份额有所回落,2023 年公司市场 份额再次同比提升 2pct,达到 14%。目前全球服务器市场基本被 AMD 和 Intel 两家公司主导,而凭借霄龙处理器的强劲性能,AMD 已经基本在服务器市场站稳 脚跟。


2.2 客户端 CPU:7000 系列性能强劲,下游市场逐步企稳


2.2.1 PC 端锐龙 7000 系列处理器持续迭代


PC 端处理器方面,锐龙 7000 系列处理器对标英特尔 13 代酷睿处理器,二 者总体性能较为相近,AMD 在时钟频率、集成显卡、节能方面具有优势,英特尔 在核心数量、性价比方面具有优势。 1)核心数量:英特尔第 13 代酷睿处理器核心数更多,酷睿 i9-13900 系列处理器 核心数可达 24 个,可以确保 CPU 的稳健表现。 2)缓存:锐龙 7000 系列的三级缓存较大,最高可达 64MB,英特尔第 13 代酷 睿处理器二级缓存为 20-32MB,显著高于锐龙 7000。 3)时钟频率:锐龙 7000 基础频率为 4.5-4.7GHz,显著高于第 13 代酷睿处理器。 4)集成显卡:锐龙 7000 系列的所有处理器均配备 Radeon 显卡,第 13 代酷睿 处理器中有 3 个配备 Intel UHD Graphics 770 显卡。 5)热设计功率:第 13 代酷睿处理器的热设计功率为 181-253 瓦,压力条件下耗 电量比锐龙 7000 系列更大。 6)价格:英特尔 13 代酷睿处理器价格在 294-589 美元之间,相比于锐龙 7000 系列性价比更高。


2023 年初 AMD 发布锐龙 7000X3D 系列台式机处理器,进一步扩充高性能 台式处理器产品阵容。据 AMD 官方披露,锐龙 7000X3D 处理器相比上一代性能 提升 14%,具有 AMD 3D V-Cache 技术以及 AM5 插槽,是世界领先的游戏处 理器,并于 2023 年 2 月上市。锐龙 7000X3D 系列产品发布进一步完善公司高性 能台式处理器产品矩阵,有利于增强在 PC 端处理器的竞争力。


2.2.2 PC 市场复苏,客户端业务有望企稳回升


PC 市场在 2022 年出现下滑,2Q23 开始 PC 市场逐步回暖。2013-2018 年, 全球 PC 年出货量持续下滑,由于居家期间线上办公需求增加,2019-2021 年全球 PC 年出货量有所回暖,从 2.61 亿台上升至 3.39 亿台。受全球经济下行影响, 2022 年全球 PC 市场出现较大下滑,2022 年全球 PC 出货量下滑至 2.83 亿台, 同比下降 16.42%。2023 年二季度开始,全球 PC 市场呈现复苏态势,2Q23-4Q23 全球 PC 销量环比分别增长 8.07%,7.76%和-1.41%。伴随生成式人工智能的快 速发展,AIPC 有望掀起新一轮的 PC 换机周期,AMD 有望充分受益。 AMD 在 CY4Q23 客户部门实现收入 15 亿美元,同比+62%。公司在 2024 年 1 月推出了最新一代 Ryzen 8000 系列 PC 处理器,OEM 系统预计将于 2024 年第二季度上市。展望 2024 年,得益于 AI PC 销售的增加,PC 市场空间将稳步 增长,公司认为客户端业务将实现强劲增长。


2.3 服务器 CPU:霄龙系列的重磅回归


2.3.1 服务器端第四代霄龙处理器性能强劲


服务器处理器方面,公司在数据中心端发力,第四代霄龙处理器性能强劲。 2022 年,AMD 推出第四代霄龙处理器,旨在打造高性能、高效率的数据中心 CPU。 根据 Wccftech 统计,SPEC2017 整数基准下第四代霄龙处理器有多个产品测试 得分在 1000 以上,显著优于英特尔可比产品至强系列 8380 及 8362 处理器;其 中霄龙 9654 处理器测试得分为 1550,是英特尔至强系列 8380 处理器的 2.5 倍。


凭借出色的能效,霄龙四代处理器可帮助企业提升能源使用效率,降低成本。 据 AMD 官方披露,在同时处理 1995 个虚拟化需求时,平均 5 台霄龙 9654 处理 器即可满足单个企业的使用需求,而英特尔至强 8380 处理器则需要 15 台才能达 到同等效果。通过使用霄龙四代处理器,企业可节省许多服务器和电力。


2.3.2 X86 占据主导地位,服务器长期成长空间广阔


服务器市场规模呈波动上升趋势,长期市场空间广阔。据 IDC 统计,2014 至 2022 年全球服务器销售额从 509.8 亿美元增长至 1215.8 亿美元。从出货量看, 2022 年全球服务器出货量为 1516.5 万台,同比增长 12%;据 IDC 预计,2026 年全球服务器出货量达 1885.1 万台,2021-2026 年 CAGR 达 6%。AI 带动全球 云商资本开支快速提升,服务器市场长期成长空间广阔。


3 GPU 市场地位稳固,数据中心开启发力


3.1 收购 ATI,GPU 架构持续升级


3.1.1 收购 ATI,强强联合


AMD 的 GPU 业务始于 2006 年对 ATI 的收购。此次收购旨在扩大产品组合 和技术能力,以提供更全面的计算解决方案。ATI 创立于 1985 年,曾是世界著名 的显示芯片生产商。起初 ATI 仅涉足 OEM 业务,为 IBM 等公司制造显示芯片, 而后 ATI 自研出了性能超越 IBM 显卡的 EGA/VGA Wonder 系列显卡,声名大 振,从此在图形领域占据立足之地。21 世纪初,图形市场竞争格局有所改变, NVIDIA 接替 3DFX 成为新的领军企业,在此背景下,ATI 又推出了 Radeon 显示 核心与之抗衡。2002 年 ATI Radeon 9700 的率先推出对 NVIDIA 造成了打击, 这颗芯片支持 DirectX 9.0,并且从显存宽位、渲染管道等方面都超越了 NVIDIA 产品。据 Jon Peddie Research 统计,2006 年第一季度 ATI 在图形芯片市场的占 有率为 29%,而 NIVIDA 仅有 19%。 在收购 ATI 之前,AMD 的业务版图内还没有图形芯片板块,主要向 NVIDIA 采购图形芯片,而 ATI 与英特尔的业务关系更为紧密,若英特尔收购 ATI,业务单 薄的 AMD 将会面临竞争压力。在 2006 年 7 月 24 日,AMD 宣告以 54 亿美元 收购 ATI,并于 10 月 25 日完成收购,最终收购对价为 43 亿美元现金加 5800 万 AMD 普通股。AMD 成为当时唯一一家拥有 CPU+GPU 技术的公司,并将 ATI 的 Radeon 品牌和技术整合到自身产品线中。


3.1.2 GPU 持续架构迭代,性能领先


AMD GPU 架构保持高速的迭代,以确保产品与时俱进。最初 AMD 的 GPU 产品采用 Terascale 架构,主要用于游戏和多媒体应用。它采用了流处理器(StreamProcessor)的设计,支持高效的并行计算。


在 2010 年代初,为了迎合通用计算 GPU 的潮流,AMD 又推出了 GCN 架 构。GCN 架构是一种全新的消费类 GPU 设计方式,是世界上第一款 28nm GPU 架构,其中配有 32 个计算单元(2048 个流处理器),每个单元中包含一个标量协 处理器。同时,GCN 架构中相同空间的容量由 26 亿个晶体管变为 43 亿个晶体管 (GPU 的最基本单元)。相较于前一代 Terascale 架构,GCN 提高了 GPU 的多线 程处理能力,提高了扩展能力和弹性。在此架构下,AMD 推出了性能一流的 AMD Radeon™ HD 7000 系列显卡产品。


在 2019 年和 2020 年,AMD 相继推出 RDNA 架构和 CDNA 架构,以分 别支持 GPU 图形显卡和通用 GPU。当前最新的 RDNA 3 架构应用于 Radeon RX 7900 XTX 和 Radeon RX 7900 XT 显卡。RDNA 3 架构采用了基于 Chiplet 设 计的 MCM 策略,这种封装方式提供了更高的灵活性和性能优化。最重要的改进 在于 RDNA 3 架构的流处理器采用了双发射设计,这一设计大大地提升了峰值浮 点性能,从而实现 FP32 算力的翻倍效果。此外,RDNA 3 架构还引入了全新的 AI 运算单元,每个计算单元配备两个专门的 AI 运算单元,可提高 2.7 倍的相关运行效率,为未来在人工智能领域的应用奠定基础。


最新的 CDNA 3 架构融合了 5nm 制程的小芯片、3D 芯片堆叠技术、第四代 Infinity Architecture、下一代无限缓存技术以及 HBM 显存,这些元素被集成 在一个封装中。CDNA 3 是 AMD Instinct 系列加速器最新产品的专用计算架构, 采用先进的封装和小芯片技术。相较于 AMD CDNA2 架构,预计 CDNA3 架构在 AI 训练工作负载上的每瓦性能将提高超过 5 倍以上。


在GPGPU领域,AMD采用了CDNA系列架构(CDNA、CDNA2、CDNA3)。 CDNA 架构在计算单元方面,分为 4 个 ACE(异步计算单元),每个 ACE 包含了 40 个 CU(计算单元),共 120 个 CU,7680 个流处理器。首个采用 CDNA 架构 的产品是 AMD Instinct MI100 加速器,它拥有卓越的计算性能和强大的浮点运 算能力。


CDNA 2 架构有 4 个计算引擎 CE,每个 CE 包含 28 个 CU,总共包含了 112 个物理 CU。是为了加速繁重的科学计算工作负载和机器学习的应用,主要应用于 AMD Instinct MI200 系列加速器。它使用了 AMD 独特的 Infinity Fabric 来扩展 跨封装的 on-die 模组,以使封装内的每个 GCD 都可以作为一个 GPU 使用。 CDNA 3 架构融合了 5nm 制程的小芯片、3D 芯片堆叠技术、第四代 Infinity Architecture、下一代无限缓存技术以及 HBM 显存,这些元素被集成在一个封装 中。CDNA 3 是 AMD Instinct 系列加速器最新产品的专用计算架构,采用先进的 封装和小芯片技术。相较于 AMD CDNA2 架构,预计 CDNA3 架构在 AI 训练工 作负载上的每瓦性能将提高超过 5 倍以上。这使得 MI300 能够为 AI 训练等任务 提供更高效的性能。


在 CDNA 架构的基础上,AMD 推出了 Radeon Instinct AI 芯片系列,助 力其进军人工智能领域。Radeon Instinct 提供 AI 加速器芯片,用于机器学习、 深度学习和高性能计算等任务。这些 AI 芯片具备强大的并行计算能力,可提供卓越的 AI 推理和训练性能,有助于加快各种复杂的数据分析和人工智能工作负载。 芯片具备强大的并行计算能力,为复杂数据分析和人工智能工作负载提供出色的 AI 推理和训练性能。它们有助于加快各种复杂任务的处理速度。


3.2 显卡市场稳步增长,Radeon 系列经久不衰


3.2.1 AMD 显卡产品力行业领先


由于游戏、专业图形渲染等领域的旺盛需求,图形 GPU 市场正在稳步发展。 随着游戏玩家对游戏画质和图像帧率等要求的不断升级,高性能 GPU 在特殊渲染 算法等性能方面的支持变得至关重要,以满足游戏领域日益增长的技术需求。据 Konvoy 数据显示,2023 年全球游戏市场规模预计为 1880 亿美元,到 2028 年 将增长至 2880 亿美元,2023-2028 年的 CAGR 为 8.94%,这将持续拉动游戏领 域对 GPU 的市场需求。


在专业图形渲染领域,随着设计、动画及虚拟现实行业的迅速崛起,市场对高 性能图形 GPU 的需求持续增长。随着技术的不断进步,图形设计、编辑及渲染软 件得以持续优化,并充分利用高性能 GPU 的强大计算能力。高性能 GPU 的应用 不仅加速了图形渲染速度,还显著提升了渲染质量,确保了高清晰度、多帧率图像 的流畅呈现。


根据 Jon Peddie Research(JPR)报告数据显示,2023 年 Q3PC 使用的 GPU 出货量(包括集成和独立显卡)为 7190 万,环比增长 16.8%,同比下降 5.1%。 从长远来看,预计 GPU 在 2022-2026 年间将实现 4.18%的复合年增长率,预测 2026 年末将逼近 50 亿安装基数,未来五年 PC 中独立显卡的渗透率将达到 30% 的水平。


3.2.2 游戏、专业渲染等应用带动显卡市场持续增长


AMD 深耕图形 GPU 多年,Radeon 品牌系列显卡为其主要的 GPU 产品线。 该产品分为消费类和工作站两个系列,面对不同的消费需求。Radeon 显卡分为消 费类和工作站两个系列。其中,消费类的 Radeon 显卡主要面向游戏、娱乐和一 般图形处理等应用。它们提供高性能的图形渲染和游戏体验,并支持先进的图形技 术,如实时光线追踪和可变刷新率。Radeon 显卡采用不同的架构和型号命名,例 如 Radeon RX 7000 系列、RX 6000 系列等。而 Radeon Pro 显卡则专注于专 业工作站和创意领域的专业用户,显卡具备强大的计算和图形处理能力。Radeon Pro 显卡通常拥有更高的计算能力、更大的显存容量以及专业级驱动程序支持。例 如 Radeon Pro WX 系列。


在消费类显卡方面,AMD 的主要竞争对象为 Nvidia。就 AMD 的最新消费 类芯片 RX 7900 XTX 而言,其性能已靠近 Nvidia 最高端的的芯片 RTX4090,两 者均代表着当前显卡技术的巅峰水平。RX 7900 XTX 拥有 96 个光线追踪单元, 虽然相比 RTX 4090 的 128 个光线追踪内核数量较少,但 AMD 在这款显卡上增 加了对 DirectX Raytracing 和 Vulkan Raytracing 的支持,使其能够在光线追踪 游戏中提供不错的性能。相较于 RTX4090 1599 美元的建议零售价,定价 999 美 元的 RX 7900 XTX 以其合理的价格和稳健的性能表现,尤其是在不以光线追踪为 主导的应用场景中,为预算有限的用户提供了高性价比的选择。


3.3 未来已至,加速卡时代来临


3.3.1 生成式 AI“涌现”,加速卡需求突增


近年来生成式 AI 步入快速发展期。1950 年开始生成式 AI 出现早期萌芽,此 后 AIGC 处于漫长的沉淀积累期,决策式 AI 占据主流。随着 2014 年生成式对抗 网络等深度学习算法的提出,AIGC 步入快速发展期,生成内容的丰富度和精度都 有了较大的提升。英伟达 CEO 黄仁勋在 GTC 2023 大会上将 ChatGPT 比作 AI 的 “iPhone“时刻,AI 时代加速来临,推动生成式 AI 加速发展。 多模态大模型有望带动算力需求的进一步增长。伴随着大模型的主要交互方 式从文字升级为图片、音频以及视频,大模型对训练和推理的算力需求将进一步提 升。谷歌发布的 Gemini 模型开启了大模型的多模态时代,2024 年 2 月 16 日, 谷歌发布 Gemini 1.5,模型能力可以支持 100 万 Token 上下文的稳定处理。同一 时间,Open AI 发布了 sora 模型,在文生视频领域获得了重要突破,60 秒的视 频长度和对真实世界物理引擎的更优理解,有望带动大模型视频生成行业的快速 发展。大模型向视频等交互模式的升级有望带动训练侧算力需求的进一步提升,同 时这些表现惊人的模型或将加速生成式 AI 在应用侧的落地,加速推理侧算力需求 的增长。英伟达在 4Q23 业绩交流会上表示,目前来自推理侧的需求占比已经达 到 40%,伴随模型能力的进一步提升,推理侧算力需求的占比有望持续提升。


OpenAI 成立于 2015 年,从非盈利组织逐步转变为商业驱动。公司在 2018- 2020 三年时间内连续推出了 GPT-1、GPT-2 和 GPT-3 三款产品,后在 2022 年 底推出 ChatGPT,面向公众提供生成式 AI 服务,引起全球 AI 浪潮。2023 年 OpenAI 推出万亿参数量级的 GPT-4,能力再上一个台阶。2024 年 2 月,公司推 出的 Sora 文生视频模型相较此前的同类型模型有着全方位的能力提升,引发全球 轰动。公司计划将在 2024 年推出 GPT-5 大模型,预计将达到近百万亿参数的级 别,有望进一步提升全球算力需求。 谷歌早在 2023 年 2 月就推出了对标 GPT 的 Bard 大语言模型,此后在 2023 年 5 月发布了 PaLM 2 模型。谷歌最重要的大模型产品是在 2022 年 12 月推出的 Gemini 1.0 家族,该模型是一款具有突破性意义的多模态 AI 大模型,可以处理 文本、代码、图像、音频、视频,Gemini 有三个子模型,其中 Nano 被用于谷歌 的 Pixel 8 Pro 智能手机中。2024 年 2 月,谷歌发布了 Gemini 1.5 模型。相较 于此前 Gemini 1.0Pro 版本,Gemini 1.5 pro 将上下文处理能提从 3.2 万 Tokens 提升至 100 万以上,处理能力涵盖包括 1 小时的视频、11 小时的音频、 超过 3 万行代码或超过 70 万字的代码库。同月,谷歌又推出了 Gemma 开源大 模型,更加轻量化,保持免费且允许商用。 Meta 是全球最重要的开源大模型厂商,主要目的为用开源的方式快速搭建自 身的生态,从而在未来更方便地获取数据和推广应用。Meta 最重要的大模型产品 是 LLaMa 模型家族,众多大模型厂商在 LLaMa 模型的基础上进行训练和微调, 生成自己的大模型。2023 年 7 月,公司推出 LLaMa2 模型,训练数据集达到 2 万 亿 token,涵盖 7B、13B 和 70B 三个模型。据 Meta,公司计划在 2024 年 7 月 发布 LLaMa3 模型,全球开源大模型能力有望全面提升。


根据大模型的运算原理,训练和推理所需的算力与模型参数成正比例关系, GPT5 有望带动大模型训练和推理需求的进一步增长。此前市场担忧在大模型在 参数指数级提升的情况下,模型能力提升的边际效应是否会减弱,甚至停止,而验 证的方法就是看 2024 年将要推出的 GPT5 的能力是否出现质变。Altman 近期在 采访中表示,GPT5 的能力相较于 GPT4 将会是一个重大进步,并且他认为目前的 大模型能力仍然处于初级阶段,在未来 5-10 年内,模型的能力提升仍将保持一条 陡峭的曲线。伴随十万亿参数量级的 GPT5 推出,全球最强的大模型能力和参数 再上一个台阶,意味着用于训练大模型的算力需求也将随之提升,同时 H200、 B100 等加速卡依次推向市场,或将带动云厂商新一轮的算力军备竞赛。


3.3.2 云商算力竞赛加速,资本开支快速提升


北美云商资本开支在 2023 年有所下滑,但伴随 AI 的强势增长,2024 年北 美云商资本开支有望重回高速增长态势。云厂商目前已成为英伟达下游加速卡最 大的需求来源,由于全球经济疲软,2023 年云厂商资本开支增速有所放缓,前三 季度北美四大云厂商合计资本开支均为负增长,但受益于 AI 带来加速卡的大量需 求,4Q23 开始云厂商快速加大资本开支,据 Bloomberg,4Q23 北美四大云厂 商合计资本开支为 463.68 亿美元,同比增长 20.9%,预计 2024 年四大云商资本 开支合计将达到 1823.35 亿美元,同比增长 23.7%。 云厂商资本开支中,AI 服务器的比重快速提升。例如,Meta 此前表示在 2024 年底将拥有 35 万张 H100,拥有近 60 万个 GPU 等效算力,而据 Omdia 统计, 2023 年 Meta 采购 H100 数量仅为 15 万张。


3.3.3 AI 持续推进,加速卡市场空间广阔


全球生成式 AI 计算力市场规模高速扩张。据 IDC 数据显示,全球 AI 计算市 场规模将从 2022 年的 195.0 亿美元增长到 2026 年的 346.6 亿美元。其中,全球 生成式 AI 计算力市场规模 2022 年仅为 8.19 亿美元,而到 2026 年,其规模将扩 张至 109.88 亿美元,年均复合增长率达到 91.39%。AI 算力市场的扩大将带来大 量的 AI 芯片需求。 AI 芯片市场规模持续扩大,GPGPU 芯片成长空间更为广阔。根据 Frost&Sullivan 的数据, 2021 年全球人工智能芯片市场规模为 255 亿美元。预计 从 2021 年到 2026 年,全球人工智能芯片市场规模将以 29.3%的复合增长率持续 增长。到 2023 年,该市场规模将达到 490 亿美元;而到 2026 年,市场规模将增 长至 920 亿美元。


3.4 MI300 系列性能强劲,硬件参数领先


AMD 于 2023 年 Q2 官宣的 MI300 系列产品引得广泛关注,相较于历代产 品在各方面都有了质的提升,有望与行业巨头英伟达旗下高端芯片 Grace Hopper 媲美。 在芯片设计方面,MI300 基于 AID(有源中介层芯片)构建块,采用台积电 的N6工艺制造。该芯片配备2个HBM内存控制器、64MB末级附加内存(MALL) 无限缓存、36 通道 xGMI/PCIe/CXL 以及 AMD 片上网络(NOC)。在 4 个区块 配置中,MALL 缓存为 256MB,而 H100 为 50MB。AID 最重要的部分是它在 CPU 和 GPU 计算方面是模块化的。AMD 和台积电使用混合键合将 AID 连接到其 他小芯片。这种通过铜 TSV 的连接允许 AMD 混合并匹配 CPU 与 GPU 的最佳比 例。 MI300 的四个 AID 以超过 4.3TB/s 的对分带宽相互通信,通过超短距离(USR) 物理层实现。每个 AID 共可以有 2 个 Banff 芯片,总共 76 个 CU。MI300 的最 大 XCD/GPU 配置将提供 304 个 CU。与具有 220CU 的 AMDMI250X 相比提升 了近 140%。每个 AID 可以有 3 个 Zen4 小芯片,总共 24 个核心。MI300 的最 大 CCD/CPU 配置可提供多达 96 个核心。在 GPU 方面,计算小芯片称为 XCD, 代号为 Banff。Banff 采用台积电 N5 工艺技术,尽管仅启用了 38 个 CU,但它总 共包含 40 个计算单元。


从架构角度来看,MI300 是一款采用先进的 CPU+GPU 仿生人脑结构的产 品。它是 AMD 首个将 Zen4 CPU 和 CNDA3 GPU 结合的一体化产品,也是市场 上首个集成了"CPU+GPU+内存"的产品。MI300 采用了 3D 堆叠技术和 Chiplet 设计,配备了 9 个基于 5nm 制程和 4 个基于 6nm 制程的芯片组。在制程方面, MI300 与英伟达 Grace Hopper 的 4nm 制程(实属于台积电 5nm 体系)相当。 它拥有 1460 亿个晶体管数量,超过了英伟达 H100 的 800 亿个和前代产品 MI250X 的 582 亿个。其核心架构为 AMD 的新一代 CDNA3 架构,具备 24 个 Zen 4 数据中心 CPU 核心和 128GB HBM3 内存,并以 8192 位宽总线运行。相 较于 AMD CDNA2 架构,预计 CDNA3 架构在 AI 训练工作负载上的每瓦性能将 提高超过 5 倍以上,这使得 MI300 能够为 AI 训练等任务提供更高效的性能。 MI300 性能逼近 H100。MI300 采用了 8 个 HBM3 堆栈包围 4 个象限的硅 晶片。新的 HBM3 的最高速度为 5.6 GT/s,八个 16GB 或 24GB 堆栈形成 128GB 或 192GB 统一内存,带宽高达 5.6 TB/s。与 Nvidia H100 SXM 80GB 相比,带 宽提高了 72%,容量提高了 60%至 140%。算力方面,MI300X 的峰值 FP16 性 能可以达到 1331TFLOPS。


3.5 ROCm 生态逐步建立优化


3.5.1 软件生态至关重要,CUDA 较为领先


GPU 的软件生态主要包括一些开源或专有的平台和工具,它们允许开发者利 用 GPU 进行高效的并行计算。在 GPU 市场中,成熟的软件生态已成为各厂商之 间难以逾越的护城河。相较于不断迭代的微架构技术,生态所带来的用户粘性在长 期竞争中显得更为关键。 目前英伟达的 CUDA、AMD 的 ROCm、微软的 DirectX 以及 OpenCL、 OpenGL、Vulkan 等已成为主流的开发平台,为开发者提供高效、便捷的 GPU 计 算解决方案,随着技术的不断发展和应用场景的不断拓宽,这些平台将继续发挥重 要作用。 CUDA 是英伟达于 2006 年推出的一种异构计算平台,开发人员能够通过 CUDA 对 GPU 进行通用计算(GPGPU)的部署。在 CUDA 编程模型中,Host 代表主机部分,主要由 CPU 和主机内存组成;而 Device 代表设备部分,主要由 GPU 和显存构成。Host 与 Device 之间通过 PCI Express 总线进行高效的数据传 输和通信。这种架构使得 CUDA 能够充分利用 GPU 的并行计算能力,实现高性 能的并行计算任务。


CUDA 在 Host 运行的函数库包括了 Libraries、Runtime 和 Driver 三大部 分。其中,Libraries 通常是一些成熟的高效函数库,Runtime API 则简化了应用 开发过程,提供了便捷的接口和组件,让开发者能够轻松地调用并自动管理 GPU 资源。应用程序可以通过调用 CUDA Libraries 或者 CUDA Runtime API 来实现 所需功能。效的控制 GPU 资源的能力。当涉及到 Device 端的计算任务时,CUDA 使用内核函数进行并行计算和数据处理,从而充分发挥 GPU 的性能优势。 CUDA 生态支持多种编程语言。目前的 CUDA 12.0 支持 C、C++、Fortran、Python 等多种编程语言,还支持众多第三方工具链。此外,英伟达在 CUDA 平 台上提供了 CUDA-X,CUDA-X 是一个功能强大且灵活的软件加速库集合,开发 人员可以通过 CUDA-X 快速将这些库部署到多种设备内的 NVIDIA GPU 上,包 括台式机、工作站、服务器、云计算和物联网(IoT)设备。CUDA 平台对开发者 友好程度高,其提供的一系列容器部署流程简化以及集群环境扩展应用程序的工 具使得 CUDA 技术能够适用于更广泛的领域。


凭借先发优势和长期技术积累,CUDA 生态圈已经具有更高的成熟度和稳定 性。这使得开发者能够借助已有的资源和文档进行开发和部署,减少学习曲线和风 险,并为英伟达 GPU 的开发、优化和部署多种行业应用提供了独特的先发竞争优 势。全球范围内,截至 2020 年,CUDA 开发者数量达到了 200 万,并于 2023 年 增长到 400 万,其中包括 Adobe 等大型企业客户。较高的需求粘性也使得 CUDA 的使用者更倾向于使用熟悉的、更兼容的软件,因此更多开发者选择或持续使用 CUDA。


3.5.2 ROCm:扩大优势,持续追赶 CUDA 生态


AMD 于 2016 年 4 月发布了 ROCm 生态系统,目标是建立可替代英伟达 CUDA 的生态系统。最新版本的 ROCm 生态系统支持 HIP 和 OpenCL 编程模型, 可顺利迁移 CUDA 应用,并增强了对 AI 框架如 TensorFlow、PyTorch 和 MXNet 等的支持。同时,新版本还优化了 ROCm 库和工具的性能与稳定性,为用户提供 更高效稳定的计算体验。 与其竞争对手相比,AMD 的软件生态系统在一些方面具有不同的特点和优势: 1.开放性与开源:AMD 采用开放的软件战略,致力于提供开放源代码的解决 方案。AMD 的 ROCm 平台是一个开源项目,允许开发者自由地使用、修改和贡 献代码。这种开放性促进了社区的合作和创新,并且使得用户能够更加灵活地定制 和优化软件。 2.广泛的操作系统支持:AMD 的软件生态系统广泛支持多个操作系统,包括Windows、Linux 和 macOS。这使得用户能够在各种环境下进行开发和部署,以 满足不同的需求。 3.多供应商支持:AMD 的软件生态系统不仅支持 AMD 自家的处理器和显卡 产品,还支持与其他供应商的硬件集成。例如,AMD 的 ROCm 平台支持多种 AMD GPU 架构,如第四代 GNC 架构 Polaris、RDNA2/3、CDNA2/3 等,这为用户提 供了更多的选择和灵活性。 4.合作伙伴关系:与软件开发公司和领先的科技企业建立合作伙伴关系是 AMD 软件生态系统的重要组成部分。通过与合作伙伴共同开发和优化软件,AMD 能够提供更好的兼容性和优化性能。


与 CUDA 相比,ROCm 也存在一些劣势。尽管 ROCm 在不断发展和改进, 但相对于已经成熟的 CUDA 系统,其生态系统和工具链的成熟度还有一定差距。 首先,它仅支持 Instinct、Radeon 系列产品,而 CUDA 则涵盖了英伟达大部分 产品线。其次,与英伟达相比,AMD 在 GPU 市场份额上的竞争力相对较低,因 此 ROCm 的生态系统相对较小,这可能导致较少的第三方库、工具和文档资源可 用。英伟达的CUDA软件库广泛覆盖了多个领域,而ROCm软件库只包括了CUDA 中的一些部分功能,如部分数学函数、深度学习库等,主要被研究机构使用,价值 量较低,并且在应用场景的拓展上存在较大困难。 综合来看,AMD 的软件生态系统在开放性、多供应商支持和合作伙伴关系等 方面具有优势。如果开发者注重开放性和平台灵活性,以及希望避免对特定硬件供 应商的依赖,那么 ROCm 可能是一个更好的选择。为了进一步追赶 CUDA 生态, AMD 应当进一步拓展硬件支持,加强 ROCm 生态系统构建,并优化硬件与软件 的协同,聚焦关键应用领域,从而提高在关键领域的竞争力。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

超威半导体研究报告:算力帝国的挑战者.pdf

锡行业研究报告:半导体上游核心材料,供给趋紧+需求复苏下价格中枢有望持续提升.pdf

京仪装备研究报告:国内半导体专用温控废气处理设备专精特新“小巨人”.pdf

半导体设备行业专题报告:键合设备,推动先进封装发展的关键力量.pdf

半导体封装设备行业深度报告: 后摩尔时代封装技术快速发展,封装设备迎国产化机遇.pdf

半导体行业投资策略:AI有望推动新一轮半导体周期上行.pdf

【民生证券】深度报告:算力帝国的挑战者.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00