【华安证券】24年成长可期,AI芯片MI300驱动公司转型.pdf

2023-12-28
2页
1MB

1 AMD 基本情况

1.1 公司营收拆分


公司是全球第二大 CPU、GPU 厂商。主营要产品包括面向消费者、企业客户 和数据中心的 CPU、GPU、嵌入式芯片(SoC/FPGA)等等。23 年营业收入预计可以 达到 226 亿美元,23 年归母净利润预计可以达到 43.85 亿美元。


客户业务(Client) - CPU


23Q3 客户业务(CPU)收入达到 14.53 亿美元(yoy 42.2%, qoq 45.6%,占比 25.1%),主要是 Ryzen 7000 系列 CPU 销售回升,同时渠道库存回到正常水平, 渠道接纳公司 CPU 出货(ship-in)和终端消费趋于平衡。客户业务(Client)为消费市 场提供笔记本 CPU 和台式机 CPU。22Q3 之后,公司 Client 业务下滑较多,主要受 到 PC 终端消费不景气,而渠道侧 CPU 库存高企影响。公司 CPU 业务 22 年营收达 到 62 亿美元。预计后续 PC 市场恢复有望带动 CPU 业务增长复苏。24 年随着库存 去化完成,高基数影响消退,AI PC 等新需求发展,公司 CPU 业务有希望维持增长。




游戏业务(Gaming) - GPU


23Q3 游戏业务(GPU)收入 15 亿美元(yoy -7.7%, qoq -4.7%, 占比 26%), 23Q3 AMD 半定制显卡(Sony PS 游戏主机等设备上使用)收入下降,但是 Radeon GPU 销售额有一定程度提升。公司游戏业务为消费市场提供台式 GPU、笔记本 GPU 和游戏主机半定制类 GPU。近几个季度,受到 PC 需求疲弱和渠道库存高企影响, 收入有一定程度下降。


数据中心业务(Data Center): 23Q3 数据中心业务(Data Center)收入 15.98 亿美元(yoy -0.7%, qoq 21%,占 比 27%),第 4 代 AMD EPYC CPU 销量有所提升,数据中心使用的 SoC 产品销售 有一定程度下滑。AMD 数据中心业务涵盖数据中心 GPU 加速器、服务器 CPU 和 Xilinx 系列产品,是 AMD 近年增长最快业务板块。目前,公司的 Instinct MI 300A 和 MI 300X GPUs 即将于 23Q4 进入量产环节,将助力于 HPC,云和 AI 客户的技 术部署。 MI 300X 具有 192 GB HBM3, 1530 亿个晶体管,存储器带宽 5.2TB/s,12 颗 HBM3,;同类竞品英伟达 H100 SXM 具有 80GB HBM3,800 亿个晶体管,存储器 带宽 3.35TB/s,6 颗 HBM3;在训练开源 Bloom 大模型(1760 亿参数),MI300X 平 台的性能是 H100 HGX 平台(2 个平台均 8 块 GPU)的 1.6 倍。


嵌入式业务(Embedded): 23Q3公司嵌入式业务(Embedded)收入 12.43亿美元(yoy -4.6%, qoq -14.8%, 占比 21.4%),嵌入式业务同比下滑系通信市场相关收入下降,同时一些嵌入式芯片 终端市场库存仍处于修正过程中。公司嵌入式芯片包括 FPGA 和 SoC 等,主要应用 于航空航天、通信、工业控制、医疗设备、国防等场景,公司 2022 年完成对 Xilinx 公司收购,Xilinx 相关嵌入式产品为该业务提供增量。2022 年公司嵌入式业务收入 45.5 亿美元,占总收入 19.3%。


1.2 公司历史


AMD(Advanced Micro Devices)是一家美国著名的半导体制造商,以其在处 理器和相关技术方面的突破而广受认可。


1)成立背景:AMD于1969年在加州圣克拉拉由杰里·桑德斯(Jerry Sanders) 和其他合伙人创立,桑德斯此前在 Fairchild Semiconductor 工作。 2)初期成长:最初,AMD 专注于逻辑芯片的生产。1970 年代初,它开始制造 自己的半导体产品,并与如英特尔等其他公司建立了重要合作。 3)与英特尔的关系变迁:1970 年代,AMD 与英特尔签订了互相授权的协议, 制造英特尔的微处理器。但到了1980年代,两公司的关系逐渐演变为竞争。 4)独立处理器开发:1980 年代末,AMD 开始自主开发微处理器。1991 年, 推出其首个成功的自有处理器——Am386,这是英特尔 386 的复制版本。 5)Athlon 处理器带来转机:1999 年,AMD 推出了 Athlon 处理器,这是首个 超越英特尔 Pentium III 的产品。Athlon 的成功帮助 AMD 在高端处理器市 场站稳脚跟。 6)64 位处理器创新:2003 年,AMD 推出了行业首个与 x86 兼容的 64 位处 理器—Opteron 和 Athlon 64,对整个芯片行业产生深远影响。 7)市场波动与转型:虽然 2000 年代取得了显著成就,AMD 也遭遇了财务困 境和市场份额波动。2011 年,公司决定从纯芯片制造转型为以设计为中心。 8)近年发展:最近几年,凭借 Ryzen 和 EPYC 处理器系列,AMD 再次成为高 性能处理器市场的关键竞争者。这些产品在性能和效能方面与英特尔竞争, 并在多个领域取得成功。2023 年,AMD 发布了关于 MI300X 和 MI300A 这两 款 AI 新品的核心细节。AMD 收购了开源 AI 软件公司 Nod.ai,将进一步增强 AI 软件生态系统。


1.3 公司近期事件


(一)、AMD 推出 Instinct MI300X GPU 和 MI300A AP: 2023 年 12 月 6 日,AMD 发布全新 MI300 系列 AI 芯片,包括:MI300A(用 于高性能计算)和 MI300X(用于训练和推理)。MI300X GPU 使用 CDNA3 架构, HBM3 达到 192GB,内存带宽达到 5.3TB/S, Infinity Fabric 带宽达到 896GB/s, 相比 H100 推理速度更快。在架构上,MI300X 有 8 个 XCD(加速计算芯片)、4 个 IO 芯片(接口芯片)、8 个 HBM3 堆栈(三星高性能存储芯片),缓存有 256MS, 封装技术使用 3.5D 封装。 在计算平台方面,AMD MI300X 平台的内存容量优势可以容纳比 H100 HGX 多 两倍的 30B 参数训练模型和 70B 参数推理模型。此外,MI300X 平台最多可支持 70B 训练和 290B 参数推理模型,是 H100 HGX 支持的模型的两倍。


(二)、AMD 在印度班加罗尔开设了最大的全球设计中心: 2023 年 12 月 4 日,AMD 全球最大的设计中心落户印度。Technostar 研发园区 是公司在 Semicon 2023 上宣布的 4 亿美元印度投资的一部分,占地 500,000 平方 英尺。园区计划在未来几年容纳约 3,000 名 AMD 工程师,专注于半导体技术的设 计和开发,包括 3D 堆叠、人工智能和机器学习。


(三)、AMD 面向高性能工业自动化、机器视觉与边缘应用扩展锐龙嵌入式处 理器系列: 2023 年 11 月 14 日,AMD 推出 AMD Ryzen™(锐龙)嵌入式 7000 系列处 理器,该处理器针对工业市场的高性能需求而优化。公司将“Zen 4”架构和集成的 Radeon 显卡相结合,凭借其扩展的特性与集成功能,锐龙嵌入式 7000 系列处理 器在工业自动化、机器视觉、机器人和边缘服务器领域应用空间广阔。 锐龙嵌入式 7000 系列处理器采用 5nm(纳米)技术、同时提供 7 年生产供 货承诺的嵌入式处理器,集成了 AMD Radeon RDNA™ 2 显卡,无需针对工业应 用的独立 GPU。由于嵌入式应用需要额外的操作系统软件选项,锐龙嵌入式 7000 系列处理器在支持 Windows 10 和 Windows 11 的基础上,还支持 Windows Server 和 Linux Ubuntu。锐龙嵌入式 7000 系列处理器还包括多达 12 个高性能 CPU 核心,结合其集成的功能特性和广泛的操作系统选择,为系统设计人员提供了 卓越的集成便利性。 锐龙嵌入式 7000 系列处理器拥有 1)“Zen 4”架构,搭载多达 12 个高性能 CPU 核心;2)集成 Radeon RNDA 2 显卡,2.2GHz 频率下最大 1WGP;3)AM5 插槽,LGA 封装 40mm x 40mm,1718 引脚;4)热设计功耗( TDP )范围为 65W 至 105W;5)支持双通道 ECC DDR5 内存,速度高达 5200MT/s6)多达 28 个 PCIe® 5 片上连接通道。


(四)推出 AMD Radeon RX 7800 XT 和 Radeon RX 7700 XT 游戏显卡为 1440p 游戏的未来提供动力: 2023 年 8 月 25 日,AMD 在科隆国际游戏展上发布 AMD Radeon RX 7800 XT 和 Radeon RX 7700 XT。两款新显卡可为 AAA 和电子竞技游戏提供高性能、高刷 新率1440p游戏体验。AMD同时发布了基于下一代流行的时域图像放大技术的AMD FidelityFX Super Resolution 3,可为支持的游戏提供巨大的性能提升。 AMD Radeon RX 7800 XT 和 Radeon RX 7700 XT 显卡分别提供 16GB 和 12GB 的高速 GDDR6 显存。作为 1440p 游戏的显卡,AMD Radeon RX 7800 XT 具有 60 个 AMD RDNA 3 统一计算单元;AMD Radeon RX 7700 XT 显卡是 1440p 的主力产品,配备 54 个 AMD RDNA 3 计算单元。


两款产品的主要特性和功能包括: 1)AMD RDNA 3 架构。两者采用重新设计的计算单元,具有统一的光线追踪 和 AI 加速器,第二代 AMD Infinity Cache (高速缓存)技术和第二代光线追踪技术。 2)专用 AI 加速。与 AMD RDNA 2 架构相比,新的 AI 指令和增加的 AI 吞吐量 高出两倍以上的平均性能。 3)改进的流媒体质量和性能。改进的 AMD 编码器在流媒体传输和录制时提供 了增强的视觉质量。AMD AI 和内容自适应机器学习技术也集成到 AMD Media Framework 中,实现低比特率和分辨率下进行流媒体传输时实现更清晰的文本。 4)超高清编码。通过高性能的编码/解码媒体引擎,实现全面的 AV1 编码/解码 支持、宽色域和高动态范围增强功能。 5)AMD Radiance Display 引擎。支持基于 DisplayPort 2.1 和 HDMI®2.1a 的 显示器,为游戏和内容创建工作负载提供超高分辨率和高刷新率。 6)AMD FidelityFX Super Resolution(超级分辨率锐画)技术。支持 300 款已 经发布或即将发布的游戏。


(五)、AMD 推出首款基于 ASIC 的 5nm 媒体加速器卡: 2023 年 4 月 6 日,AMD 推出专为推动大规模直播互动流媒体服务新时代而打 造的 AMD Alveo™ MA35D 媒体加速器,该卡具备两个 5nm 基于 ASIC 的、支持 AV1 压缩标准的视频处理单元(VPU)。随着直播内容占据全球视频市场超 70%的份额, Alveo MA35D 媒体加速器可提供高通道密度(每卡支持多达 32 路 1080p60 转码 密度)、高功效以及超低时延性能,可有效降低扩展计算密集型内容交付所需的基础 设施成本。相较于上一代 Alveo U30 媒体加速器,Alveo MA35D 可提供高达 4 倍 的通道密度、最大 4 倍的 4K 编码时延降低以及 1.8 倍压缩效率提升。


2 客户业务(Client) - CPU

2.1 行业市场空间


创新技术驱动半导体产业高速增长,产业结构不断优化。CPU 产业链可分为上游设 备技术支撑产业、中游芯片设计、制造、封装和测试,下游产业应用。最初半导体行业 采用 IDM 模式,即芯片设计、制造及封装测试一体化,代表公司包括英特尔和三星等。 后续产生台积电等半导体代工企业,Fabless 模式逐渐成为主流,即把芯片的设计和制 造相互独立,打造专业化分工流程。目前,CPU 的主要厂商有英特尔和 AMD。英特尔 采用 IDM 形式,AMD 采用 Fabless 形式。


芯片产业链上游包括 CPU 指令授权、EDA 软件、设备和材料。架构授权共分三类, 包括架构层级授权,内核层级授权和使用层级授权,芯片制造企业需要根据自身所要生 产的芯片购买不同层级的架构层级授权。最高级别的架构层级授权代表可以对架构进行 大幅度改造,扩展指令集。EDA 软件是设计大规模集成电路的重要工具,代表性公司有 Cadence(楷登)、Synopsys(新思)、Siemens(西门子)。设备和材料部分包括光刻 机、刻蚀机、薄膜机等。其中 ASML 所生产的高端光刻机是生产芯片的关键设备,决定 了芯片的精度和性能。材料包括 SUMCO,信越等厂商。


芯片产业链中游:设计、制造、封装和测试。IC 设计环节偏向芯片设计,将生产、 销售等环节进行外包处理。晶圆制造是芯片制造最复杂环节,工艺包括热处理、光刻、 刻蚀、离子注入、薄膜沉积、化学机械研磨和清洗,多流程高精度使得该环节投入相较 较高。封装和测试环节是对芯片进行封装并进行性能测试,保证芯片达到设计和生产标 准,是芯片生产最后环节。 芯片产业链下游则是把封装测试好的芯片供应给下游的厂商,后续由厂商基于芯片 功能特性应用于台式电脑、笔记本、手机、服务器、网络通信等领域。。


微处理器(Microprocessor)市场稳定增长,移动设备普及和发展推动处理器 的升级和销售。据统计,2022 年全球微处理器市场规模约 910 亿美元,预计到 2025 年可达到 1032 亿美元,到 2030 年可达 1287 亿美元,2021 年到 2025 年 5 年复合 增长率(CAGR)约为4.25%,2021到2030年10年复合增长率(CAGR)约为4.40%, 整体保持每年 3%-5%的增长速度。


全球 PC 出货量回暖,带动处理器市场规模增长。据 IDC 统计,在 2016 年到 2021 年,PC 出货量稳定增长,2021 年达到峰值主要原因是 PC 需求集中释放,预 计 2023 年可恢复至 2020 年同期水平,并在 2025 年到 2030 年期间出货量保持稳 定。经测算,2022 年至 2027 年复合增长率达 4.5%,预计未来 5 年可实现平稳增 长。


在 CPU 市场中,英特尔 CPU 市占率最高,在特定产品序列中,AMD 处理器 相比英特尔有一定价格优势。出货量方面,2016 年英特尔出货量占比超全球市场 90%,AMD 占比约为 9%。2022 年,英特尔出货量占比下降至 75%左右,AMD 占 比增长值 15%左右,主要得益于 AMD 在技术工艺上的高速发展与迭代,后续有望 通过技术和价格的双重优势进一步提高市占率。


2.2 产品梳理及竞品对比


AMD 创立初期主要业务为 CPU 业务,在 1981 年获得 Intel X86 系列处理器授 权后,业务规模不断扩大,做到行业第二。目前 CPU 市场上 2 个主流厂商为英特尔 和 AMD。AMD 主流 CPU 产品可分为锐龙 9、锐龙 7 和锐龙 5,每个类目又可以分 为锐龙 7000 系列、锐龙 6000 系列和锐龙 5000 系列,名称后缀代表该类 CPU 应 用场景。


分应用场景看,CPU 可分为台式处理器和笔记本处理器。台式处理器由于可以 额外配备独显,因此更注重 CPU 主频等方面的迭代升级,而笔记本处理器相较于台 式处理器,不仅需要兼顾 CPU 主频,线程和架构等方面的迭代升级,还需要配备较 高水平的显卡(集显),目前 AMD 处理器内置 Radeon 显卡(型号:Radeon™ Graphics)。


台式处理器: 目前AMD最新的台式处理器芯片为锐龙9 7000系列的R9 7950X3D,采用5nm 制程,zen4 架构,搭载 16 核 32 线程,DDR5 5200MT/S 最大内存速度。锐龙 9 相 较于锐龙 7 拥有更多内核,在频率和线程上更具优势,可以满足更加苛刻的计算需 求。锐龙 7000 系列较锐龙6000系列采用了更为先进的 zen4 架构,制程上突破5nm, 对于性能的释放更具优势。


笔记本处理器: 从性能方面看,最优质的 AMD 笔记本处理器为 R9 7945HX3D,于台式处理器 R9 7950X3D 类似,拥有 5nm 制程和 16 核 32 线程,和 DDR5 5200MT/S 最大内存 速度,但在主频方面笔记本处理器整体低于台式处理器,这主要由于笔记本体积受 限,台式不会考虑其他配件的占地问题,笔记本需要再有限的体积内尽可能释放处 理器最高性能。另外,笔记本应用场景更多在移动办公,需要考虑续航情况,因此 能耗也会设计偏低。


综合来看,笔记本由于低电压、散热弱、定位长续航等方面的需求和影响,较 同级别的台式处理器性能上会有大约 10%的差距。架构上整体保持一年一更新,在 制程工艺上不断突破极限,预计在 24-25 年推出 zen5 的 4nm、3nm 工艺芯片。


目前市场上 CPU 主流厂商只有英特尔和 AMD,AMD 所推出的 R9,R7 和 R5 与 英特尔所推出的酷睿 i9、酷睿 i7 和酷睿 i5 相对标,两个系列产品均有各自的优势。 以 AMD 的 R9 系列和英特尔的 i9 系列做对比,二者皆是各自厂商最新一代高端桌 面处理器。以下简略从四个方面分析: 1. 架构和核心数:R9 主要采用了 Zen 3 和 Zen 4 架构,i9 处理器采用 Raptor Lake 架构,性能表现上 Zen 3 和 Zen 4 会优于英特尔的 Raptor Lake 架构。 R9 至多拥有 16 核 32 线程,i9 至多拥有 24 核 32 线程,在核的数量上英特 尔 i9 系列占优。 2. 从 CPU 主频和缓存:AMD R9 系列频率(最高 4.7GHz)和缓存(72MB), 显著高于英特尔 i9 系列频率(最高 3.2GHz)和缓存(24MB),在运行效率 上更具优势。 3. 性能和能耗:在多线程应用方面,AMD R9 处理器相较于英特尔 i9 表现更 加出色;在单线程应用方面,i9 更具优势。因此 R9 处理器更适合复杂情况 下的图像、编码和视频等任务,i9 适合游戏等单线程任务。 4. 价格:R9 在价格上比同等级的 i9 处理器更低,更适合对性能有一定要求, 但预算有限的用户;i9 主打高端市场,在高端计算机市场中占据主导地位。


2.3 产品技术原理


基础原理 CPU(中央处理器)是计算机的心脏,承担着执行程序指令和数据处理的关键角色。 它由若干核心部件组成,每个部件都扮演着独特的角色。以下是对 CPU 主要组成部分 的简化描述: 控制单元(CU):CPU 的指挥中心,负责提取内存中的指令,对指令进行解 码,并指挥其他部分完成指令。 算术逻辑单元(ALU):负责进行所有算术和逻辑运算,例如加减乘除和比较 运算等。 寄存器:CPU 内的小容量高速存储区域,用于暂存正在处理的指令、数据和 运算结果。 缓存存储器(Cache Memory):CPU 内的另一种快速存储,用于临时保存最 近访问的数据和指令,减少对主内存的访问需求。 时钟(Clock):内部时钟控制 CPU 执行指令的速率。以赫兹(Hz)为单位, 决定了 CPU 处理指令的快慢。 总线(Bus):电子通道网络,用于 CPU 内部各组件之间,以及 CPU 与计算 机其他部件间的数据传输。 输入/输出(I/O)接口:使 CPU 能够与计算机的其他硬件(如硬盘、USB 等) 进行数据交换的接口。 指令集架构(ISA):CPU 可识别和执行的指令集,决定了 CPU 可以进行的操 作类型。 这些部件协同工作,让 CPU 能执行复杂计算任务、处理数据和运行软件应用。随 着技术进步,现代 CPU 还可能包括额外高级功能,如多核处理、超线程技术、动态频 率调节等,进一步提升效能和性能。




运行步骤可分为 3 步: 1. 读取指令:CPU 首先读取程序计数器的值(指令内存地址),其次控制单元指 定访问的内存地址,通知内存设备准备数据,并通过数据总线传输给 CPU,CPU 接收到数据后,便将指令数据存入指令寄存器,完成读取。 2. 分析指令:在接收到指令后,首先会先确定指令的类型与参数,一般会分为计 算类指令和存储类指令。若指令为计算类指令,则交给 ALU 进行运算处理;若 指令为存储类指令,则交给 CU 处理执行。 3. 指令执行后:PC 自增,代表指向下一条指令,大小由 CPU 尾款决定,例如 32 位 CPU 指令为 4 字节,那么则需要 4 个内存地址存储,PC 也会自增 4。


技术储备


AMD 推出了面向服务器和台式机应用的创新 AMD 3D V-Cache 技术的 Zen4 架构 CPU,包括 R9 7950X3D、R9 7900X3D 与 R 7 7800X3D。3D V-Cache 是一种先进 3D 堆叠技术,可以显著增加处理器的缓存容量;该技术采用业内首创的 Hybrid bond 加穿 透硅通孔技术(TSV)工艺,基于 AMD 内部数据,AMD 3D V-Cache 技术与层叠封装 2D 小芯片相比互联密度大于 200 倍,与 Micro Bump 3D 相比互联密度大于 15 倍,与 Micro Bump 3D 相比互联密度大于 3 倍。AMD 3D V-Cache 技术采用了 3D 封装技术的 异构集成,为 7nm x86-64 CPU 实现混合 64MB 堆叠高速缓存。


3D V-Cache 技术是通过对原有的 2D 封装技术改进,在处理器上引进垂直堆叠缓存 技术,在传统的平面技术上通过增加垂直方向上缓存晶片 CCD 数量,进而提高 CPU 片 内三级缓存 L3 容量,这项技术的优势在于无需增加芯片的大小或者缩小逻辑电路,因 此在架构、内核和线程数相同的条件下,大大提升 CPU 整体性能。以 AMD R7 5800X3D 和 AMD R7 5800X 作对比,在架构(Zen3)、核心数(8)和线程数(16)等指标相同 的情况下,应用 3D V-Cache 技术的 AMD R7 5800X3D 的 L3 容量可达 96MB,是 R7 5800X 的 3 倍。


提高 L3 缓存容量意义是,在理想情况下,内存会优先选择最小延迟的处理器进行 交互,从而达到最快相应,最高效率。缓存等级分为 L1、L2、L3 三个级别,低级别缓 存提供更小的延迟,较大级别缓存拥有更高的延迟,但同时也会提供更大容量,连接多 个内核。高级别的缓存允许更多的数据储存在处理器上,从而减少从内存上读取的次数。 越高级别的缓存可以帮助 CPU 减少等待运行时间,从而提高效率。


3 游戏业务(Gaming) – GPU

3.1 行业市场空间


游戏市场带动 GPU 增长,AI 大模型快速发展为 GPU 提供增长动能。GPU 在 计算机上分为两类,分别为独立显卡(独立于 CPU)和集成显卡(集成在 CPU 上)。 目前市场上是寡头竞争的市场格局,主要供应商为 Intel、AMD 和英伟达。PC 端游 戏用途是目前 GPU 的主要用途。并且 22Q1 前消费级 GPU 保持着较高增速增长, 据 Verified Market Research 统计,2022 年全球 GPU 市场空间约为 448 亿美元。


全球 PC 出货量维持稳定,为 GPU 市场提供底层支撑。根据 IDC 统计 2022 年 全球 PC 出货量为 2.75 亿台,2027 年有望达到 3.43 亿台。2020 年和 2021 年的 PC 出货量由于疫情原因导致教育与远程办公需求强劲,基数很高分别达到 3.36 亿 台和 3.87 亿台。2022 年 Q2 全球 PC 出货量环比大幅下降,主要由于疫情因素出清, 地缘冲突,通胀等因素。


英伟达与 AMD 占据主要游戏显卡市场。AMD 通过快速迭代升级的技术架构和 广泛的应用场景,在中低端显卡市场上不断缩小与英伟达 GPU 业务的差距。但由于 中低端市场是游戏显卡的主要消费市场,因此 AMD 在高端技术并未对标英伟达情况 下依旧保持相较较高的市占率。AMD 未来通过不断对架构和工艺升级的节奏下有望 进一步增加在中高端游戏显卡市场中的竞争力。


消费级 GPU 市场的扩张受到多种因素的共同推动,这些因素体现了消费者需求 和技术革新的变迁。以下是促进消费级 GPU 增长的驱动因素: 1) 游戏行业的蓬勃发展:游戏市场的持续扩大是推动 GPU 需求增长的关键因 素。GPU 是支持高质量游戏的图形需求的关键,这些需求包括更高的分辨 率和实时光线追踪技术。游戏流媒体和云游戏服务的发展间接推动了 GPU 市场的增长,因为这些服务背后需要强大的 GPU 支持数据中心的运算需求。 2) 专业内容创作的需求:除了游戏外,视频制作、三维建模、图形设计等专业 领域对高效 GPU 的需求也在不断增长,以应对不断提高的工作负荷。 3) 虚拟和增强现实技术(VR/AR)的兴起:随着 VR 和 AR 技术的进步,对于 能够提供高速图形处理能力的 GPU 的需求也随之增加,这些技术对图形处 理的要求极高。 4) 人工智能与机器学习的应用增加:GPU 在人工智能和机器学习领域的应用 也在不断扩展。GPU 的大规模并行处理能力使其在训练和执行复杂的 AI 模型方面变得至关重要。 5) 远程办公和网上教育的普及:远程工作和在线学习的增长也刺激了对配备高 性能 GPU 的电脑和笔记本的需求。 6) 加密货币的挖掘活动:在某些时期,加密货币挖掘也对 GPU 市场造成了显 著影响,尽管这一需求受到加密货币市场波动的影响而波动较大。


3.2 产品梳理及竞品对比


目前 AMD 主流显卡可分为 RX 7000 系列、RX 7000S、RX 7000M、RX 6000 系 列、RX 6000S 和 RX 6000M 系列。2022 年 11 月 3 日,AMD 发布基于 RDNA3 架构的 新 7000 系列显卡。AMD Radeon RX 7000M 系列显卡在每瓦性能上表现出色,在游戏 内提供优质的视觉效果和高帧率;AMD Radeon RX 7000S 系列显卡最大限度的提高了 AMD Radeon RX 7000M 系列显卡,使电脑在最低的功耗下释放最高的性能,定位上适 配轻薄笔记本。 RX 7000 系列显卡和 RX 6000 系列显卡首要区别在于进行了架构升级,RX 7000 系列采用了 RDNA3,RX 6000 系列则是采用了 RDNA2 架构。AMD 显卡的高速发展得 益于“RDNA”架构,每代架构的升级都对显卡的性能做出显著的提升。经测算,RDNA3 架构显卡与 RDNA2 架构显卡相比,每瓦性能提高 54%。RDNA3 架构在封装结构上进 行了升级,采用了更先进的双芯片模式,分别为 5nm 制程的主芯片和 6nm 制程的 6 个 缓存模块,在一定程度上平衡性能和成本上的平衡。主芯片晶体管密度是 RDNA2 架构 密度的 1.65 倍,另外 6 个新模块为二代 Infinity Cache 工作,最终有效带宽达 5.3TB/s, 较第一代提升 2.7 倍。


AMD Radeon RX 7900 XTX是 AMD目前新能最出众的产品,拥有 96个 CU单元, 2.3 GHz Game Clock 24GB DDR6 显存,带宽 960GB/s,发售价格 999 美元。几乎可 以满足游戏玩家对各类游戏的所有需求,可以在最高设置(4K 分辨率)下带动包括 《F122》、《荒野大镖客》:《救赎 2》、《战神》、《侠盗猎车手 5》等 3A 大作。


英伟达显卡按照应用领域分可分为 3 类:1)游戏领域;2)专业设计和虚拟化;3) 深度学习、人工智能和高性能计算。其中,游戏领域显卡以 GeForce RTX40(30/20) 系列为主,定位为消费级,是众多游戏玩家组装主机和笔记本电脑独显所搭载的显卡; 专业设计领域代表产品为 RTX A6000、T1000 等,定位企业级;深度学习领域则是以 A30 Tensor Core GPU 为代表的系列专业算力显卡,多用来进行 AI 大模型推理、高性 能计算,具备强大的计算能力和可扩展性。 英伟达 RTX4090 是市场上最顶端游戏显卡,具有 760 亿个晶体管、16384 个 CUDA 核心和 24GB 高速美光 GDDR 6X 显存,在功耗相同情况下,性能方面相较于 3090Ti 提升 2-4 倍,可以在 4K 分辨率的游戏中持续以超过 100 FPS 运行。


目前市场上 GPU 市场主要玩家为英伟达和 AMD。在整个 GPU 发展沿革来看,2019 年前,英伟达通过其完整的生态,始终保持着技术优势,英伟达 Geforce 系列产品市占 率长期超过 AMD 的 Radeon 锐龙系列,市占率保持在 50%以上。2019 年后,AMD 凭 借 RDNA 架构开始对英伟达进行追赶。总结下来,英伟达和 AMD 有以下异同。 相同点:英伟达和 AMD 全布局高低端显卡市场,满足用户游戏娱乐到专业生产的 全部需求。 差异点: 1.游戏娱乐方面,英伟达 GeForce RTX 20 系列、30 系列、40 系列可适配不同玩 家的游戏需求,价格从低端的 RTX2060 的 2299 元到高端 RTX4090 的 12999 元(发售 价)。AMD 的低端显卡 RX6600 对标英伟达 RTX 2060,价格在 2499 元。高端显卡方面 AMD 新推出的 RX7900XTX,发售价在 7999 元,对标英伟达 RTX4080 级别显卡,发 售价在 9999 元。目前,市面上最高端的游戏显卡还是英伟达的 RTX4090,经测评 RX7900XTX 性能可达到 RTX4090 的 80%,但实际价格上仅需 RTX4090 的 60%。 2.专业领域,英伟达的专业级显卡在市场上表现更好。英伟达专业显卡主要分为两 类,Ampere(安培)架构和 Ada 架构。Ampere 架构显卡有 RTX A2000、RTX A4000、 RTX A4500、RTX A5000、RTX A5500 和 RTX A6000。AMD Radeon PRO 显卡采用 CDNA 架构,主要产品有 PRO W7000 系列和 PRO W600 系列。专业级别显卡显存偏 高,可以加载更多的缓存数据,提高带宽,增加软件的效率。应用层面,AMD 专业显卡 在色彩的鲜明度更好,英伟达则是更注重 3D 渲染。因此,AMD 专业显卡更适合于设计、 PS、剪辑等专业化低的用户群体,而英伟达专业显卡则是更适合用于模型训练。


3.3 产品技术原理


图形处理器(GPU),又可称为显示核心、显示芯片、视觉处理器,是专门用于计 算机、游戏机、工作站和移动设备上的图像微处理器,负责绘制图形所需的运算,具体 包括顶点设置、光影、像素操作等,也是显卡的主要组成部分。在早期,图像处理主要 由 CPU 完成,占据了 CPU 很多运算空间,导致运算结果的卡顿不流畅。后续随着用户 对图像的复杂程度要求变高,单 CPU 对图像的处理效率和质量满足不了用户需求,GPU 因此诞生。 从内部构造的角度来看,GPU 与 CPU 的内部构成元素有很多类似之处,包括控制 器、寄存器和通用计算单元。CPU 在结构上大部分为控制器和寄存器,而 GPU 拥有更 多用于数据处理的逻辑运算单元(ALU),更适合密集型数据处理,但在缓存和流控制方 面表现稍差。


GPU 相对于 CPU 具有更高的并行结构,因此在处理图形和一些复杂的算法方面会 比 CPU 具有更高的效率。GPU 的流式并行运算模式是指对数据进行独立的运算,不依 赖流内其他类型数据,并可使多个数据同时被使用,在效率上和运算单个数据计算相同, 是一种类似并联的逻辑方式。


4 数据中心业务(Data Center)

4.1 行业市场空间


数据中心是一个专门用于存储、管理和传输数据的设施。数据中心的设计和运 作高度依赖于其规模、位置和服务的类型,以及所需的可靠性和效率水平。而在数 据中心的服务器中,需要配置 CPU,GPU 和 DPU,完成运算或者训练的任务。


数据中心的三个主要用途可以归纳为: 1)存储和数据管理:提供大量的数据存储空间,用于存储企业和个人的数据, 如业务记录、用户信息和大型数据库。 2)云计算和网络服务:支持云服务(如 SaaS、PaaS 和 IaaS),以及其他网络 服务,包括网站托管、电子邮件、VPN 和在线游戏服务器。 3)高性能计算应用:提供计算能力,用于大数据分析、人工智能、机器学习、 科学研究和复杂的计算任务。


数据中心通常包括以下几个关键组成部分: 1)服务器:数据中心的核心是服务器,这些高性能计算机存储和处理数据。 2)存储系统:用于存储大量数据。这可能包括硬盘驱动器、固态硬盘和网络附 加存储(NAS)系统。 3)网络基础设施:包括路由器、交换机和其他设备,以确保数据可以在内部服 务器之间以及外部网络和互联网之间高效传输。 4)安全系统:包括防火墙、入侵检测系统和物理安全措施,以保护数据中心不 受外部和内部威胁。 5)备份和冗余系统:用于数据备份和恢复,以确保在硬件故障或其他问题发生 时数据的安全和完整性。 6)冷却系统:由于服务器和其他设备产生大量热量,因此需要有效的冷却系统 以维持适宜的操作温度。 7)电力供应:包括不间断电源(UPS)和可能的备用发电机,以确保在电力 中断时数据中心能够继续运行。 8)管理软件:用于监控和管理数据中心的各个方面,包括物理和虚拟服务器的 性能、网络流量和安全。


全球知名的数据中心主要位于美国,谷歌、微软、Facebook、和苹果等科技 巨头均建有著名的数据中心,这些数据中心包括: 1)Switch SuperNAP:位于美国内华达州的拉斯维加斯,这是世界上最大的数 据中心之一,以其先进的冷却和安全系统而闻名。 2)Range International Information Group:位于中国的郎方,是世界上最大 的数据中心之一,占地面积超过 60 万平方英尺。 3)Google Data Centers:谷歌在全球拥有多个数据中心,这些数据中心以其 高效的能源管理和创新的冷却技术而闻名。 4)Microsoft Data Centers:微软在全球范围内也运营着一系列大型数据中心, 支持其广泛的云服务,如 Azure 和 Office 365。5)Facebook Data Centers:Facebook 的数据中心遍布全球,用于支持其庞 大的社交网络服务,这些数据中心以高能效和可持续性设计而著称。 6)Apple Data Centers:苹果的数据中心支持其 iCloud 服务和其他在线服务, 以其环境友好和高能效的设计而知名。 7)Amazon Data Centers:亚马逊的 AWS(Amazon Web Services)是全球 最大的云服务提供商之一,拥有遍布全球的数据中心网络。 8)The DFT Data Center:位于美国弗吉尼亚州阿什本,是一个重要的数据中 心枢纽,支持大量的互联网和企业客户。 在服务器 CPU 的市场中,以英特尔占据主导地位,22 年市占率约 70%以上, AMD 市占率 18%左右,其中英特尔和 AMD 均使用 X86 架构。




服务器 CPU 和 GPU 受 AI 等算力需求的影响,市场规模高速增长。丰富的应 用场景和技术创新对服务器 CPU 和 GPU 的需求大大增加。据 IDC 统计,2022 年 服务器 CPU 市场规模约为 250 亿美元,服务器 GPU 市场规模超 100 亿美元。


4.2 产品梳理及竞品对比


服务器 CPU 产品对比: 英特尔的服务器 CPU 包括 XEON(至强)处理器,分成可扩展处理器,Max 系列, W 处理器,D 处理器,和 E 处理器。 目前英特尔的最新一代 XEON(至强)处理器于 2023 年 1 月推出,这一代 XEON 处 理器是历史上的第四代,最新一代 XEON 处理器命名为 XEON 可扩展处理器(Sapphire Rapids),该产品通用计算平均性能提升 53%。其中,最新的拥有较高性能的代表性产 品包括 Xeon Platinum 8593Q,该产品于 23Q4 发行,有 64 个内核,最大睿频频率 3.9 GHz,处理器基本频率 2.2GHz。 AMD 的服务器 CPU 包括 EPYC (霄龙) 处理器,最新一代的 EPYC 处理器是 EPYC 9004 系列(2022 年 11 月发布),AMD EPYC 9004 系列处理器(第四代 EPYC)配备了 高达 128 个 Zen 4 核心,能够提供极高的内存带宽和支持巨大的内存容量。它的混合 多芯片架构专为不同的计算需求量身定制,确保既高效又节能的性能表现。借助广泛的 x86 软件兼容性、高达 128 个处理核心、256 个线程、标准化的企业级 RAS(Reliability, Availability, and Serviceability,即可靠性、可用性和可维护性)特性,以及先进的安全 功能,客户能够享受到极高的线程密度和全面的服务生态系统。这些特性共同促成了快 速且无缝的部署体验。


服务器 GPU 产品对比: 23 年 11 月 15 日英伟达在全球超算大会(SC2023)上发布了目前世界上最强的 AI 芯 片 H200,该芯片相比 H100 进行了升级,内存带宽提高了 1.4 倍,内存容量提高了 1.8 倍。H200 性能上较上一代 H100 提升约 90%,Llama 2 推理速度翻倍,并且互相兼容, 可实现无成本替换。英伟达 H200 是首款采用 HBM3e 的 GPU,拥有高达 141GB 的显 存。在应用层面,H200 与 H100 都是基于 Hopper 架构,因此都具备 LLM 和其他深度 学习模型的能力,但显存的大幅提升使得 H200 的 Llama2 70B 模型的推理速度比 H100 提高近一倍。 NVIDIA H100 Tensor Core GPU 是目前最广泛应用的 AI 芯片(22 年 3 月发布,22 年 9 月全部投产)。该产品为各类数据中心提供性能、安全性和扩展性等支撑。NVIDIA H100 使用 NVLink® Switch 系统,可通过连接 256 个 H100 加速百亿亿级别负载,处 理万亿级别参数的语言模型,经英伟达官方统计可提升 AI 模型训练速度 30 倍。后续英 伟达会推出 H200、B100、X100、B40、X40、GB200、GX200、GB200NVL 和 GX200NVL 等进阶产品。 23 年 12 月 7 日,AMD 举行发布会,正式发布了针对 AI 应用的新产品:Instinct MI300X GPU,专用于 AI 训练和推理任务,192GB HBM3,采用 CDNA 3 架构 ; 以及 MI300A APU,专为高性能计算(HPC)设计,128GB HBM3,采用 CDNA 3 架构。 MI300 系列是 AMD 推出的最新最强的一代加速卡芯片,是 AMD 首款数据中心 /HPC 级的 APU。MI300 拥有共计 1460 亿个晶体管,与之对标的英伟达 H100 晶体管数量为 800 亿。MI300 的 CPU 部分集成了 24 个 ZEN4 内核,GPU 部分则采用 最新的 CDNA3 架构,GPU 芯片多达 6 片。在特定条件下,性能表现上优于英伟达 H100 系列芯片 20%-25%。 MI300 拥有两种 SKU,分别为 MI300A 和 MI300X。MI300A 通过 Chiplet 封装 技术将 CPU 和 GPU 集合成超大规模 APU,封装小芯片 9 个,还有 128GB 的 HBM3 内存,提供了多达 24 个 ZEN4 内核以及 228CU。MI300X 则是全 GPU 小芯片封装, 一共 8 颗 XCD,每个 XCD 提供 38 个 CU(最高为 40CU),总计提供了多达 304CU, 一同封装的 HBM3 内存容量提升到了 192GB,5.2TB/s 的内存带宽,896GB/s 的 Infinity Fabric 带宽。


4.3 产品技术原理


数据中心构造可以分为软件与硬件两部分。硬件部分涵盖服务器 CPU、服务器 GPU、 和服务器 DPU 等产品。软件部分要求系统具有高拓展性、高安全性和高可靠性,旨在 安全前提下提供更高的内存带宽和更低的延迟。


在数据中心,各类芯片承担着核心功能,以保障运行效率、稳定性及安全。这些芯 片包括: 1) CPU(中央处理单元):服务器的关键组件,CPU 处理指令和数据,关键于执 行繁重的计算任务和多任务处理。 2) GPU(图形处理单元):擅长并行处理的 GPU,在图形渲染、视频编辑及增长 迅速的人工智能和机器学习领域发挥重要作用。 3) FPGA(现场可编程门阵列):这种可定制的芯片可针对特定应用进行编程, 适用于需要特别处理逻辑或高度优化的场合。 4) 存储控制器芯片:负责管理数据的存储和访问,确保数据中心的存储设备,如 固态硬盘和传统硬盘,高效工作。 5) 网络芯片:诸如网络接口卡(NIC)和交换芯片等网络芯片对于处理数据中心 的内部和外部数据传输至关重要。 6) 安全芯片:这些芯片通过加密处理和安全启动等硬件级安全措施,保护数据中 心免受攻击。 7) 电源管理芯片:这些芯片负责监控和调节电源消耗,确保数据中心的能效和稳 定运作。


服务器 CPU 技术原理: 服务器 CPU(中央处理单元)是服务器中的主要硬件组件,负责执行计算任务和处 理数据。与个人电脑或移动设备中的 CPU 相比,服务器 CPU 通常设计得更为强大和高 效,以满足数据中心、企业和云计算环境中对处理能力和可靠性的更高要求。 服务器 CPU 的架构是指其内部设计和功能实现的方式,它决定了 CPU 的性能、能 效和处理能力。主要的服务器 CPU 架构包括: 1) x86-64 架构:这是目前市场上最普遍的架构之一,由 Intel 和 AMD 主导。x86-64 架构是 x86 架构的 64 位扩展版本,提供了广泛的兼容性和高性能,适用于各 种服务器和企业级应用。 2) ARM 架构:ARM 架构以其高能效著称,常用于移动设备。近年来,随着能效 成为数据中心的一个关键考虑因素,ARM 架构开始在服务器市场中获得关注。 ARM 服务器提供较低的功耗,在处理轻量级计算任务时特别有效。 3) RISC-V 架构:这是一种开源的指令集架构,基于精简指令集计算(RISC)原 则。RISC-V 架构由于其灵活性和可扩展性,正在逐渐受到关注,尤其是在定制 硬件解决方案方面。 4) EPYC(AMD)和 Xeon(Intel):这两种是 x86-64 架构下的特定产品线。AMD 的 EPYC 服务器处理器和 Intel 的 Xeon 处理器都是市场上的主流选择,提供高 性能、多核心配置,适合处理复杂的企业级计算任务。 5) POWER 架构:由 IBM 开发的 POWER 架构在某些高端服务器和大型计算系统 中仍然占有一席之地,特别是在需要高吞吐量和高并行性的应用场景中。


服务器 GPU


GPU 加速器是一种专门用于加速计算机图形处理的硬件设备。它可以通过并行计算 的方式,大幅提高计算机图形处理的速度。GPU 加速器通常由多个处理器核心组成,每 个核心都可以同时执行多个指令,从而实现高效的并行计算。 GPU 加速器的主要通过并行计算的方式来提高计算机图形处理的效率。GPU 加速 器在进行处理时,并将数据划分,并分配给不同处理器计算,降低每个处理器计算任务 量,从而大幅提升计算速度。


服务器 DPU


DPU(数据处理单元)是专门用于处理数据的加速器,工作原理包括数据存储于运 输、数据处理、控制单元、中断与异常处理和数据输出。作为以数据为中心的专用处理 器,从应用特征看可分为“IO 密集型”和“计算密集型”。其中,“IO 密集型”应用数据直接 来自于 IO,具有较高的输入和输出带宽。“IO 密集型”应用适合处理较高的计算密度,复 用性高,数据来自主存,局部性显著等问题,具体包含线性代数方程组求解、大规模神 经网络训练和推理等。 DPU 与 CPU 主要在专业化、并行处理、功耗和成本 4 方面有区别。专业化方面。 DPU 是专门用于处理数据的加速器,CPU 是通用加速器,需要执行各类任务;在并行 处理方面,DPU 具备多个并行处理单元,可以同时执行多个任务,而 CPU 只能通过一 个或少数核心处理,效率较 DPU 低;功耗方面,更专业化的 DPU 应用场景更为专一, 因此功耗较低;成本方面,DPU 较 CPU 成本更低,性价比更高。


5 嵌入式业务(Embedded) – FPGA/SoC

5.1 行业市场空间


嵌入式系统是一种专门设计用于执行特定任务的计算机系统。它们通常嵌入到 更大的设备中,作为控制该设备或处理特定功能的核心部分。 嵌入式系统广泛应用于汽车、工业、网络、存储等领域。在汽车领域,消费类 电子产品显著的提升了驾乘体验,娱乐性、安全性和连接性在汽车消费决策中影响 度逐步上升。在工业领域,嵌入式以优秀的可扩展性、集成、I/O 支持、高效、兼容 性、稳定可靠性在工业领域提供各类生态系统显卡。网络方面,嵌入式为任务关键 型网络安全设备提供安全性和低功耗交换路由解决方案。存储方面,嵌入式面对企 业实现数据错误检测、纠正、恢复和控制技术,保证数据完整性。


嵌入式系统中常用的芯片包括多种类型,每种都具有特定的功能和应用领域。 以下是一些常见的嵌入式芯片: 1)系统级芯片(SoC):系统级芯片集成了一个或多个处理器核心、内存、外 设接口和其他功能于单个芯片之上。SoC 广泛应用于移动设备、智能电视 和其他复杂的嵌入式系统。 2)FPGA(现场可编程门阵列):FPGA 是高度灵活和可编程的芯片,可以被 用户根据特定需要配置或重新编程。它们包含一系列可编程逻辑块和互连, 允许设计者实现几乎任何数字电路设计。FPGA 在需要快速原型制作、自定 义处理流程或对特定应用进行特定优化的场景中非常有用,如信号处理、图 像处理、通信系统和复杂的控制系统。由于其灵活性和可重编程性,FPGA 在嵌入式系统设计中越来越受欢迎,特别是在需要快速适应不断变化的技术 和市场需求的应用中。 3)微控制器(MCU):微控制器是一种小型计算机,集成了处理器核心、内存 和可编程输入输出端口。它们常用于简单的控制应用,如家用电器、汽车控 制系统和其他基本的嵌入式系统。 4)微处理器(MPU):微处理器是更复杂的处理器,提供更高的计算能力。它 们通常需要外部内存和外设,用于更复杂的嵌入式应用,如智能手机和高级 嵌入式系统。


FPGA 是嵌入式中可以先购买再设计的可自定义芯片,在硅片上预先设计好具 备编程特性的集成电路,不需依赖芯片设计制造厂商推出的 ASIC 芯片。FPGA 广 泛应用于原型验证、通信、汽车电子、工业控制、航空航天、数据中心等领域。 全球 FPGA 市场规模持续提升,未来发展空间可观。随着 5G 技术的升级和智 能汽车的落地应用,FPGA 近年需求量大幅增加,另外 FPGA 在图像处理、机器学 习和数字信号处理等领域不断推广应用,有效推动 FPGA 市场增长。 除了应用层面的广度,在工具上例如硬件描述语言、开发环境、仿真工具等都 降低了开发难度,成本上不断积累优势,带动硬件设施的市场空间。Gartner 统计, 2022 年全球 FPGA 市场规模约 91 亿美元,2025 年预计可达到 125 亿美元,2020 年到 2025 年 CAGR 为 10.6%。




全球 FPGA 市场竞争呈寡头格局,技术壁垒以及规模经济等因素使 Xilinx 和 Intel 中短期内稳定占据行业龙头地位。2022 年,全球市场中,Xilinx 和 Intel 占据 全球市场 85%以上份额,其中 Xilinx 占比 52%,Intel 占比 35%。


5.2 产品梳理及竞品对比


FPGA 领域的主要参与者包括 AMD(曾收购 Xilinx),Intel(曾收购 Altera)和 Lattice。AMD 于 22 年初完成对赛灵思(Xilinx)的收购,英特尔(Intel)于 15 年完成对 阿尔特拉(Altera)的收购。在分别这两笔收购完成之前,FPGA 领域全球最主要的厂 商是 Xilinx 和 Altera。目前, AMD 和英特尔的 FPGA/SoC 产品线分别主要由被收购 的 Xilinx 和 Altera 的产品线构成。


AMD 的 FPGA/SoC 产品分成:Versal 系列,Zynq 系列,UltraScale+ ARTIX/KINTEX/VIRTEX(18nm 制程),UltraScale KINTEX/VIRTEX(20nm 制程), SPARTAN/ARTIX/KINTEX/VIRTEX (28nm 制程)。其中,Versal 系列产品是自适应 SoC(Adaptive SoC),应用处理单元采用双核 ARM Cortex A72, 实时处理单元采用双核 ARM Cortex R5F。Versal 自适应 SoC 具有以下特征,1)采用异构加速:高度集成的 多核计算平台,可适应不断变化的算法;2)对于各种应用的适用性较高:可在硬件和软 件级别进行动态自定义,以适应各种应用和工作负载;3)对于各种类型开发者的适用性 较高:AMD Versal™ 自适应 SoC 围绕可编程 NoC 进行设计,软件开发者和硬件程 序员可轻松地对其进行编程。自适应的 SoC 几乎可以接受从云到边缘的任何应用。Versal 自适应 SoC 中最先进的 Versal-AI Premium 的新产品 VP1902 于 23 年 6 月 27 日发布, 该产品采用了 AI 专用处理器 Versal,性能规格大幅提高,具有 1860 万个逻辑单元,采 用 Chiplet 设计,尺寸约 77 x 77 毫米,是世界上最大的自适应 SoC,逻辑单元密度是 前一代的 2 倍,Debug 调试表现速度是之前一代的 8 倍,将于 2024 年开始向客户供货。


Versal 产品具体可分为 HBM 系列、AI Core 系列、AI Edge 系列、Prime 系列和 Premium 系列。不同类型产品有各自使用优势,HBM 系列适用于内存受限、计算密集 型、高带宽应用,具备存储、安全和自适应计算集成;AI Core 系列较服务器级别 CPU 计算性能高100倍以上;AI Edge 系列较先进GPU拥有4倍以上的AI性能功耗比;Prime 系列是自适应 SoC 基础系列,在市场上广泛应用;Premium 系列多面向高端挑战性网 络应用。


英特尔的 FPGA/SoC 产品属于旗下的可编程解决方案事业部(PSG),其中主要 产品系列分成 Agilex,Stratix,Arria,Cyclone,和 MAX。其中 Agilex 系列产品 是在 2019 年之后推出,从逻辑元件和 DSP 模块的密度的角度来看,Agilex 系列产 品是英特尔旗下几个产品线中这 2 个维度上规格最高的产品。Agilex 9 于 23 年初发 布,其逻辑单元数量约 140 万到 270 万之间,采用 Quad-Core Arm Cortex-A53 内 核,对于定制化应用有着极强的性能。


在最尖端的 FPGA 相关产品的竞争中,AMD 和英特尔的高端 FPGA 相关产品 都在保持不断创新进步。AMD 旗下的 FPGA 产品(前 Xilinx)和 Intel 旗下的 FPGA 产 品(前 Altera)相比,有以下几点差异: 1)Xilinx 的 FPGA 相关产品在高端领域中更容易被工程师选用,同时其整体平 均价格也较高。同时,Xilinx 的 FPGA 在一些特殊领域,比如军工航天等更 容易被设计者采用。 2)Xilinx 和 Altera 的结构在逻辑单元部分有所不同:Xilinx 的逻辑单元组成是 CLB(可配置逻辑模块),但 Altera 的基本组成是 LAB(逻辑阵列模块)。 3)相比于 Xilinx 的产品,Altera 易于上手,也更注重在大学阶段对在校工程系 学生进行推广,所以在获客上,可以较早的触达未来的工程师客户。


AMD 目前性能强大的 FPGA/SoC 代表产品是 VP1902。该产品采用了 Chiplet 设计,同时增加了 Versal 功能,使 FPGA 的关键性能增加了一倍以上。与上一代产 品(Xilinx VU19P)相比,VP1902 的容量和连接性均大幅提升,提供 1850 万个逻 辑单元(Xilinx VU19P 为 894 万个),添加了更多的收发器和收发器上的更多带宽, 通过连接更多设备以获得更大的仿真能力。与上一代 Virtex UltraScale+ VU19P FPGA 相比,VP1902 实现了 2 倍以上的可编程逻辑密度和 2 倍以上的聚合 I/O 带 宽。此外,Versal 架构使 VP1902 调试速度提高了 8 倍。


英特尔性能强大的 FPGA/SoC 代表产品为 Agilex 9。相较于 Stratix10 布局上 把通用 I/O、存储器 I/O、硬核处理器等部分移到了芯片两端,利用间隔排列的方式 简化 FPGA 的布局规划,增强跨区域布线延时,一定程度上减少布局拥塞问题。与 英伟达 Stratix10 相比,Agilex 在单位面积内拥有双倍的 MLAB 密度,而且 50%的 LAB 可以配置成存储器模式,这可以很好应用于例如 AI 相关的高带宽需求的应用领 域。




5.3 产品技术原理


嵌入式系统是以应用为中心,计算机技术为基础,适应应用系统对功能、成本、 功耗、可靠性等方面进行要求规范的专用系统。嵌入式系统具体可分为硬件层、中 间层、软件层、应用层。硬件层是以嵌入式处理器为核心;中间层是在硬件层和软 件层之间,负责将软硬件隔离,便于操作系统调用;软件层是提供编程接口;应用 层是系统核心,实现对对象的控制功能。 嵌入式微处理器(比如FPGA等)通常由8个主要部分组成:1)中央处理器(CPU): 这是嵌入式系统的核心,负责取指、译码和执行指令,处理数据。2)存储器(Memory): 存储程序和数据的地方,一般可分为只读存储器(ROM)、随机存取存储器(RAM) 以及电可擦除可编程只读存储器(EEPROM)等类型。3)输入/输出(I/O)接口: 这是用于与外部设备进行通信的接口部分。4)定时器和计数器:定时器用于生成定 时信号,计数器用于对脉冲进行计数。5)中断控制器:用于处理中断事件。6)调 试接口:用于调试和编程。7)电源管理:用于管理电源供应。8)总线接口:用于 连接其他设备。


嵌入式微处理器(比如 FPGA 等)作为嵌入式操作系统的硬件核心有四个功能特 点。第一,嵌入式微处理器具备较强的操作系统支持能力;第二,对数据信息的保 护能力较强;第三,结构上具备一定的扩展性;第四,在功耗上相对较低。 嵌入式微处理器(比如 FPGA 等)与通用 CPU 区别在指代和特点上不同。指代上, 通用处理器多指用于服务器和 PC 端的 CPU 芯片,而嵌入式微处理器是负责控制和 辅助系统运行的硬件单元。嵌入式微处理器可以将通用 CPU 中由板卡完成的任务集 成在芯片内部,在效率和可靠性保证的情况下,为嵌入式系统体积小型化创造条件。


嵌入式微处理器(比如FPGA等)按指令系统可分为两类,精简指令系统(RISC) 和复杂指令系统(CISC)。精简指令系统只包含最关键指令,通过数据通道快速执 行关键指令从而使执行效率得以提高,CPU 结构上也更为简化。 嵌入式微处理器以应用场景为导向设计生产。嵌入式根据使用场景不用分为不 同体系,同意体系内时钟频率和总线宽度等也不尽相同。目前全球微处理器超千种, 市场上呈现百家争鸣的竞争格局。 产品上嵌入式可分为 DSP、SoC 和 FPGA: 1) DSP: DSP 是在指令算法上专门设计用于信号处理方面的处理器,广泛应用于在数字 滤波、FFT、谱分析等各种仪器上。主要的嵌入式处理器类型有 Am186/88、Power PC、68000、MIPS、386EX、SC-400、ARM/StrongARM 系列等。 2) SoC: SoC 嵌入式系统微处理器是结合多功能区块的电路系统。代表产品为 AMD 面 向广泛嵌入式应用的异构多处理平台 MPSoC。Zynq™ UltraScale+™ MPSoC 器件 提供 64 位处理器可扩展性,将实时控制与软硬件引擎相结合,功能上支持图形、 视频、波形与数据包处理。三个不同变体包括双核应用处理器 (CG) 器件、四核应 用处理器和 GPU (EG) 器件、以及视频编解码器 (EV) 器件放置于包含通用实时处 理器和可编程逻辑的嵌入式平台上,赋能工业物联网。


3) FPGA: FPGA 是嵌入式系统的计算核心。FPGA 本体是数字集成电路,可以理解为可 通过编程改变内部结构的芯片。FPGA 与 ASIC(专用集成电路)区别在于,ASIC 设计好后,结构固定,在后期无法进行更改,而 FPGA 在后期可以通过编程进行更 改内部结构,为后期专业化和升级提供基础。 FPGA 主要由六部分组成:可编程输入输出单元、基本可编程逻辑单元、完整的时 钟管理、嵌入块式 RAM、内嵌的底层功能单元和内嵌专用硬件模块。1)可编程输入输 出单元(I/O 单元):通过配置可实现适应不同用电标准和 I/O 物理特性,调整驱动电流 的大小;2)基本可编程逻辑单元:主要构成为查找表(LUT)和寄存器组成,一般依赖 寄存器完成同步时序逻辑设计,基本可编程单元配置为一寄存器加一查找表。3)完整时 钟管理:丰富的布线资源联通 FPGA 内部所有单元,决定了信号连接的驱动能力和传输 速度。全局性的布线资源可以完成内部全局时钟和全局置位的布线。4)嵌入块式 RAM:具体可分为单端口 RAM、双端口 RAM、伪双端口 RAM 和 CAM 等存储结构。5)内嵌 的底层功能单元:指通用程度高的嵌入式模块,例如 DLL、DSP 和 CPU 等。6)内嵌专 用硬件模块:主要包含通用性较弱,包含部分 FPGA 器件硬核。 FPGA 优势主要在三点:1)可编辑性。通过对 FPGA 编程,便可以灵活的改变芯 片的功能属性,从而降低在技术未成熟阶段潜在的成本损失和风险。2)时间周期快。 FPGA 方案无需等待一个季度到一年不等的芯片流片周期。3)成本低。FPGA 与 ASIC 相比少了固定成本,不用承担流片失败风险,在成本上更具优势。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

AMD公司研究:24年成长可期,AI芯片MI300驱动公司转型.pdf

通富微电研究报告:AMD产业链核心封测厂,先进封装多点开花.pdf

通富微电研究报告:先进封装领军者,绑定AMD分享算力红利.pdf

科德教育研究报告:手握国产AI芯片独角兽股权,价值亟待重估.pdf

英伟达研究报告:受益数据中心AI芯片高景气度,上游供应链响应快速.pdf

海光信息研究报告:以CPU业务为基,横向拓展AI芯片业务,国产AI芯片迎历史机遇期.pdf

英伟达研究报告:智能计算引领者,AI芯片生态构筑宽广护城河.pdf

超威半导体研究报告:MI300重磅发布,剑指AI芯片市场.pdf

【华安证券】24年成长可期,AI芯片MI300驱动公司转型.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00