一、GPU:始于图形,不止于图形
1.1GPU——算力核心硬件
GPU 用途由图形处理拓展至计算。GPU 是图形处理器的简称,它是一种专门用于处理 图形、视频、游戏等高性能计算的硬件设备。GPU 相对于传统的中央处理器(CPU)而 言,其拥有更多的计算核心和更快的内存带宽,能够大幅度提高计算效率和图形渲染速 度。现阶段,随着例如英伟达 A100、H100 等型号产品的发布,GPU 在算力方面的优势 相较于其他硬件具有较大优势,GPU 的工作也从一开始的图形处理逐步转化为计算。 根据用途和性能表现,GPU 可以分为专业卡和消费级卡两类:专业卡通常用于工程、科 学、医学等领域的高性能计算和大规模数据处理,主要厂商包括英伟达、AMD 等;消费 级卡则主要用于普通家庭和游戏玩家,主要厂商包括英伟达、AMD、英特尔等。
根据芯片不同,GPU 又可分为独立 GPU 和集成 GPU:其中独立 GPU 表示具有自己的处 理器、存储器以及电源,可以独立于计算机主板的独立芯片;集成 GPU 是一种内置于 CPU芯片中的图形处理器。二者区别主要在于性能和功能,独立GPU性能通常更为强大, 可以处理较为复杂的图形、计算任务;集成 GPU 性能通常低于独立 GPU,但其优势在于 低功耗以及小型化设计,更加适合笔记本电脑、平板电脑等小型设备。
目前 GPU 在硬件中拥有最高的算力,成为最适合支撑人工智能训练和学习的硬件,我们 认为其原因主要在于:
更多处理单元:GPU 相比于 CPU 等其他硬件有更多的处理单元(核心数更多),因 此可以并行处理更多的数据。主要系 GPU 最初是为了图形渲染而设计的,而图形渲 染涉及的计算是高度并行化的。这种并行化的特性使 GPU 非常适合进行机器学习和 深度学习这样的大规模数据并行计算。
具有更高的内存带宽和更大的内存容量:在进行深度学习等计算时,需要大量的内 存和高速的内存带宽来存储和处理海量数据。GPU 相比于其他硬件(如 CPU),具 有更高的内存带宽和更大的内存容量,可以更有效地存储和处理数据,从而提高计 算速度。
具有专门的计算单元:相较于其他硬件,GPU 具有例如张量核心和矩阵乘法等计算 单元,可以更快地执行常见的机器学习和深度学习操作:如卷积和矩阵乘法。这些 计算单元与通用计算单元相比,具有更高的效率和更快的速度。
GPGPU——为计算而生。GPGPU 全称是“general-purpose computing on graphics processing units”,简称“通用图形处理单元”,其主要利用 GPU 的功能来执行 CPU 的任务,虽然在设计初期是为了更好地图形处理,但是多内核多通道的设计使其非常适合 科学计算,发展至今 GPGPU 也成为了专为计算而设计的硬件。
多领域驱动,GPU 千亿美金市场拉开序幕。GPU 市场规模的大小取决于多种因素:其 中游戏和娱乐市场一直是 GPU 市场的主要驱动力,因为这些领域需要高性能的 GPU 来 支持更高质量的游戏画面和娱乐内容。同时人工智能和机器学习的发展对 GPU 市场也有 着巨大的影响,因为这些技术需要大量的计算能力,而 GPU 可以提供比 CPU 更高的效 率。此外,科学和研究领域的需求以及新兴市场(如游戏机和数据中心)也对 GPU 市场 的规模产生了影响。根据 Verified Market Research 数据,2021 年全球 GPU 市场规模为 334.7 亿美金,预计到 2030 年将达到 4473.7 亿美金,期间 CAGR 33.3%。
1.2 需求端——大模型算力需求激增
LLM 模型带动算力需求: 算力是指计算机系统能够完成的计算任务量,通常用来描述计算机的处理能力。算力的 单位通常采用 FLOPS(Floating Point Operations Per Second)表示每秒钟能够完成的浮 点运算或指令数,例如一台计算机每秒钟可以完成 10 亿次浮点运算,那么它的 FLOPS 值就是 10 GFLOPS(10 Giga FLOPS)。目前我们以全球龙头英伟达在 2020 年发布的 A100 产品为例,根据英伟达官方介绍,A100 的理论浮点运算性能可以达到 19.5 TFLOPS(19.5 Tera FLOPS),即每秒 195 万亿次浮点运算。
站在“智能革命”起点。我们回顾历史,人类社会目前经历了三次重大的产业变革:蒸 汽时代、电气时代、信息时代,其分别对应了 18 世纪 60 年代末期英国人詹姆斯·瓦特 制造的第一代具有实用价值的蒸汽机、美国在 19 世界 60 年代实现电力的广泛应用,以 及电灯被发明、1946 年美国制造出人类第一台二进制计算机。我们认为,每一次的产业 革命都具有几个共通点,首先均有标志性的产品面世,其次持续时间较长以及对于世界 发展影响深远。2022 年 11 月,ChatGPT 的发布让世界看到了无限的可能性,我们认 为这仅仅只是“智能革命”的起点,未来或将呈现出各行业各接纳人工智能,人工智能 助推世界发展的景象。
深度学习对算力要求大幅提升。人工智能通过模拟和延展人类及自然智能的功能,拓展 机器的能力边界,使其能部分或全面地实现类人的感知(如视觉、语音)、认知功能(如 自然语言理解),或获得建模和解决问题的能力(如机器学习等方法)。人工智能实现方 法之一为机器学习,而深度学习是用来实现机器学习的技术,通常可分为“训练”和“推 理”两个阶段。训练阶段:需要基于大量的数据来调整和优化人工智能模型的参数,使 模型的准确度达到预期,核心在于算力;推理阶段:训练结束后,建立的人工智能模型可用于推理或预测待处理输入数据对应的输出(例如给定一张图片,识别该图片中的物 体),这个过程为推理阶段,对单个任务的计算能力不及训练,但总计算量也相当可观。
大型语言模型(Large Language Model,简称 LLM)是一种使用深度学习算法处理、理 解自然语言的基础学习模型。LLM 基于数亿到数千亿个参数的神经网络,通过训练数据 学习自然语言的规律和模式,并能够生成高质量的自然语言文本。这些模型的训练需要 大量的计算资源和海量的文本数据,因此需要使用分布式计算和大规模数据处理技术。 目前,LLM 模型能够在例如语音识别、文本摘要、智能翻译等领域中实际应用,但是 LLM 模型大规模应用目前仍然存在一些挑战和限制:需要大量的训练数据和计算资源,很难 处理语言的多样性和不确定性。
GPT-3 开启大模型时代。GPT-3 是由 OpenAI 研发的一种基于深度学习的自然语言处理 模型,其使用了大量的语料库进行预训练,使其能够理解语言的规则和模式,并生成与 输入文本相关的自然语言文本,GPT-3 的主要特点是它具有大规模的预训练模型,而同 时大规模的训练模型与之对应的便是庞大的算力需求,根据 OpenAI 团队成员 2020 年发 表的论文《Language Models are Few-Shot Learners》,GPT-3 模型拥有约 1750 亿参考量,这使得 GPT-3 拥有其他较少参考量模型来说更高的准确性。同时基于 1750 亿参数 的模型仅需少量的样本训练,就能够接近于 BETR 模型使用大量样本训练后的效果。我 们认为,大模型无论在性能还是在学习能力上,相较于其他模型都具备明显优势,未来 或将成为行业趋势。
伴随大模型的明显优势,与之而来的则是对于算力要求的显著提升。以 GPT-3 为例,其 1750 亿的参数,如果以英伟达旗舰级 GPU 产品 A100 对 GPT-3 进行训练,1024 块 A100 卡需要耗费超过 1 个月(大于 30 天),则我们可以按比例计算出,如果需要单日完成训 练,需要的 A100 数量将超过 30000 块。
根据中商产业研究院数据,2021 年全球服务器出货量达 1315 万台,同比增长 7.8%, 对应全球市场规模达 995 亿美元。根据 Counterpoint 预计,2022 年全球服务器市场规 模有望达到 1117 亿美元,同比增长 17.0%。预计云服务提供商数据中心扩张增长驱动 力主要来自于汽车、5G、云游戏和高性能计算。
AI 服务器渗透率依旧较低,增长空间巨大。根据 TrendForce 数据,截止 2022 年全球搭 载 GPGPU 的 AI 服务器(推理)出货量占整体服务器比重约 1%,同时 TrendForce 预测 2023 年伴随 AI 相关应用加持,年出货量增速达到 8%,2022~2026 年 CAGR 为 10.8%。 根据 TrendForce 数据,2022 年全球 AI 服务器采购中,Microsoft、Google、Meta、AWS 为前四大采购商,合计占比 66.2%。中国地区 ByteDance(字节跳动)采购比例最高, 达到 6.2%。
GPU 在 AI 服务器中价值量占比接近 50%。我们以 Nvidia DGX A100 为例,其搭载了 8 张 Nvidia A100 Tensor GPU,根据新浪科技数据,Nvidia DGX A100 售价约为 19.9w 美金;Nvidia A100 Tensor 价格为 1.00~1.20w 美金。我们按照 1.20w 美金售价计算可 得出 GPU 在 Nvidia DGX A100 价值量占比约为 48.24%。
我们从服务器的数量角度出发进行 GPU 数量推算:根据上文 TrendForce 预计 2023 年预 计全球 AI 服务器(推理)出货大约在 14.4 万台,到 2026 年预计实现出货量 20.0w 台。 我们假设训练 AI 服务器和推理 AI 服务器的比例为 1:4,则我们可以得到 2023/2026 年 训练服务器的数量大约为 3.60/5.00 万台。由于两种 AI 服务器对应的模型训练阶段不同, 我们假设推理 AI 服务器和训练 AI 服务器使用的 GPU 数量分别为 4 张和 8 张,则可以计 算出 2023 年和 2026 年全球 AI 服务器领域所需 GPU 数量约为 86.4 万张和 120 万张, 我们以A100 约 1.20w 美金的价格作为参考计算出 2023 年和 2026 年AI 服务器所需 GPU 的价值分别为 103.7 亿美元和 144.0 亿美元。
汽车智能化带动 GPU 算力需求
辅助驾驶成为汽车研发的重点方向,L1 至 L5 级别越高自动化水平越高。汽车自动化驾 驶通常分为 5 个级别,L0 即人工驾驶;L2 半自动化驾驶较为普及,是大多数车型已经 具备的功能;L3 几乎能完成全部自动驾驶,目前仅有奥迪 A8 为已上市 L3 级别车型; L4 只有在特定地段才需人工操纵其余时间告别驾驶员;L5 纯自动驾驶目前还只停留在 概念阶段,无需人类操作驾驶以及辨别路况将彻底改变人们出行观念。
我国将智能汽车自动驾驶分为 5 个阶段,分别为:辅助驾驶阶段(DA)、部分自动驾驶 阶段(PA)、有条件自动驾驶阶段(CA)、高度自动驾驶阶段(HA)和完全自动驾驶阶 段(FA)。2020 年发布的《智能网联汽车技术路线图 2.0》中指出: 在2025年,我国PA与CA级智能网联汽车市场份额占比应超50%(。L2+L3>50%)。 到 2030 年 PA 与 CA 级份额超 70%,HA 级网联汽车份额达到 20%。(L2+L3>70%, L4>20%)。 到 2035 年,中国方案智能网联汽车产业体系更加完善,各类网联式高度自动驾驶 车辆广泛运行于中国广大地区。(L3 以上网联汽车广泛使用)。
自动驾驶对于算力需求提升。为了实现 L2 或者更高等级的自动驾驶,往往需要部署如摄 像头、激光雷达在内的多种传感器,例如 Tesla Model 3 车型中包括了 8 个摄像头和 12 个超声波雷达。多传感器带来的是庞大的数据处理需求,伴随携带自动驾驶功能的汽车 销量持续提升,相关算力硬件需求也逐步扩大。目前英伟达自动驾驶平台 NVIDIA DRIVE Thor 能够提供 2000 TFLOPS 算力,为自动驾驶、车载 AI、停车辅助等多功能提供所需 算力需求。
2022 年全球新能源汽车销量突破千万。根据 Clean Technica 数据,2022 年全球新能源 汽车销量突破千万达 1009.12 万辆,占整体汽车市场 14%份额,其中比亚迪以 184.77 万辆的全年销售数据获得全球销量冠军。根据中国汽车工业协会数据,2023 年 1 月和 2 月我国新能源汽车月度销量分别为 40.78 万辆和 52.50 万辆,由于 1-2 月为汽车销量传 统淡季,2023 年 1 月与 2 月销量与 2022 年 12 月 81.38 万辆的月销量相比仍有差距。 后续随着汽车电动化进程不断深化,我们认为全球范围内新能源汽车销量将会维持高速 增长态势。
1.3 供给——性能高速迭代,海外绝对垄断
“黄氏定理”愈演愈烈,GPU 性能高速迭代。在集成电路中,Intel 创始人之一戈登摩 尔曾今提出:集成电路上的可容纳晶体管数量大约在 24 个月就会增加一倍,后续这个 时间被更新为 18 个月。目前在 GPU 领域,英伟达创始人之一黄仁勋也给出了自己的理 解:GPU 性能提升一倍所需的时间约为 1 年,这相较于摩尔定理在集成电路中的速度提 升了 1.5 倍左右。根据英伟达总裁 Bill Dally 表示,自 2012 年开始直到 2021 年的 A100 产品面世,GPU 单芯片推理性能提升了约 317 倍,而其中工艺制程仅由 28nm 提升至 7nm。
边际成本或将下降。我们用英伟达近三代旗舰 GPGPU 为例,通过对比我们发现,在 FP16 tensor 算力来看,性能实现逐代翻倍,虽然售价持续提升,但是我们通过计算发现最新 一代 GPGPU 单位算力价格相较于上一代产品有所下降,我们认为如果 H100 价格不出现 较大幅度变动,那么英伟达新一代产品将在一定程度上降低推理、计算的边际成本。
英伟达、英特尔、AMD 三巨头垄断全球 GPU 市场。全球 GPU 市场目前被海外企业垄 断:全球范围内,人工智能、云端计算和独立 GPU 主要为英伟达主导,旗下深度学习旗 舰 GPU 产品 A100 和 H100 最高浮点算力分别实现 19.5 TFLOPS 和 67 TFLOPS;PC GPU 由于涵盖集成 GPU,英特尔由于为全球 CPU 龙头,使其在 PC GPU 中份额最高。 根据 Jon Peddie Research 数据,2022 年四季度 PC GPU 中,英特尔、英伟达、AMD 份 额分别为 71%、17%、12%;2022Q4 独立 GPU 中,英特尔、英伟达、AMD 份额分别 为 6%、85%、9%。
高端型号 GPU 出口限制,国产化迫在眉睫。2022 年 8 月,美国政府通知英伟达,其需 要获得许可才能够向中国和俄罗斯出口任何基于最新架构的 A100 GPU 或 DGX/HGX 等 系统,同时该项规定也同时适用于最新发布的 H100 GPU 或者实现类似功能的产品。根 据上文信息,我们发现目前全球范围内 GPU 市场几乎被美国垄断,尤其在人工智能领域 中英伟达产品被广泛使用。
高端型号产品的出口限制将在很大程度上影响国内相关领域的发展,根据上文我们计算 出 GPT-3 当日完成训练需要的 A100 数量将超过 3 万块,国内公司百度旗下大模型 ERNIE 3.0 Titan,参数量达到 2600 亿,高于 GPT-3 的 1750 亿,其所需的同规格 GPU 数量将 远大于 GPT-3(根据上文我们得知 1024 块 A100 训练 GPT-3(1750 亿参数)所需时间 约为 30 天,则我们可以根据比例计算出百度 ERNIE 3.0 Titan 模型(2600 亿参数)训练 30 天所需 A100 数量约为 1522 块。)同时我们认为,未来 AI 倘若进入大模型时代,相 关算力需求将快速增加,届时对于国产高算力 GPU 需求将进一步提升,所以说 GPU 国 产化进程迫在眉睫。
二、相关公司
2.1 英伟达:复盘全球 GPU 龙头
英伟达创立之初是一家为图形计算提供加速器的无晶圆厂半导体设计公司,1993 年黄仁 勋、Chris Malachowsky 和 Curtis Priem 共同创立了英伟达,1999 年英伟达推出 GeForce 256 绘图处理芯片时在全球首次提出 GPU(图形处理器)概念,2006 年推出革命性的用 于通用 GPU 计算的统一计算架构平台 CUDA,使得 GPU 可以被用于需要处理大量并行计 算的领域。同时 1999 年英伟达在纳斯达克上市,当时公司的收入来源主要为 PC 业务, 强大的产品力和与当时头部PC厂商的合作,英伟达用三年时间将营收从1995年的118.2 万美金提升到 1998 年的 1.6 亿美金。
革命性 CUDA 架构,打开 GPU 通用计算大门。2006 年底,英伟达推出 CUDA 通用并行 计算架构,CUDA是用于GPU计算的开发环境,是一个全新得软硬件架构,它包含了CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎,可将 GPU 视作一个并行数据计算的 设备,对运行的计算进行分配和管理。在 CUDA 的架构中,计算不再像过去那样必须将 计算映射到图形 API(OpenGL 或 DirectX)中,开发者可以用 C 语言为 CUDA 架构编写 程序,从而在支持 CUDA 的处理器上以超高性能运行密集数据计算解决方案,解决复杂 计算问题,CUDA 的广泛应用造就了计算专用 GPU 的崛起,使得英伟达得以进军高性能 计算领域。 推出新产品系列,平台型布局初现。2008 年英伟达发布了支持 CUDA 1.1 的 GeForce 9 系列 GPU,以及采用了第二代 CUDA 架构的 GeForce 200 系列 GPU,NVIDIA 在 GT 200 中引入了大量重要改进,GT200 具有极高的处理能力和存储器带宽,用于通用计算时的 可编程性和灵活性也更加突出,采用 Tesla 架构,这也是英伟达数据中心 GPU 系列产品 的第一代架构。同年,NVIDIA 还发布了 Tegra 系列产品,进军移动处理器市场。
从现在的角度出发,回顾历史我们认为,2012 年是英伟达业务布局的关键之年,2012 年开始深度学习技术革命性的快速发展,彼时深度学习可以打败基于人工代码的软件, 到 2015 年深度学习已经可以在 ImageNet 挑战赛战胜真人,GPU 在此过程中为深度学 习计算提供强劲支撑,深度学习的高速发展使得 AI 技术下游应用领域打开,技术、应用、 GPU 产品迭代形成良性循环。 2015 年之后,英伟达发布旗下第一代自动驾驶平台 Drive PX,同时自身游戏业务表现十 分强劲,在全球芯片公司业绩相对疲软的阶段,英伟达业绩表现亮眼。随后以比特币为 首的加密货币价格急速暴涨,对于其相关的炒作火热,这在一定程度上使得英伟达 GPU 出货量在 2017~2018 年间出现增长,对应股价也出现明显涨幅,随后伴随加密货币价 格大跌和加密货币热潮褪去,股价回落至正常态势。
进入 2020 年,2020 年初由于不可预测事件导致全球供应链中断,产线被迫停止,导致 英伟达受到较大影响:2020 一季度公司收入、利润同比出现负增长。在 2020 年 9 月, 英伟达首次宣布 400 亿美元拟收购 Arm,如果收购顺利进行将成为英伟达历史上最大额 度收购。 2021 年全球半导体进入短缺状态,英伟达业绩表现强劲,同时发布了 Omniverse 平台 拥抱元宇宙,公司股价出现较大的涨幅。随后到 2022 年,伴随加密货币价格暴跌,相 关 GPU 需求几乎消失,同时公司主营游戏业务需求不及预期,伴随去库存带来的毛利率 和业绩同时下滑,公司股价出现回落。 2023 年初,由 OpenAI 发布的基于 GPT-3.5 架构的大型语言模型火爆,人工智能收到广 泛关注,同时由于大模型的整体发展趋势,具有较强算力的 GPU 产品受到高度关注,公 司或将在未来深度受益于人工智能发展,公司股价出现明显涨幅。
H100 算力再提升,LLM 模型中较 A100 训练提升 9 倍。2022 年英伟达发布新一代基 于 Hopper 架构的 H100,主要用于下一代加速计算平台。H100 拥有 800 亿个晶体管, 采用第四代 Tensor Core 和具有 FP8 精度的 Transformer 引擎,与 MoE 模型相比,训练 速度提高了 9 倍。H100 通过多项改进将推理加速高达 30 倍并提供最低的延迟。其搭载 的第四代 Tensor Cores 加速了所有精度,包括 FP64、TF32、FP32、FP16、INT8 和 FP8, 以减少内存使用并提高性能的同时仍保持 LLM 的精度。H100 将双精度 Tensor Core 的 每秒浮点运算(FLOPS)提高了三倍,为 HPC 提供了 60 teraflops 的 FP64 计算。
根据英伟达 2023 年 3 月法说会,英伟达加速源自于 DGX,这是 LLM 实现突破的关键部 件之一。根据英伟达描述,截止目前《财富》100 强的企业中已经有半数安装了 DGX AI超级计算机,DGX 已经成为 AI 领域中的必备工具。目前英伟达最新的 DGX 将搭载 8 个 H100 模组,H100 搭载 Transformer 模型,旨在用于处理类似于 GPT-3 的 LLM 模型, 8 个 H100 模组通过 NVSwitch 连接的方式组成一个无通信阻碍的大型 GPU。根据官网信 息,NVIDIA DGX H100 具有 6 倍的性能、2 倍的网络速度和高速可扩展性,同时英伟达 表示目前新款 DGX H100 已经全面投入生产。
2022 年受需求及去库存影响,业绩短期承压。2023 财年中(2022 年),英伟达实现营 收 269.7 亿美金,略高于 2022 财年的 269.1 亿美金;净利润实现 43.68 亿美金,同比 下滑 55.21%。2023 财年英伟达由于全球消费相对低迷,同时叠加上公司的库存调整, 公司游戏业务短期承压,总体利润情况也呈现下滑。未来我们认为,公司在 GPU 领域依 旧具备全球龙头地位,下游人工智能、服务器等领域伴随人工智能大模型进程不断推进, 相关 GPU 需求或将显著增加。
公司毛利率水平维持平稳,2023 财年由于公司收入结构的变化以及消化库存的影响, 2023 财年综合毛利率 56.93%,同比下滑 8.00pct;同时公司 2023 财年净利率 16.19%,同比下滑 20.04%。未来我们认为伴随大模型 AI 的逐渐普及,对于公司例如 A100、H100 等专业级 GPU 需求量将提升,改善自身产品结构,提升盈利能力;同时我们认为未来伴 随全球消费复苏,公司游戏业务及对应消费级 GPU 需求将恢复至正常水平。
2.2 国产 GPU 欣欣向荣
近几年,国产 GPU 厂商不断涌向,其中: 景嘉微:公司是国内首家成功研制国产 GPU 芯片并实现大规模工程应用的企业,掌握了 包括芯片底层逻辑/物理设计、超大规模电路集成验证、模拟接口设计、GPU 驱动程序设 计等关键技术,在 GPU 体系结构、图形绘制高效处理算法、高速浮点运算器设计、可复 用模块设计、快速大容量存储器接口设计、低功耗设计等方面有深厚的技术积累,先后 研制成功 JM5 系列、JM7 系列、JM9 系列等具有自主知识产权的高性能 GPU 芯片,为 国内 GPU 的突破发展做出了突出的贡献。
沐曦集成电路:公司于 2020 年 9 月成立,核心成员平均拥有近 20 年高性能 GPU 产品 端到端研发经验。沐曦打造全栈 GPU 芯片产品,推出 MXN 系列 GPU(曦思)用于 AI 推理,MXC 系列 GPU(曦云)用于 AI 训练及通用计算,以及 MXG 系列 GPU(曦彩)用 于图形渲染,满足数据中心对“高能效”和“高通用性”的算力需求。沐曦产品均采用 完全自主研发的 GPU IP,拥有完全自主知识产权的指令集和架构,配以兼容主流 GPU 生态的完整软件栈(MXMACA),具备高能效和高通用性的天然优势,能够为客户构建软 硬件一体的全面生态解决方案。
壁仞科技:创立于 2019 年,致力于开发原创性的通用计算体系,建立高效的软硬件平 台,同时在智能计算领域提供一体化的解决方案。从发展路径上,壁仞科技将首先聚焦 云端通用智能计算,逐步在人工智能训练和推理、图形渲染等多个领域赶超现有解决方 案,实现国产高端通用智能计算芯片的突破。2022 年壁仞科技推出旗下首款旗舰 GPU 芯片:BR100,其采用 7nm 制程,支持 PCIe 5.0 接口,根据壁仞科技发布会,BR100 16 位浮点算力达到 1000T 以上,8 位定点算力达到 2000T 以上,单芯片峰值算力达 PFLOPS 级别。
摩尔线程:成立于 2020 年 10 月,专注于研发设计全功能 GPU 芯片及相关产品,支持 3D 图形渲染、AI 训练与推理加速、超高清视频编解码、物理仿真与科学计算等多种组 合工作负载,兼顾算力与算效,能够为中国科技生态合作伙伴提供强大的计算加速能力, 广泛赋能数字经济多个领域。根据摩尔线程官网,旗下 MTT S80 产品 GPU 核心频率 1.8GHz,具有 18GB 显存,FP32 算力达到 14.4 TFLOPS。
芯动科技:一站式 IP 和芯片定制及 GPU 领军企业,聚焦计算、存储、连接等三大赛道, 提供跨全球各大工艺厂(台积电/三星/格芯/中芯国际/联华电子/英特尔/华力)从 55 纳 米到 5 纳米全套高速 IP 核以及高性能定制芯片解决方案。根据芯动科技官网,在公司成 立后,先后推出了“风华 1 号”4K 级多路服务器 GPU、“风华 2 号”4K 级三屏桌面和嵌 入式 GPU,采用全套自主高端 IP,性能强劲,跑分领先,功耗低,自带智能计算能力, 全面支持国内外 CPU/OS 和生态,包括 Linux、Windows 和 Android。
登临科技:成立于 2017 年底,专注于高性能通用计算平台的芯片研发与技术创新,致 力于打造云边端一体、软硬件协同、训练推理融合的前沿芯片产品和平台化基础系统软 件。公司自主创新的 GPU+(基于 GPGPU 的软件定义的片内异构计算架构),在兼容 CUDA/OpenCL 在内的编程模型和软件生态的基础上,通过架构创新,完美解决了通用 性和高效率的双重难题。大量客户产品实测证明,针对 AI 计算,GPU+相比传统 GPU 在 性能尤其是能效上有显著提升。
通过各公司官网,我们比较目前公开披露的国内外各厂家专业 GPU 算力情况,通过比较 我们发现,目前在单精度浮点运算性能(FP32)算力中,国内外厂商均处于 TFLOPS 量 级,海外龙头英伟达和 AMD 旗舰信号 H100 SXM 和 MI250x 分别实现 FP32 算力 67 TFLOPS 和 47.9 TFLOPS。国内摩尔线程最高 FP32 算力产品 MTT S3000,算力为 15.2 TFLOPS;壁仞科技壁砺™100P 产品最高实现 240 TFLOPS 的 FP32 算力;芯动科技“风 华 1 号”产品实现 FP32 算力 5 TFLOPS。通过对比我们发现,在绝大多数情况下,国产 GPU 相较于海外龙头旗舰产品仍有较大差距。
三、重点公司分析
3.1 景嘉微:潜心研发,国产 GPU 龙头静待花开
2022 年 10 月,景嘉微发布 2022 年三季报:公司 2022 年前三季度实现营收 7.29 亿 元,yoy-10.35%;归母净利润 1.73 亿元,yoy-30.60%。公司 2022Q3 单季度实现营收 1.85亿元,yoy-45.21%,qoq+1.79%;归母净利润0.48亿元,yoy-60.86%,qoq+2.01%。 前三季度综合毛利率 64.82%,同比+1.58 pct。2022 年前三季度受到芯片业务相关需求 的疲软,整体业绩短期承压。长期来看:我们认为,得益于公司 GPU 芯片的竞争优势以 及相关产业国产化加速的趋势愈发显著,公司有望重回快速成长车道。 JM9 第二款芯片进展顺利。根据公司公告,截止 2022 年 5 月,JM9 系列第二款图形处 理芯片已经完成流片、封装阶段工作。第二款 JM9 系列芯片采用 PCIE 4.0 接口,显存带 宽达到 25.6GB/s,现存容量为 8G,能够支持 X86、ARM、Linux 等操作系统且功耗低于 15W。我们认为 JM9 系列第二款芯片的成功研发进一步丰富了公司的产品线,提高了图 形显示领域的核心竞争力,对于其后续相关测试工作的顺利进行以及未来对于业绩的贡 献值得期待。
国产化加速迫在眉睫。目前中美科技竞争愈发激烈:2022 年 8 月 9 日,美国总统签署了 《2022 芯片与科技法案》,8 月 12 日美国商务部宣布限制 EDA 软件;8 月 31 日,英伟 达和 AMD 宣布美国政府禁止其向中国销售高性能 GPU。当前我国的信创已经取得了较 大的进步:软件方面,国产操作系统、数据库、EDA 等领域均实现快速发展;硬件方面 国产 CPU、GPU、5G 芯片等均实现突破。我们认为随着国际形势的的日益复杂、国产化 需求持续提升,同时在《“十四五”国家信息化规划》等国家强政策的驱动下,我国信创 或将迎来高速发展。
3.2 寒武纪:国产 AI 芯片领军企业
公司成立于 2016 年,专注于 AI 芯片的研发和创新。云端产品线方面,公司已先后推出 了思元 100、思元 270、思元 290 和思元 370 芯片及相应的云端智能加速卡系列产品、 训练整机。与互联网行业、金融领域及多个行业客户展开了合作。边缘产品线方面,公 司面向边缘计算场景推出的思元 220 芯片和边缘智能加速卡已落地多家头部企业,自发 布以来累计销量突破百万片。IP 授权及软件方面,公司先后推出了用于终端场景的寒武 纪 1A、寒武纪 1H、寒武纪 1M 系列智能处理器,授权给客户在其产品中使用。 公司发布 2022 年业绩快报,2022 年公司实现营收 7.29 亿,同比提升 1.11%;归母净 利润-11.66 亿,同比下降 41.40%。根据公司公告,2022 年公司随着云端产品线思元 290、 思元 370 系列产品在多家头部企业完成产品导入,成功与多家头部企业实现了合作,形 成了有效拓展,带动 2022 年云端产品线业务收入的大幅增长。同时,2022 年公司智能 计算集群系统业务收入与 2021 年基本持平,收入主要来自南京智能计算中心项目(二、 三)期智能计算设备(二期)。
保持高研发投入。2017 年至 2021 年,公司研发费用均超过营业总收入,研发投入巨大。2022 年前三季度,公司累计收入 2.64 亿,研发投入 9.49 亿,研发费用率约为 359.01%。 根据公司公告,2022 年为确保“云边端”芯片产品及基础系统软件平台的高质量迭代, 在竞争激烈的市场中保持技术领先优势,持续加大研发投入,积极引进行业人才、保持 公司研发团队稳定,研发人员薪酬、流片费用、研发设备及 IP 对应的折旧和摊销等费用 较上年同期显著增加。 思元 370 性能提升显著。思元 370 是公司第三代云端产品,于 2021 年推出。其采用台 积电 7nm 先进制程工艺,同时也是公司首款采用 Chiplet 技术的人工智能芯片。思元 370 智能芯片最大算力高达 256TOPS(INT8),为思元 270 算力的 2 倍。同时,思元 370 芯片 支持 LPDDR5 内存,为思元 270 的 3 倍。由于思元 370 智能芯片采用了先进的 Chiplet 芯粒技术,支持芯粒间的灵活组合,仅用单次流片就达成了多款智能加速卡产品的商用。 截止 2021 年底公司已推出 3 款加速卡:MLU370-S4、MLU370-X4、MLU370-X8,已与 国内主流互联网厂商开展深入的应用适配。
3.3 芯原股份:国产 IP 龙头,Chiplet 持续加速
芯原股份发布 2022 年报。公司 2022 年实现营收 26.79 亿,同比增长 25.23%;实现归 母净利润 0.74 亿,同比增长 455.31%;综合毛利率 41.59%,同比提升 1.53pct。2022 年公司研发投入 8.37 亿,研发费用率 29.60%。其中 2022 年四季度公司实现营收 7.95 亿,同比增长 28.56%;归母净利润 0.41 亿,同比增长 16.90%;2022Q4 毛利率 43.95%, 同比下降 3.89pct,环比提升 5.26pct。
分业务结构来看:
知识产权授权使用费收入 7.85 亿元,同比增长 28.79%。其中半导体 IP 授权次 数 190 次,较 2021 年下降 38 次,平均单次知识产权授权收入 413.37 万元,同比 增长 54.55%。特许权使用费收入 1.08 亿元,同比增长 12.49%。在核心处理器 IP 相关营业收入中,图形处理器 IP、神经网络处理器 IP 和视频处理器 IP 收入占比较 高,这三类 IP 在 2022 年度半导体 IP 授权业务收入(包括知识产权授权使用费收 入、特许权使用费收入)中占比合计约 65%。
现芯片设计业务收入 5.73 亿元,同比增长 4.46%。其中 14nm 及以下工艺节点收 入占比 64.23%,7nm 及以下工艺节点收入占比 55.43%。公司在执行芯片设计项 目 82 个,其中 28nm 及以下工艺节点的项目数量占比为 47.56%,14nm 及以下工 艺节点的项目数量占比为 24.39%,7nm 及以下工艺节点的项目数量占比为 8.54%。
量产业务收入 12.07 亿元,同比增长 36.41%。报告期内,为公司贡献营业收入 的量产出货芯片数量 118 款,均来自公司自身设计服务项目,另有 39 个现有芯片 设计项目待量产。公司报告期内量产业务订单出货比约 1.15 倍。
分下游应用领域来看: 物联网领域实现营业收入 9.06 亿元,占营业收入比重为 33.82%,占比较 2021 年度增 加 8.38 个百分点;消费电子领域实现营业收入 5.77 亿元,占营业收入比重为 21.52%, 占比较 2021 年度下降 9.37 个百分点。汽车电子领域收入保持较高增速,同比提升 172.57%,工业、物联网等下游行业的收入分别增加 103.16%、66.50%。
推进 Chiplet 技术产业化。2022 年 4 月,公司正式加入 UCIe 产业联盟,近年来公司通 过“IP 芯片化,IP as a Chiplet”、“芯片平台化,Chiplet as a Platform”,以及进一步延 伸的“平台生态化,Platform as an Ecosystem”,来促进 Chiplet 的产业化。 多款 AI 芯片使用芯原 IP。截止 2022 年底,公司神经网络处理器 NPU IP 已被 60 家客 户用于其 110 余款人工智能芯片中。公司率先将人工智能技术深度集成到特定领域的处 理器中内置芯原 NPU 的芯片主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安 防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等 10 余个市场领域。
3.4 海光信息:国产 CPU、DCU 龙头
公司发布 2022 年业绩快报。2022 年公司实现营收 51.25 亿,同比增长 121.83%;归母 净利润 8.02 亿,同比增长 145.18%。2022 年公司始终专注于高端处理器的研发、设计, 不断加大技术创新力度,实现产品升级。公司 2022 年围绕通用计算市场,通过技术创 新、产品迭代、功能提升等举措,不断提升产品竞争优势,同时国产服务器市场需求大 幅提升,使得公司业绩增长显著。 性能卓越+安全可信,根植本土加速生态建设。1)核心技术自主可控,性能卓越具备市 场竞争力:率先完成高端通用处理器和协处理器产品的商业化应用,产品性能对标海外 一线厂商,在国内厂商中处于领先地位,产品获国内用户广泛认可,行业信创大单不断 验证产品竞争力。2)安全可信,内置专用安全软硬件,满足关键信息基础设施的数据安 全需求。3)兼容主流生态,成立“光合组织”,加速以海光为核心的自主化生态建设, 根植本土市场拓展应用场景。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
半导体行业专题报告:“AI革命”算力篇.pdf
锡行业研究报告:半导体上游核心材料,供给趋紧+需求复苏下价格中枢有望持续提升.pdf
京仪装备研究报告:国内半导体专用温控废气处理设备专精特新“小巨人”.pdf
半导体设备行业专题报告:键合设备,推动先进封装发展的关键力量.pdf
半导体封装设备行业深度报告: 后摩尔时代封装技术快速发展,封装设备迎国产化机遇.pdf
半导体行业投资策略:AI有望推动新一轮半导体周期上行.pdf
PCB行业专题报告:GB200单颗GPUHDI价值量有望提升,产业链迎新机遇.pdf
英伟达GTC专题分析:新一代GPU、具身智能与AI应用.pdf
超威半导体研究报告:CPU攻城略地,GPU仍需磨炼.pdf
景嘉微研究报告:国产GPU老兵,高效研发促进产品革新.pdf
GPU行业专题报告:GPU框架,从ROCm、Pytorch看生态壁垒.pdf