一、大模型发展带动硬件升级,需求与政策利好国产替代
1.1、国产算力规模大、国产化率低,空间广阔
算力是未来经济发展基石。算力对国家经济发展影响深远,据 IDC《2021- 2022 全球计算力指数评估报告》数据,平均算力每提高 1 点,数字经济 和 GDP 将分别增长 3.5‰和 1.8‰。算力作为数字经济时代的关键生产 力要素,已经成为推动数字经济发展的核心支撑力和驱动力。当一个国 家的计算力指数达到 40 分/60 分以上时,对 GDP 增长的推动力将提高 1.5/3 倍。从下游细分来看,人工智能计算和边缘计算成为市场增长重要 力量,将引领算力进入新一轮快速增长通道。
我国算力市场空间大,国产化率有望快速提升。政策面,我国陆续出台 《全国一体化大数据中心协同创新体系算力枢纽实施方案》、《算力基 础设施高质量发展行动计划》、《“十四五”数字经济发展规划》等一系列 文件推动算力基础设施建设。此外,国家推动多地智算中心建设,由东 向西逐步扩展。当前我国超过 30 个城市正在建设或提出建设智算中心, 此外据科技部出台政策要求,“混合部署的公共算力平台中,自主研发芯 片所提供的算力标称值占比不低于 60%,并优先使用国产开发框架,使 用率不低于 60%”,国产 AI 芯片渗透率有望快速提升。据 IDC 数据我国 智能算力未来将快速增长,2021 年到 2026 年期间中国智能算力规模年 复合增长率达 52.3%。
FLOPS(Floating Point Operations Per Second)即每秒浮点运算次 数,代表浮点运算速度。浮点计数是利用浮动小数点的方式,使用不同 长度的二进制来表示一个数字,一般采用 4 个字节即 32 位二进制来表 达一个数字,因此 FP32/FP64/FP16 分别代表单精度、双精度、半精度。 FP64 常用于对精度要求高的科学计算或超算,AI 深度学习主要用 FP32 或 FP16。
TF32 是英伟达提出代替 FP32 的单精度浮点格式。TF32(TensorFlow32)是英伟达 A100 安培架构 GPU 中的新数据类型,采用了与半精度 (FP16)数学相同的 10 位尾数位精度,这样的精度水平远高于 AI 工作 负载的精度要求。同时,TF32 采用与 FP32 相同的 8 位指数位,能够 支持与其相同的数字范围,在性能、范围和精度上实现了平衡。借助于 NVIDIA 函示库,用户无需修改代码,即可使其应用程式充分发挥 TF32 的各种优势。TF32 Tensor Core 根据 FP32 的输入进行计算,并生成FP32 格式的结果。通过降低精度让 TF32 新单精度数据类型代替了 FP32 原有的单精度数据类型,从而减少了数据所占空间大小在同样的 硬件条件下可以更多更快地运行。
2024-2025 年我国算力规模规划增长将超 100EFLOPS ,对应 AI 算力 芯片市场规模超 2600 亿元。2023 年 10 月,工业和信息化部、中央网 信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等六部 门联合印发《算力基础设施高质量发展行动计划》,从计算力、运载力、 存储力以及应用赋能四个方面提出了到 2025 年发展量化指标,提出“到 2025 年,中国算力规模超过 300EFLOPS,智能算力占比达到 35%。” 根据 23 年 8 月,工业和信息化部部长金壮龙表示全国算力总规模达到 197EFLOPS,未来两年我国算力规模增长将超 100EFLOPS,假设其中 智能算力占比达 50%,对应 FP32 算力约等于 256 万张 A100,市场规 模将超 2600 亿元。
我国 AI 芯片市场规模约占全球市场三分之一。我国半导体产业呈现市 场规模大,国产化率低的特点,其中高端数字芯片最为典型。从整体来看,根据灼识咨询统计,中国 AI 芯片市场规模约占全球 AI 市场规模 30%~40%;英伟达是全球 GPU 龙头厂商,以其财报为例,我国是英伟 达主要收入来源地。中国大陆在英伟达 2023 财年营业收入达到 58 亿美 元,占总收入的 21.45%,而在 2003 财年中国大陆营业收入只有 2.4 亿 美元,占总收入的比例仅为 13%。我们认为随着中国人工智能产业的持 续发展和应用场景的不断扩大,未来国内 AI 芯片市场将持续增长。
GPU 市场马太效应显著,目前我国国产化率仍不足 10%。由于中国芯 片产业起步较晚,且高阶芯片的技术突破不可通过简单累积实现,目前 国内芯片技术显著落后于美国,在高端芯片领域市占率较低。从全球范 围来看,据华经产业研究院统计,在独立 GPU 竞争市场上,英伟达处于 垄断地位,市占率高达 88%,马太效应显著;从国内 GPU 市场上来看, 根据云岫资本《2023 中国半导体投资深度分析与展望》统计,尽管国内 GPU 市场广大,但目前国产化率不到 10%亟待提升,国产 AI 芯片厂商 空间广阔。
1.2、美禁令持续升级,国产算力替代加速
美国 AI 禁令再升级,GPU 成管制焦点,倒逼国产化提速。美国商务部 工业和安全局(BIS)于 2023 年 10 月 17 日发布新规,旨在进一步遏制 中国等国家的芯片与人工智能发展,主要包括收紧高算力芯片出口、扩 大半导体制造管控、在实体清单中增加更多中国 GPU 企业。具体内容 包括: 1)芯片出口:使用三个标准来规定禁止向中国出口的芯片,包括芯片的 总算力(TPP)、性能密度(PD)以及芯片的设计或销售是否用于数据 中心。该禁令使得 A800、H800 等曾经的中国特供版 GPU 无法再出口 至中国,甚至影响到消费类 GPU:RTX 4090。 2)制造管控:扩大对半导体制造设备的管制如 DUV 光刻机,以及扩大 代工厂审查芯片设计文件的地域限制等。 3)实体清单:在“实体清单”上新增 13 家中国企业,主要包括壁仞科技、 摩尔线程等 GPU 公司,为这些公司制造芯片需要 BIS 的许可。 美国连续多年出台相关法规禁令来限制中国大陆半导体发展,包括定点 打击、本国补贴、出口管控等各类措施,此次禁令便是对 2022 年 8 月 芯片禁令的升级,英伟达 A800、H800 均为当时禁令后推出的中国特供 版 GPU,降低了算力和互联带宽,但如今亦被限制。
英伟达中国市场特供版芯片性能进一步阉割,国产 AI 发展受阻。针对美 国新一波禁令限制,英伟达试图开发符合美国政府政策且不需要许可证 的新数据中心产品,将推出 H20、L20 等型号。根据腾讯科技新闻,H20目前公布的参数规格,其单卡算力为 0.148P(FP16),大约为 A100 的 50%/H100 的 15%,配 6 颗 HBM3e,96G 容量,NVLink 提升到 900G/s。 单卡算力的大幅下降,对国产 AI 厂商而言,相较 A/H800,需采购更多 数量的 H20 以满足模型训练要求。此外,H20 单卡算力较低,可能难以 满足千亿参数级 LLM 模型训练,将更适用于垂类模型的训练及推理。我 们认为单卡性能的不足以及资本开支的上升,将倒逼国产 AI 下游厂商加 速国产替代。
受禁令影响,英伟达 2023 年四季度中国大陆收入环比大幅下滑。受出 口管制影响,英伟达在中国市场收入逐渐萎缩,23 年三季度英伟达在中 国大陆收入达 40.3 亿美元,环比增长 47%,四季度仅为 19.5 亿美元, 环比下滑 52%。四季度中国大陆占英伟达总营收 8.8%,创历史新低, 此外官方预期下季度占比将保持这一区间。
近年来国产 AI 芯片进展可观,本次美国芯片禁令以及国内大模型发展 需求为国产替代增添新动力。目前国内领先 AI 芯片厂商包括华为海思、 寒武纪、海光信息、壁仞科技、燧原科技、沐曦集成电路、摩尔线程、 天数智芯等,部分国产旗舰级产品在算力方面已对标英伟达 A100 等国 际领先产品,在内存与互联等方面也接近国际先进水平。据路透社,英 伟达 H20 在某些关键领域的 FP32 性能表现不如华为昇腾 910B 产品, 但在互连速率方面会比 910B 更具优势。
凭借优异的产品性能,国产芯片厂商逐步获下游客户认可。据中国基金 报报道,百度为 200 台服务器订购了 1600 片昇腾 910B。截至 23 年 10 月,华为已向百度交付了超过 60%的订单;科大讯飞在 2023Q3 业绩说 明会表示,公司已于 23 年初与华为昇腾启动专项攻关,华为发布的昇腾 910B 能力已经基本做到可对标英伟达 A100。除华为昇腾外,寒武纪思 元 590、海光深算 3 号等产品也处于积极推进。我们认为在美方对华制 裁压力下,H20 为红线内国内能够采购的最高端芯片,国产芯片持续迭 代将有望超越其性能效果,完善国产算力基础建设。
二、推理需求快速增长,ASIC 大有可为
机器学习主要包括训练(training)和推理(inference)两个步骤,通 常需要不同类型的 AI 芯片来执行。训练是指通过大数据训练出一个复 杂的神经网络模型,通过大量标记过的数据来训练相应的系统,使其能 够适应特定的功能;推理是指利用训练好的模型,使用新数据推理出各 种结论。 1)训练芯片:通过大量的数据输入,构建复杂的深度神经网络模型的一 种 AI 芯片。需要较高的计算性能、能够处理海量的数据、具有一定的通 用性,以便完成各种各样的学习任务,注重绝对的计算能力。目前主流 训练芯片包括英伟达 H100、A100 等; 2)推理芯片:推断芯片主要是指利用训练出来的模型加载数据,计算“推 理”出各种结论的一种 AI 芯片,注重综合指标,侧重考虑单位能耗算力、 时延、成本等性能。目前主流推理芯片包括英伟达 L40、T40 等;训练芯片在单卡算力、存储容量及互联带宽等方面都有更高要求,目前 国产厂商在训练芯片领域与海外龙头差距较大。
海量端侧需求拉动,推理市场空间值得重视。在 AIGC 发展初期,行业 龙头基于自身业务需求训练不同大模型,其爆发式的需求拉动 AI 训练卡 供不应求,带动英伟达业绩持续创新高。2023 年 AI 大模型兴起,推动 训练服务器出货量大幅增长,但随各大互联网等企业模型训练完善,应 用端产品上线后将带来大量推理算力需求。据 IDC 数据,2023 年上半 年中国训练工作负载的服务器占比达到 49.4%,预计全年占比将达到 58.7%。2027 年用于推理的工作负载将达到 72.6%。
2.1、开源模型降低 AI 门槛,有望加速下游推理卡需求
全球开源大模型数量逐步提升,性能表现优秀,将有效降低 AI 门槛,推 动下游更多企业需求。目前从全球看,海外 Llama 开源模型以及国内如 书生·浦语 InternLM 等模型表现优异,开源且支持商用,下游企业可调 用修改,能够满足中小企业、科研机构和个人开发者的应用和迭代需求, 有效降低 AI 门槛,提高 AI 整体水平,推动下游应用端成熟。
Llama-2 是由 Meta 开发的开源大模型,目前后续版本也将保持开源。 Llama-2 是介于权重开源和限制开源之间大模型,也被称为半开源大模型。根据 License 描述,只要获得官方的使用许可,就被授权使用、复 制、分发、创建 Llama-2 材料及其衍生产品,即可以完全使用 Llama-2 提 供 的全 部 模型 资料。 Llama-2 作为 开 源大模 型 ,目 前 训练 了 7B/13B/70B 三个版本。2024 年 1 月 19 日,扎克伯格宣布正在训练中 的 Llama-3 将继续维持开源状态。
架构层面,Llama-2在Llama-1架构基础上革新,实现“质”和“速”兼备。 Llama-2 模型延续了 llama 的模型结构,基于 transformer 架构采用 decoder-only 方式构建,即在 transformer 架构中仅采用 decoder 部分, 理论上避免 encoder 低秩导致削弱模型表达能力问题,实践中带来训练 效率和工程实现方面的优势。Llama-2 合计采用 32 层 decoder,在原有 Llama-1 基础上做了进一步革新: 1)沿用 Llama-1 的训练稳定性优势:在 decoder 层中将 transformer 中 的 Layer Norm 换成 RMS Norm 用以提升训练稳定性。根据论文《YAYI 2: Multilingual Open-Source Large Language Models》,RMS Norm 可 以将计算时间降低 7% 到 64%; 2)沿用 Llama-1 的计算速度优势:postionnal 换成 RoPE(结合相对位 置编码和绝对位置编码的优点,兼具速度快、拓展长度容易、对学习 token 关系有意义的特点)以提升计算速度;
同业内领先的闭源大模型相比,Llama-2 70B 在知识、解决问题技能、 数学能力方面表现逼近于 GPT-3.5。Meta 在测评中保持了充分的客观 性,其中 GPT-3.5/GPT-4 的结果来自 OpenAI,PaLM/PaLM-2-L 分别 来自于学术论文,Llama-2 的测评结果整体优于 PaLM,在 MMLU(多 任务语言理解,评估知识和解决问题的技能)、GSM8K(评估数学能力) 两项上逼近了 GPT-3.5 的表现,但和 GPT-4/PaLM-2-L 之间仍存在较大 差距。
Llama-2 提供了 7B/13B/30B 三个版本的免费商用,申请下载即可使用。 官方在 Llama-2 的 License 和 Model card 里提供了相关的商用限制: 1)在 License 的禁用条款中,明确禁止将 Llama 的产出、结果用于增 强改善其他大模型,但 Llama-2 及其衍生产品除外; 2)在 License 的附加商业条款中,月活大于 7 亿的商用平台需要获取 Meta 的许可,但只要获得许可后就可以正常使用 Llama-2; 3)在 Model card 的使用限制中,提出不适用于非英文语言,这是关于 Llama-2 商用限制中颇具争议的一条。我们认为主要出于 Llama-2 语 料多数为英文的原因表明模型局限性;另一方面,国内厂商可通过二次训练出 Llama-2 的衍生模型。
国内开源大模型表现优异,支持免费商用降低 AI 开发门槛。书生·浦语 InternLM 是上海人工智能实验室和商汤科技联合多所高校发布的大模 型,其最新发布的 InternLM2 基于 2.6 万亿 token 进行训练,包含 7B 和 20B 两种参数规格,提供免费商用授权,属于完全开源的大模型。在轻 量级、中量级开源模型中,InternLM2 在考试、语言、知识、推理、数学、 代码六个维度都有着突出表现:InternLM2 仅以 20B 参数的规模,在 AGIEval(包括中国高考、美国 SAT、法考等 20 种标准化考试在内的测 试集)、GSM8K(评估数学能力)、MATH(评估数学能力)领域实现 了对 GPT-3.5 的超越,在 MMLU(多任务语言理解,评估知识和解决问 题的技能)、BBH(推理数据集)、HumanEval(OPENAI 编写的代码 生成能力评测数据集)领域实现了逼近 GPT-3.5 的水平,目前 InternLM2 继续支持免费商用,有望降低众多中小企业发展 AI 的门槛。
开源大模型有望加速推理卡需求增长。自研 AI 大模型需要强大的算力硬件支持,其中预训练是大模型算力消耗的主要阶段,较高的资本开支 大大提升了自研门槛。此外美国出口管制条例后,国产厂商采购英伟达 高端训练卡受阻,国产芯片厂商在 AI 训练方面较海外仍有较大差距。我 们认为开源大模型的优异表现则有助于下游企业快速学习借鉴,降低 AI 进入门槛,推动中小厂商在 AI 领域的发展,加速推理卡的需求增长。
2.2、Sora 等模型加速推动应用端成熟
Sora 是基于 difussion 扩散的 transformer 模型。Sora 凭借其强大的 通用视觉数据处理,可以生成跨越不同持续时间、纵横比和分辨率的图 像视频,最多可以连续生成 60 秒(一分钟)的高清视频。Sora 是 OpenAI 在 GPT-4 及 DALL-E 等语言和图像模型的基础上进一步的创新突破,该 模型能够从类似于静态噪音的视频开始,逐渐去除噪音生成视频。此外, 该模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的 复杂场景,能在单个生成的视频中创建多个镜头,使角色和视觉风格保 持准确一致。
基于 DALL·E 3 和 GPT,增强语言理解能力。Sora 采用了两种方式来 增强模型语言理解能力: 1)基于 DALL·E 3 训练 captioner 模型(给定图片/视频生成字幕),而 后将该 captioner 模型用于为训练集中所有视频生成字幕; 2)基于 GPT 将用户提示转换为更详细的描述性字幕,而后发送给 Sora。 基于以上两种方式打造的视频生成类 AI 大模型,能够显著增强应用中 的文本保真度和视频整体质量。
Sora 基于 DiT(Diffusion Transformers)模型构建。DiT 模型是一个 结合了 Transformer 的扩散模型:DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE 解码器]。 根据 William Peebles 以及 Saining Xie 在论文中实验结论可知,当我们 将 DiTs 沿“模型大小”和“输入 tokens 数量”两个轴进行配置实验,Gflop 最高的模型是 DiT-XL/2,它使用最大的 XL 配置,patch 大小为 2,当训 练时间足够长时,DiT-XL/2 就是里面的最佳模型。
显存带宽需求提升,推理算力有望逐步增长。Sora 采用了改良的 DiT 架 构,算力消耗和 DiT 相仿,DiTs 遵循 Vision Transformers (ViTs)的设 计原则,与传统的卷积网络(ResNet 等)相比,它能提供更强的灵活性。 根据 DiT 架构论文原作者判断,Sora 的参数量大约在 30 亿左右(3 倍 DiT-XL 模型的大小),因此更有利于 Sora 后续的灵活迭代。 从推理端看,Sora 基于图片做长视频生成,再基于生成视频做 extend, 其所需 token 数量相较于文本及图片模型的推理,有望成数量级增长, 我们判断对推理算力需求将持续上升。此外,推理端 token 增加、算力 需求的增长,也对显存及带宽提出更高要求,预计将拉升 400G 光通信 技术在以太网中的应用,并有望推动 800G 乃至 1.6T 光通信技术的应 用。
Sora 有望在多行业实现简单商用。360 CEO 周鸿祎表示,Sora 将 AGI 实现从 10 年缩短到 1 年。整体而言,根据 Sora 目前展现出的功能,辅之以其支持的 1 分钟视频生成和 2048*2048 的最大分辨率,使其在广 告、游戏、电影预告等领域实现广泛应用成为可能,在降本增效的同时 颠覆部分现有产品: 1)新闻业:Sora 有可能革新新闻报道的方式。当突发新闻事件发生时, 记者只需快速编写描述性文本,借助 Sora 模型便能立即生成对应的 实时视频。这种创新的方法显著提高了新闻制作与发布的效率,使得 新闻报道更加迅速和及时; 2)广告业:企业可以利用 Sora 在极短的时间内,根据产品特性和品牌 故事快速生成多个版本的宣传视频。这种创新的方式不仅提高了市 场营销的效率,而且显著降低了制作成本; 3)XR:Sora 作为 AI 视频生成大模型,能产出逼真的 3D 模型和动画, 为 XR 应用提供丰富且高质量的内容资源,满足用户对虚拟世界的 高标准要求。此外 Sora 支持实时渲染,允许用户与虚拟环境实时互 动,增强沉浸感,提升用户参与度,为 XR 应用带来更自然的交互体 验。
我们认为,目前 Sora 的阶段相当于 GPT-3 的阶段,是一个不完美的模 型,但参考 GPT-3 到 GPT-4 实现的跨越,随着 Sora 后续功能的进一步 完善、作为辅助的 GPT 和 DALL·E 系列进一步迭代,Sora 有望在 to B 侧较快实现商用化,带动推理端需求增长。
2.3、ASIC 架构在推理端或更具优势,国产厂商加速追赶
ASIC 架构在推理端或更具优势。ASIC(特定应用集成电路)是一种为 特定用途定制的集成电路,架构中仅保留与特定用途密切相关的重要单 元,将更高比例的芯片空间用于支持特定用途运算。相比于 GPGPU, ASIC 具有高性能、低功耗、小尺寸的特点,面向用途固定的推理端需求 有着明显的优势。
相较 GPU,ASIC 拥有更低功耗。ASIC 拥有时钟门控、动态电压、动态 频率等设计,并做了特定用途优化,相比于通用性更强的 GPGPU 等架 构拥有更低的功耗;另一方面,ASIC 裁剪冗余单元,大幅降低芯片的面 积和重量,Meta 技术负责人 Olivia Wu 表示:“通过内部部署,我们能够 优化芯片的每一个纳米。因此,我们的架构中没有任何部分被浪费,这 有助于降低芯片的功耗和成本”。 1)时钟门控设计:可以关闭电路中未使用部分的信号,可以显著降低 功耗; 2)动态电压设计:在电路不以最大容量运行时,降低电路电压,节省 使用电力; 3)动态频率设计:在 ASIC 空闲或轻负载时降低频率,可以显著降低 功耗,当 ASIC 处于重负载时增加频率可以提高性能;
实证研究中 ASIC 表现突出。根据《Artificial-Intelligence integrated circuits: Comparison of GPU, FPGA and ASIC》论文研究结果,ASIC 拥有比 GPU、FPGA 更好的性能表现、更低的功耗。以 ASIC 架构的典 型代表之一 TPU 为例,AlphaGo 的早期版本是在 CPU 和 GPU 的集群 上运行(2015年10月的分布式版本使用1202个CPU和176个GPU), 后来的版本使用了 TPU,取得了更好的效果。
大模型参数走向收敛,ASIC 迎发展契机。尽管 ASIC 在理论和实测中 都有着良好表现,但由于其存在较弱的通用性,外加设计周期较长,在 AI 前期大模型随参数量快速迭代阶段,商业化占比较低。我们认为大 模型逐步发展,参数量增长有望逐渐收敛,如超聚变 CTO 丁煜表示, 大模型收敛是必然趋势。当大模型收敛后,参数趋于稳定,模型的性能 也在训练数据和验证数据上达到相对稳定状态,ASIC 凭借其高性能、 低功耗等优势,有望迎发展契机。
ASIC 有望成为推理端芯片主流架构。从理论上来说,ASIC 是定制化 芯片,处理推理端特定需求有着先天优势。从应用场景来说,随着大模 型收敛,模型迭代速度变慢,ASIC 的应用可行性上升。根据 McKinsey & Company 测算,应对推理端需求方面,ASIC 在语言理解、面部识别、动态定价、自动驾驶等多个领域都是芯片架构的最优选 择。我们认为,随大模型成熟下游推理端需求爆发,ASIC 市占率有望 快速提升。
2.4、海外大厂加速布局 ASIC 芯片
谷歌:TPU 是谷歌自研的 AI 加速芯片,其 AI 模型 gemini 即使用 TPU 提供算力支持。2006 年起谷歌就开始考虑布局 ASIC,2016 年在 Google I/O 开发者大会上正式宣布 TPU 自研成功,随后逐年迭代至 TPU-v5 系列,其中 TPU v4 整体性能表现优于英伟达 A100,略逊于 H100。相较于上一代,TPU-v5p 芯片实现了 197TFLOPS(BF16)的 峰值算力,820GB/s 的带宽,提供的训练性能提高了 2 倍、推理性能 提高了 2.5 倍。
TPU 系列采用 128*128 MXU 模块,芯片运行更加高效。TPU-v1 是推 理端专用芯片,TPU-v2 和 TPU-v3 是推理训练两用芯片,和 Volta 架 构(基于 GPGPU)相比,TPU-v3 在性能表现接近的情况下实现了更 小的芯片面积。在 MXU 模块,TPU-v2 和 TPU-v3 把 TPU-v1 的单个 256*256 MXU 修改为 4 个 128*128 MXU 卷积模型,把利用率从 22%- 30%提升至 37%-48%,带来更高的运行效率,如果进一步压缩为 16 个 64*64 模块,利用率约为 38%-52%,提升较小,但由所需控制模块 等带来的面积会大幅增加,因此 128*128 是比较理想的 MXU 模块类 型。后续的 TPU-v4 更是基于此在面积未大幅提升的情况下,以更低的 功耗(300W)实现了超 TPU-v3 2 倍的算力(275TFLOPS)。
TPU-v5e 和 TPU-v5p 分别是 TPU 系列中最具成本效益和最强大的产 品,处于业内领先地位。TPU v5e Pod 平衡了性能、灵活性和效率, 允许多达 256 个芯片互连,通用性方面支持八种不同虚拟机配置,可 以由客户自行选择以服务于各种模型。TPU-v5p 主要提升方向为性 能,灵活性和规模,通过最高带宽的芯片间互联(ICI),以 4800 Gbps/chip 在 3D 圆环拓扑中将 8960 个芯片组合在一起。根据谷歌官 方数据,借助第二代 SparseCore,BF16 下 TPU-v5p 的训练效率达 TPU-v4 的 1.9 倍,如采用 INT8 进行训练则训练效率达 2.8 倍。
英特尔:Gaudi2 大幅领先 A100,稍弱于 H100。英特尔是全球领先的 芯片制造商,于 2020 年 1 月收购 habana 用于生产 ASIC 芯片 Gaudi 系列,目前已推出 Gaudi、Gaudi2 和中国定制版芯片 Gaudi2C,其中 Gaudi2C 出于规避禁令的目的对算力进行了大幅下调。根据公司官网 的数据,相比于 A100,2022 年推出的 Gaudi2 能够在 BF16/FP32 精 度下实现训练端 1.70-2.44 倍表现,在推理端 1.42-2.89 倍表现,考虑 到 H100 是 A100 推理/训练表现的 3.5/2.3 倍,预计 Gaudi2 整体性能 弱于 H100。
Gaudi2 在第一代 Gaudi 基础上进行了升级,助力客户降本增效。 Gaudi2 建立在第一代 Gaudi 上,制程工艺从 16nm 升级为 7nm,增加 了 FP8 精度支持,采用 HBM2e 96GB 内存和 2.45TB/s 带宽。在 Gaudi2 上继承了 24 个 RoCE2 端口(第一代 Gaudi 为 10 个),采用 八卡互联架构搭建,同时提供相应基板。通过片上 RoCE 集成,客户 可以轻松扩展配置 Gaudi2 系统以满足深度学习要求,同时由于可以通 过以太网实现 Gaudi 之间的通信,能够为客户实现额外的成本节约。
亚马逊:自研 ASIC 芯片,Trainium2 性能有望实现新突破。亚马逊自 研 ASIC 芯片包括 Inferential 和 Trainium 两个系列,分别用于推理和 训练。目前推理芯片迭代至 Inferential2,峰值算力达 380TOPS (INT8),较上一代芯片提升 5 倍;训练芯片迭代至 NeuroCore-v2。
ASIC 未来份额有望快速提升。相较于 GPU,ASIC 处理速度更快,但定 制化程度高,成本较大。在 AI 发展初期,各大互联网巨头纷纷自研大模 型,因英伟达 GPU+CUDA 通用性较高,下游大都采用其产品进行硬件 搭建。此外初期各家模型参数及算法不断优化升级,整体迭代速度快, 不适合采用定制化成本较高的 ASIC 方案。但未来伴随模型迭代放缓, 参数量收敛,算法复杂性要求提高,ASIC 针对特定需求开发的定制化优 势有望显现,也有利于与复杂算法有更强匹配,份额有望快速增长。
国产 AI 芯片厂商有望在推理领域加速追赶。相较于训练芯片,推理芯片 对生态及多卡互联要求较小,目前国产厂商包括华为昇腾、寒武纪、燧 原科技等厂商产品均基于 ASIC 架构,全球 ASIC 市场并未形成明显的 头部厂商,国产公司后续有望逐步追赶。
三、国产算力:AI 时代乘风起
3.1、华为昇腾:国产算力领军者
华为昇腾(HUAWEI Ascend)系列芯片是基于华为自主研发的达芬奇 架构设计的 AI 芯片,包括训练和推理芯片,其参数及表现在国内处于领 先水平,并衍生出独特的昇腾计算产业。昇腾系列芯片主要由华为全资 子公司深圳市海思半导体有限公司研发,该子公司成立于 2004 年,除 昇腾外还拥有麒麟、巴龙、鲲鹏等自研芯片系列,研发实力强大。
“软硬件+全生态”打造面向“端、边、云”的全场景 AI 基础设施。昇腾计 算产业是基于昇腾系列处理器和基础软件构建的全栈 AI 计算基础设施、 行业应用及服务,包括昇腾系列处理器、系列硬件、CANN(ComputeArchitecture for Neural Networks,异构计算架构)、AI 计算框架、应用 使能、开发工具链、管理运维工具、行业应用及服务等全产业链。其中, 以芯片为主的全硬件体系是实现 AI 训推的底层支撑,以自研计算架构为 主的软件体系是吸引开发者的活力之源,以应用软件为主的产业生态是 面向未来发展的不竭动力。
昇腾硬件体系是实现 AI 训推的算力基础和底层支撑。昇腾坚持“硬件开 放”策略,为客户提供自有硬件和伙伴硬件的多样化算力选择。 1)自有硬件为昇腾系列处理器以及基于昇腾处理器和业界主流异构计 算部件的昇腾 Atlas 系列硬件产品。昇腾系列处理器主要包括昇腾 310、 昇腾 910、昇腾 910B 等,昇腾 Atlas 系列硬件产品包括各类模组板卡、 小站、服务器、集群等丰富的产品形态。昇腾自有硬件体系旨在打造面 向“云、边、端”的全场景 AI 基础设施方案,可广泛用于“平安城市智能交 通、智能医疗、智能零售、智能金融”等领域。 2)伙伴硬件指华为开放自有硬件,合作伙伴可进行集成和二次开发,或 者通过 OEM/ODM 方式开发自有品牌的服务器整机。
昇腾系列处理器是硬件体系的核心。昇腾处理器专为 AI 计算设计,拥有 自研达芬奇架构的,能够覆盖端边云全场景,满足不同部署环境差异性 的算力需求。华为于 2018 年 10 月的华为全联接大会上首次阐述了华为 AI 战略,并公布了昇腾 910 和昇腾 310 两款 AI 芯片,其中昇腾 310 是 一款最大功耗仅 8W 的极致高效计算低功耗 AI芯片,2018 年商用量产, 可用于推理端;昇腾 910 在 2019 年 8 月正式商用,用于训练端。昇腾 910 首次采用达芬奇架构,基于 7nm 增强版 EUV 工艺,集成 32 个立方 体计算引擎,半精度(FP16)算力达 320 TFLOPs,相比英伟达当时的 V100 SXM 的 125 TFLOPS 高一倍以上。2023 年 9 月,华为在受美国 制裁三年后发布昇腾 910B,其性能取得重大突破,单精度算力大幅提 升,表明华为出色的芯片自研能力与昇腾 AI 处理器未来极高的增长空 间。
自研达芬奇架构大幅提升 AI 算力。昇腾系列 AI 处理器创新使用达芬奇 架构,是华为自研的面向 AI 计算特征的全新计算架构,具备高算力、高 能效、灵活可裁剪的特性。基于达芬奇架构的 AI 核内含 3D Cube、Vector 向量计算单元、Scalar 标量计算单元等,共同保障 AI 计算的高效处理。 在神经网络模型中 99%的计算都需要用到矩阵乘法运算,这部分运算是 AI 计算的核心,在达芬奇架构中由 3D Cube 来完。3D Cube 能够在一 个时钟周期内完成 4096 次乘加运算,相比传统 2D 结构运算周期短、时 延低、利用率高。此外,AI 核中的 Buffer L0A、L0B、L0C 用于向 3D Cube 输送数据和存放计算结果。
高速互联方面:昇腾处理器还拥有自研 HCCS 接口,可以完成昇腾处理 器之间的互联,最新一代昇腾 910B 的 HCCS 互联速度可达 392 GB/s, 结合 PCle 5.0 和 RoCE 接口可以组建更具规模的训练系统,全面释放 硬件算力。
AI 集群是大模型训练的最终硬件产品形态,昇腾 AI 集群可支持万卡规 模。华为基于昇腾系列处理器开发有一系列昇腾 Atlas 硬件产品,包括 模块、板卡、智能边缘、服务器、集群等,可广泛应用于教育科研、智 慧城市、智慧交通等各种算力需求水平的领域。在大模型训练中由于单 卡算力有限,通常会基于多卡互联形成千卡乃至万卡规模的集群,华为 能够提供或组装包括集群在内的全系硬件产品。2023 年 7 月华为宣布 昇腾 AI 集群规模从最初的 4000 卡集群扩展至 16000 卡,成为业界首个 万卡 AI 集群,拥有更快的训练速度和 30 天以上的稳定训练周期,十倍 领先业界。
推出异构计算架构 CANN,构筑生态护城河。CANN(Compute Architecture for Neural Networks)是华为针对 AI 场景推出的异构计算 架构,对上支持 PyTorch、MindSpore、TensorFlow 等多种 AI 框架,对 下服务 AI 处理器与编程,发挥承上启下的关键作用,是提升昇腾 AI 处 理器计算效率的关键平台。
CANN 提炼出三层逻辑架构——应用层、芯片使能层、计算资源层,应 用层提供给用户各种算法开发、调优工具,芯片使能层提供性能提升解 决方案,计算资源层提供数据处理及运算执行设备等。三层逻辑架构展 现了其极简开发、极致性能、开放生态的特点,这些特点对昇腾芯片夺 取市占率具有战略性意义: 1)极简开发:CANN 针对算子开发场景推出 Ascend C,原生支持 C 和 C++标准规范,最大化匹配用户开发习惯;通过多层接口抽象、自动并行计算、孪生调试等关键技术,助力 AI 开发者降本增效。 2)极致性能:通过资源灵活调度、算子深度融合、计算高度并行,对大 模型性能深度优化。 3)开放生态:全面兼容业界融合算子、AI 框架、加速库和主流大模型。
CANN 发展迅速,同 CUDA 各方面差距不断缩小。CANN 和 OpenCL 都是异构计算架构,属于开放式生态,可对接其他类型 GPU,相比于仅 应用于自身 GPU 的 CUDA 和 ROCm 有一定优势;在运行性能方面, CANN 可将 Attenion 处理性能提升 50,虽然整体性能仍弱于 CUDA, 但已有起色;在开发者数量方面,2021 年 CANN 已拥有超 60 万开发 者,截至 2023 年年末,昇腾 AI 共发展了超 220 万开发者,孵化了 2600 各解决方案,同 CUDA 的 400 万开发者数量和 3000 应用程序的差距迅 速缩小。
AI 框架重现多足鼎立之势。AI 框架缘起神经网络方法,神经网络方法是 以统一算法设计视角解决各类应用任务并拟合海量数据的方法,随着开 发效率和算力的需求不断提高,能够提供可视化界面并专注于应用程序 业务逻辑的 AI 框架逐渐诞生。自 2000 年起,AI 框架竞争格局从最初的 MATLAB、Numpy、SciPy到2015年的PyTorch(Facebook)、TensorFlow (Google)双头垄断,经历了一次次竞争——垄断——竞争的循环。随 着大模型时代的到来,AI 框架已形成了新的竞争格局,除传统的 Pytorch 和 TensorFlow 外,华为 MindSpore、旷视天元 MegEngine、百度 Paddle 等也占据了一定市场份额,形成多足鼎立之势。
昇思 MindSpore 旨在实现易开发、高效执行、全场景覆盖三大目标。 其中,易开发表现为 API 友好、调试难度低;高效执行包括计算效率、 数据预处理效率和分布式训练效率;全场景则指框架同时支持云、边缘 以及端侧场景。
MindSpore 易用性突出,支持语言将继续扩充。同 PyTorch、TensorFlow、 Paddle 相比,MindSpore 易用性优于 PyTorch 和 TensorFlow,能够仅 用一行代码切换静态图和动态图机制;兼容性优于 Paddle,适用于多种 CPU/GPU/TPU。根据《中国人工智能框架市场调研报告》,开发者选择 AI 框架时,首先考虑的三个因素是易用性、性能、支持的硬件,MindSpore 的三方面表现均较为突出,后续也会对接 C、C++、仓颉等语言以便利 更多开发者需求。
MindSpore 国内认可度排位第二,社区活跃度排位第四,社区规模有望 进一步突破。随着 MindSpore 迅速发展,逐渐为开发者所接受。根据《中 国人工智能框架市场调研报告》统计,37%的开发者认为 MindSpore 是 最适合做 AI for science 的 AI 框架,排位第二,仅次于 TensorFlow;并被 11%的开发者认为是社区活跃度表现更好,排位第四,和第三的 Paddle 齐头并进。考虑到 MindSpore 是四个 AI 框架中最年轻的一个, 其社区规模有望实现新的突破。
3.2、寒武纪:国内领先的 AI 芯片龙头
寒武纪是 AI 芯片领域的独角兽。公司成立于 2016 年 3 月 15 日, 专注于人工智能芯片产品的研发与技术创新,产品广泛应用于消费电子、 数据中心、云计算等诸多场景。公司是 AI 芯片领域的独角兽:采用公 司终端智能处理器 IP 的终端设备已出货过亿台;云端智能芯片及加速 卡也已应用到国内主流服务器厂商的产品中,并已实现量产出货;边缘 智能芯片及加速卡的发布标志着公司已形成全面覆盖云端、边缘端和终 端场景的系列化智能芯片产品布局。
人工智能的各类应用场景,从云端溢出到边缘端,或下沉到终端,都离 不开智能芯片的高效支撑。公司面向云端、边缘端、终端推出了三个系 列不同品类的通用型智能芯片与处理器产品,分别为终端智能处理器 IP、 云端智能芯片及加速卡、边缘智能芯片及加速卡,其中云端智能芯片主 要是为云端人工智能处理提供强大的计算能力支撑;云端智能加速卡是 基于云端智能芯片,增加外围电路模块形成的卡板产品,通过主机的附 加接口接入系统。
寒武纪云端推理主要包含 8 个产品,目前迭代至 MLU370 系列,最大峰值算力高达 256TOPS(INT8)。寒武纪推理芯片包括 MLU100、MLU270、 MLU370 和玄思 1001 等 4 个系列共 8 个产品,其中 2022 年推出的 MLU370 系列基于双芯片四芯粒思元 370 打造。思元 370 芯片采用 7nm 制程工艺,是寒武纪首颗采用 chiplet 芯片技术的 AI 芯片,也是国内第 一款公开发布支持 LPDDR5 内存的云端 AI 芯片;公司还基于 4 张 MLU370-X8 产品集成了玄思 1001 智能加速器,以在生物信息、医疗影 像、语言模型等行业及可沿长江广泛应用。
370 系列在高密度云端推理领域具有明显优势。MLU370-X8 提供 256TOPS(INT8)的峰值算力,高于英伟达 L20。同国内云端推理芯片 相比,在 150W 功耗推理卡中,MLU370-X4 峰值算力和昆仑芯 R200 和 燧原 I20一致,同为 256TOPS(INT8)。在高密度云端推理领域,MLU370- S4 的能耗比高达 2.56,具有显著优势。
全面研发优化推理软件平台模型性能、大模型和 AIGC 推理业务支持、 推理性能优化三个方面,助力客户降本增效。模型性能优化方面,寒武 纪针对语音合成、搜索推荐和视觉处理中高频使用网络进行了优化,目 前达到了可落地要求;大模型和 AIGC 推理业务支持方面,寒武纪研发 大语言模型分布式推理加速库 BangTransformer,进行了 LLaMA、GLM、 BLOOM、GPT-2 等主流生成式大语言模型的适配工作;在推理性能优 化方面,BangTransformer 支持算子融合、张量并行、量化推理、Flash Attention 等优化特性,用于辅助图像生成的 MagicMind 是业界首个基 于 MLIR 图编译技术达到商业化部署能力的推理引擎,在功能、性能、 兼容性上都有良好表现,同时基于 MagicMind 到 PyTorch 的集成,客户 无需代码迁移也能够享受 MagicMind 带来的性能加速,同时,MagicMind 新增了多款云、边、端、车硬件平台支持,并完善了 Sample Code、Best Practice 等用户文档,进一步提高了用户使用体验。推理软件平台三个 维度的研发优化,大幅提升了推理业务运行效率,助力客户降本增效。
2022-2023 年寒武纪接连获亿级订单。截至 2023 年 12 月,中国移动已 有 12 个省公司、超过 70 个 AI 业务完成向寒武纪思元(MLU)系列云 端智能加速卡的迁移,并在可行性、易用性、运算性能方面得到了良好 反响,实测中超越国际主流产品水平。2023 年内,寒武纪先后中标“沈 阳市汽车城新型基础设施建设项目-智能计算中心”和“浙东南数字经济产业园数字基础设施提升工程(一期)”两个项目,提供包括但不限于智能 计算子系统、数据存储子系统、网络交换子系统、软件平台、集成服务 和维保服务等,合计贡献营收达 9.08 亿元。2022 年,寒武纪中标“南京 智能计算中心项目(二、三期)”项目,贡献营收 4.43 亿元。
寒武纪市场认可度持续提升,签署多个人工智能领域合作协议。2022- 2023 年,寒武纪先后与百川智能、中电工程、天瞳威视达成战略合作。 目前,寒武纪已同百川智能旗下的大模型 Baichuan2-53B、Baichuan2- 13B、Baichuan2-7B 等已完成全面适配,助力寒武纪思元(MLU)系列 产品性能均达到国际主流产品的水平。此外,公司云端硬件产品夺得多 个奖项,2018 年 11 月,于深圳举办的第二十届中国国际高新技术成果 交易会上,寒武纪思元 100 智能芯片、思元 100 加速卡连续斩获高交会 组委会颁发的“优秀创新产品奖”; 2019 年 10 月,思元 270 芯片获得第 六届乌镇世界互联网大会“世界互联网领先科技成果奖”;2021 年 7 月, 公司的思元 290 智能芯片及加速卡、玄思 1000 智能加速器获得了由世 界人工智能大会组委会颁发的 SAIL 之星奖,寒武纪影响力持续提升。
3.3、海光信息:国产 CPU+DCU 龙头公司
公司获 AMD 授权,X86 指令集生态环境丰富。公司成立于 2014 年,主 营业务为研发、设计和销售应用于服务器、工作站等计算、存储设备中 的高端处理器 CPU 以及深度计算处理器 DCU 等。公司产品基于 AMD 授权技术,兼容市场主流的 x86 指令集,具有成熟而丰富的应用生态环 境。同时,海光处理器内置专用安全硬件,支持多种先进的漏洞防御技 术,内置高性能的国密协处理器和密码指令集,支持可信计算的国内、 国际标准,支持领先的机密计算技术,能够进行主动安全防御,通过了 相关权威机构的安全测试,满足信息安全、数据要素安全流通的发展需 求。
公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU)。海 光 CPU 系列产品兼容 x86 指令集以及国际上主流操作系统和应用软件, 软硬件生态丰富,性能优异,安全可靠。公司 CPU 根据高中低端应用场 景分为 7000、5000、3000 三个系列,根据产品代际各系列产品又分为 一二三四号产品,目前公司主要销售二、三代产品,四号、五号产品在 研发中,预计明年四号产品实现出货。其中 7000 系列主要用于高端处 理器,中端产品主要用于中低端服务器,低端产品主要用于边缘计算。
海光 DCU 系列产品以 GPGPU 架构为基础,兼容通用的“类 CUDA”环 境,可广泛应用于大数据处理、人工智能、商业计算等应用领域。海光 DCU 系列产品包括 Z\K\E 系列,深算一号为 Z 系列,E 代产品相较于 K 代产品性能翻倍,K 代产品相较于 Z 代产品翻倍。目前 Z100L 已实现出 货,E 系列在研中。
公司产品覆盖高中低端各类场景,下游行业包括电信、金融、互联网等。 2019 年,公司主要销售一代 CPU 产品,以 7100 系列为主,面向高端 服务器市场。因为国家级教育科研项目中科院大气所“模拟器装置”项目 采购处理器,所以教育领域占比较多。2020 年,公司推出海光二号系列 产品,受益于前期认证测试,公司在电信运营商集采、金融行业等市场 份额快速增长。其中 5200 系列产品推出后即进入党政领域专项目录, 销售快速增长。2021 年,电信、金融行业需求增长较快,公司产品进入 更新换代时点。公司 7200、3200 系列产品同时进入党政领域专项目录, 7200 系列产品部分取代 5200 系列,3200 系列增长较快,3100、5100 系列产品进入销售末期。2021 年下半年,公司 8000 系列 DCU 产品实现量产,主要面向服务器集群或数据中心市场,进一步丰富了公司的产 品线。
公司 CPU 产品海光一号、二号、三号已经实现商业化应用。公司 CPU 产品发展路径可分为:① 海光一号基于 AMD 授权技术,于 2018 年 4 月实现量产。②公司在海光一号基础上,对 Core 微结构进行优化,提升 处理器核心性能和安全应用性能,海光二号于 2020 年实现量产。③基 于海光二号 CPU,公司对核心和片上网络微结构进行设计优化,基于新 的工艺节点进行设计,海光三号于 2022 年实现量产。目前海光三号已 成为主力销售产品,海光四号、五号仍在研发当中。此外,海光 CPU 按 照代际进行升级迭代,每代际产品按照不同应用场景对高端处理器计算 性能、功能、功耗等技术指标的要求,细分为海光 7000 系列产品(最多 集成 32 个处理器核心)、海光 5000 系列产品(最多集成 16 个处理器 核心)、海光 3000 系列产品(最多集成 8 个处理器核心)。
海光 CPU 适配主流生态,已得到浪潮、联想、新华三、同方等多家国内 知名服务器厂商的认可。公司 CPU 兼容国际主流 x86 处理器架构和技 术路线,具有优异的生态优势。公司产品海光 CPU7285 的 SPEC CPU 2017 实测性能与国际领先芯片设计企业 Intel 同期发布的主流处理器 产品的实测性能总体相当,具备良好的产品性能。
GPU 巨头之争:架构先进性与生态。从英伟达和 AMD 的竞争来看,GPU 的核心在于架构的先进性和完善的生态。架构先进性方面,英伟达每两 年会更新一次架构,每次迭代都意味着更先进的制程、更多的计算处理 单元。生态方面,CUDA 发展至今已经建立了强大的生态体系。生态的 本质是对用户习惯的培养,CUDA 强大的软件覆盖率和 AI 支持框架使 其难以替代,AMD 提出的 ROCm 最有希望替代 CUDA。由此可见,能 同时适配 CUDA 等多种生态且性能优异的 GPU 将具有更强的竞争力。
公司产品性能有望对标英伟达 A100。公司深算一号 DCU 采用 7nm 工 艺,在典型应用场景中,性能媲美英伟达 A100 和 AMD MI100。公司 DCU 全面兼容 ROCm GPU 计算生态,能够较好地适配国际主流商业计 算软件,解决了产品推广过程中的软件生态兼容性问题,具备良好的生 态适配能力。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
半导体行业AI国产算力专题报告:0~1,重视产业链历史机遇.pdf
锡行业研究报告:半导体上游核心材料,供给趋紧+需求复苏下价格中枢有望持续提升.pdf
京仪装备研究报告:国内半导体专用温控废气处理设备专精特新“小巨人”.pdf
半导体设备行业专题报告:键合设备,推动先进封装发展的关键力量.pdf
半导体封装设备行业深度报告: 后摩尔时代封装技术快速发展,封装设备迎国产化机遇.pdf
半导体行业投资策略:AI有望推动新一轮半导体周期上行.pdf
2024年AI营销应用解析报告.pdf
人工智能专题报告:人形机器人步入软件定义和AI驱动时代.pdf
AI搜索行业深度报告:大模型催生搜索行业变革机遇,产品百花齐放效果几何?.pdf
AIGC助推元宇宙进程加速,未来商业化场景探究.pdf
计算机行业专题报告:AI浪潮之下,液冷投资机会全梳理.pdf