【国盛证券】AI算力的ASIC之路：从以太坊矿机说起.pdf

2024-03-20

26页

2MB

1、投资要件

天下芯片大势，通久必专，专久必通。回望近年来芯片发展史，从最早的 CPU 独霸天下，并行计算时代 GPU 的崛起，挖矿时代专用 ASIC 的大放异彩，我们不难发现，新的一大类芯片的出现，往往是因为某一类需求的爆发，从而使得过往通用型芯片中的特定功能被分割出来，形成了新的芯片类目。通用芯片发现需求，专用芯片满足需求，这就是半导体行业面对人类需求时的解决之道，归根结底，需求决定一切。芯片的架构能否满足契合客户的需求，是决定一个芯片公司能否成功的重要因素。我们复盘矿机发展历史，算法较为简单且完全固定的比特币，在全网算力（矿工需求）的急剧内卷下，产业内较为快速地完成了 ASIC 对通用芯片的全替代，而一直存在有 POW 转向 POS 预期的以太坊，由于客户考虑转向之后 ASIC 完全失效的风险，因此残值较高的通用性芯片（显卡）一直保持了较高的市占率。因此，客户需求、算法稳定是 ASIC 放量的两大条件。

大模型时代，路线转变之快，需求放量之快，前所未见。正如同任何新爆发的需求一样，通用型芯片成为了开辟道路的急先锋，英伟达通过 A100，H100 两款产品，满足了 AI 起量的第一波需求。如今，经过两年发展，全球对于 Transformer 及其变种认可度越来越高，同时推理，下游应用等需求释放迫在眉睫。我们认为，ASIC 将会成为 Transformer 模式下训练或者下游应用推理算力的有效补充，正如同上几轮芯片周期所经历的一样，通用创造需求，专用满足需求。主流 ASIC 大模型路线正在逐渐清晰，编译器愈发重要。回顾英伟达的芯片架构发展史，恰是一步步从专用走向通用的最好诠释，从最早的单小核，再到引入 Tensor Core 处理向量与矩阵，结合 CUDA 生态对于人类海量算法的积累，已然成为了 AI 的 CPU 芯片，从量子力学、光线追踪到大模型训练无所不能。大模型时代，随着 Transformer 及其变种的生态确立，亦或者说，以矩阵乘法为核心的运算方式的确立，主流 ASIC 得以将通用芯片中的不必要部分去除，保留单纯用于处理矩阵乘法的计算核，同时再利用 Wafer-Scaling、近存计算等形式，在一张芯片内，通过更多的乘法单元和存储之间的“流水线式”配合，从而实现了对于该类算法的高效计算。

但与此同时，由于需要多个矩阵乘法核、存储之间的相互配合，同时少了对数据预处理的“小核”的帮助，该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的 LPU 芯片“Groq”的发展历程就可以看出，团队用于软件设计的环节，远长于硬件架构的设计。因此，进入 ASIC 和推理时代，编译器对于算核的控制能力，编译器的设计能力，将成为行业进入者最大的壁垒。

2、ASIC 芯片概述

2.1 什么是 ASIC 芯片

ASIC，全称为 Application Specific Integrated Circuit，中文名为专用集成电路芯片，顾名思义，是一种为了专门目的或者算法而设计的芯片。ASIC 芯片的架构并不固定，既有较为简单的网卡芯片，用于控制网络流量，满足防火墙需求等等，也有类似谷歌 TPU，昇腾 910B 一类的顶尖 AI 芯片。ASIC 并不代表简单，而是代表面向的需求，只要是为了某一类算法，或者是某一类用户需求而去专门设计的芯片，都可以称之为 ASIC。当下，ASIC 芯片的主要根据运算类型分为了 TPU、DPU 和 NPU 芯片，分别对应了不同的基础计算功能。TPU 即为谷歌发明的 AI 处理器，主要支持张量计算，DPU 则是用于数据中心内部的加速计算，NPU 则是对应了上一轮 AI 热潮中的 CNN 神经卷积算法，后来被大量 SoC 进了边缘设备的处理芯片中。

从芯片大类来看，目前人类的芯片可以被分为 CPU、GPU、FPGA、ASIC 四种大类，其中 CPU 是人类芯片之母，拥有最强的通用性，适合复杂的指令与任务，GPU 则是人类历史上的第一大类“ASIC”芯片，通过大量部署并行计算核，实现了对于异构计算需求的优化。FPGA 芯片则更加强调可编程性，可以通过编程重新配置芯片内部的逻辑门和存储器，但是运算性能较低。ASIC 则完全为某类功能或者算法专门设计，通用性较低的同时，拥有对某一类算法最好的性能。

2.2 芯片大势，通久必专，专久必通

从最早的 CPU 独霸天下，到并行计算时代 GPU 的崛起，挖矿时代专用 ASIC 的大放异彩，我们不难发现，新芯片的出现，往往是因为某一类需求的爆发，从而使得过往通用型芯片中的特定功能被分割出来，形成了新的芯片类目。通用芯片发现需求、探索需求，专用芯片满足需求，这就是半导体行业面对人类需求时的解决之道，归根结底，需求决定一切，芯片的架构能否满足契合客户的需求，是决定一个芯片公司能否成功的重要因素。

大模型时代，风来的如此之快，2023 年春节之前，业界还在努力优化复杂的 CNN 算法，追求模型的小而美，之后随着 GPT 和 OPENAI 的横空出世，将业界热点算法迅速从 CNN 转变为 Transformer，底层运算也变为矩阵乘法。同时由于大模型“大力出奇迹”的特性，对于算力的需求极速释放，2023 年来看，唯一能够满足用户这一新需求的依然只有较为通用的英伟达芯片，因此，也在这一年多内造就了英伟达 2w 亿美金的传奇市值。但天下芯片，通久必专，专久必通，当矩阵乘法这一固定运算占据了大部分的大模型运算需求时，通用芯片中的小核心，甚至是向量计算核心，逐渐成为了功耗、成本和延迟的负担，客户终究不会因为单一的矩阵乘法需求，而为通用性去额外买单。因此，从海外大厂到无数业界大佬的创业公司，纷纷加入了“矩阵乘法”ASIC，又或者是大模型 ASIC 的创业浪潮中，在下文中，我们将列举两个较为有代表性的 ASIC 芯片，去看看业界的设计思路与演化方向。

3、大模型 ASIC 的发展路线

3.1 初步专用化：GPU 亦是 ASIC

从历史来看，我们通过剖析 GPU 的结构和其与 CPU 的区别，不难发现，GPU 也是某种意义上的 ASIC，过去的数据处理任务，通常是单条复杂指令或逻辑运算，但随着图像处理需求的出现，计算过程中往往开始包含大量并行的简单计算，而 CPU 由于核心数量有限，虽然单核能够处理较为复杂的指令，但面对大量简单计算时，运算时间长的缺点逐渐暴露。所以正如前文所说，CPU 作为人类最通用的芯片，带领人类进入并探索了图像时代，紧接着，面对海量释放的 AI 需求，GPU 作为“图像 ASIC”横空出世，满足了海量的图像处理需求。

进一步探究 GPU 的发展历程，我们会发现芯片趋势的第二部分，如果说 CPU 到 GPU 是我们提到的“通久必专”，那么 GPU 本身的发展历史则是“专久必通”的最好诠释。在并行计算早期，算法大多数是由简单的加减乘除构成，因此通过在 GPU 芯片内部署大量的小核来并行计算这些简单算法。但后来，随着并行计算，或者说图像处理需求慢慢衍生出图像识别、光线追踪、机器视觉等等新功能和与之对应的以“卷积计算”为代表的新算法，GPU 本身也从专用芯片，变成了面向并行计算模式或者海量图像需求的“通用芯片”。其中最有意义的事件，也奠定了英伟达如今领先地位的是 Tensor Core 的发明与问世。英伟达在 2017 年 5 月发布的 Volta 架构中引入了第一代 Tensor Core，为混合精度矩阵乘法提供了突破性的性能，与上一代 Pascal 相比，用于训练的峰值性能提升了高达 12 倍，用于推理的峰值 TFLOPS 性能提升了高达 6倍。这项关键功能使Volta 提供了比 Pascal 高 3 倍的训练和推理性能。

Tensor Core 又名张量计算核心，简单理解，便是专门用来计算矩阵乘法的一块大核，其具体结构为一个由乘法器和加法器共同构成的立方体。立方体的主要部分为乘法器，最底部一层则为加法器，根据矩阵乘法公式，加法器将上方乘法器的运算结果进行累加，从而快速得出矩阵乘法的结果，这一特殊结构，使得过去有多个小核经过漫长计算才能得到的矩阵乘法结果，优化了许多。

Tensor Core 的问世，也标志着 GPU 的重心正式从图像训练转向深度学习，通过良好契合矩阵乘法的计算核形式，实现对于卷积或 Transformer 的性能提升。此外，凭借 CUDA 生态和无数开发者、使用者的努力，人类历史上的科学计算领域，除了大模型之外，如量子物理、药理学计算、流体物理等等，均得到了英伟达 GPU 的算力支持，至此，英伟达凭借大小核心的架构，与 CUDA 生态，成为了图像、科学计算领域的“通用芯片”之王。

3.2 进一步专用化：以谷歌 TPU 为例

前文提到，随着大模型训练需求的跃升，Transformer 算法快速风靡，而海量的需求叠加相对固定的算法，则是 ASIC 发展的最好土壤。而谷歌 TPU，则是率先崭露头角的第一块实际用于大模型训练的芯片结构。谷歌 TPU，原理脱胎于脉动整列取数法，脉动整列（Systolic Array）的概念最早在 1982 年被提出，是一种快速将数据读取至矩阵运算单元的方法，由于当时矩阵运算需求极小，并且仍是 CPU 为主，并未受到重视。从 2016 年开始，谷歌开始在其训练芯片 TPU 上重新引入脉冲阵列概念，经过三年开发，于 2019 年形成成熟产品，首次通过脉冲阵列读取形式，开辟了除英伟达 CU+TU 体系外的全新矩阵运算架构。但同时，脉冲阵列由于其特殊的数据填充方式，导致了运算启动速度较慢、处理单元利用率不足等问题。

前文提到，英伟达的 TensorCore 架构，通过乘法器与加法器的 3D 堆叠，实现了超高的矩阵运算效率，但是在任何 TensorCore 结构的单元计算的过程中，决定运算效率，或者说是峰值算力的，一方面是 TensorCore 的大小，即能运行“NxN”的矩阵，N 越大， TensorCore 的运算能力越强。另一方面，决定 TensorCore 运算效率的则是需要运算的数字被装填进入 TensorCore 的时间，“取数时间”与“矩阵大小”共同构成了 GPU 运算能力的基石。通过英伟达的芯片结构图，我们不难发现，以 A100 为例，每一个 TensorCore（TU），会搭配 16 个 INT32 核心，16 个 FP32 核心，8 个 FP64 核心，这些核心又称为 CU（计算单元）。在取数的过程中，每一个 Cycle 内，以 INT32 精度为例，每一个 INT32 ALU 可以给相对应的 TU 灌入 1 个数，则 16 个 ALU，一个 cycle 可以给 TU 内灌入 16 个数。

在这里我们先重温一下矩阵乘法公式，从而得出一个矩阵乘法中，需要给 TU 中灌入多少数字，以一个 16x16 的举证乘法为例，需要往 TU 内灌入 2*16^3 次数，则在 16 个 INT32 的 ALU 努力下，需要 512 个 cycle 将 TU 填满然后再进行运算。

而脉冲阵列，则完全抛弃了由 CU 给 TU 供应数字的模式，而是直接将两个矩阵用类似于 “推”的方法，装载进入 TU 中进行运算。我们用一个 16x16 的矩阵乘法为例，来探寻一下，填满整个 TU 需要多少 cycle。假设有一个 A 矩阵，一个 B 矩阵，则 TU 核心就是要计算的乘法矩阵。我们先根据矩阵的乘法公式，把 B 矩阵的数字调换一下顺序，使得其在推动的过程，符合矩阵乘法公式。第一个 cycle，我们将 A 的第一行与 B 的第一列往 TU 内“推”一下，这时候可以看到 TU 的（1,1）格内同时被填入了 a11 与 b11 两个数字，这时 TU 内的乘法器会把两个数字相乘并将结果放入加法器内。

第二个 cycle，我们将 A 的第一行与 B 的第一列再往 TU 内推一下，同时也会把 A 的第二行与 B 的第二列往 TU 内推动一格，此时 TU 内的（1,1）格内的数字换成了 A12 与 B21 两个数字，而原有的 TU 内（1,1）格的数字则被推动，分别进入 T（2,1）与 T（1,2），同时，这三个 TU 内的格子分别进行一次乘法计算，然后把结果放入加法器中。如此循环往复至第 16 个 cycle，此时 A 的第一行与 B 的第一列已经完全被推入了 TU 内，则 TU 的（1,1）格内已经完成了 16 次乘法运算，并且数据已经完全被存储进加法器中，这个循环内，加法器运算一次，得出 AxB 的结果矩阵的（1,1）格内的值。第 17 个循环，此时被推入 TU 内（1,1）格的数据，已经来自于新的两个矩阵，而 TU 的（1,2）和 TU 的（2,1）也将在这个 cycle 内完成相应的 16 次乘法与求和，在下一个 cycle 内，这两个格子也将被用于新的两个矩阵的运算。

因此，在连续推入数据的情况下，通过脉冲阵列，将一个 16x16 的矩阵数据完全导入 TU，仅仅需要 16 个 cycle，其从架构层面实现了对英伟达通过 FPU 与 ALU 填单个数字进 TU 的超越，在同等制程下和 TU 规模下，其潜力上限更高。但由于脉动阵列的一些特性，其在拥有优异的“取数能力”时，也不可避免的会出现一些劣势。第一，GPU 遇到的数据往往不是连续的，在数据中断然后重新填入的过程中，脉冲阵列架构的 TU 内，部分运算单元会处于空转的状态，从而降低了芯片性能的整体利用率。第二，脉动阵列在前几个 cycle 内，推入的数字较少，因此在数据中断后再次启动时，效率较慢，我们可以形象的理解为“启动慢，极速高”。第三，由于脉动阵列需要 CPU 直接把矩阵输入至 TU 的 DFF 内，因此需要把程序语言转换成矩阵，对于编译器的开发要求极高，这也是限制了脉冲矩阵发展的最主要因素。

但随着谷歌对于 TPU 的不断更新，最新版本已经迭代到了 TPU V5e，同时持续的软件投入叠加业内稀疏数据预处理能力的加强，TPU 路线已然成为了全球 Transformer 或是矩阵乘法的主流设计思路，也是英伟达最大的挑战者之一。在了解完了原理之后，我们再来看一下 TPU 的架构图，从 V1 到 V4 的更新，我们也可以看出 ASIC 芯片的进化思路，英伟达的迭代思路类似，但后续的迭代空间有望更大。从 TPUV1 到 TPU V2 的变化最为显著，第一，往 MXU 内填充数据的存储由 DDR 变为 HBM，第二则是增加了多卡互联的模块，这一层级的架构，对应上述的原理，主要为了优化往 MXU 内灌数的速度和流程。

第三，TPUV2 将 V1 的超大矩阵乘法器一分为二，降低了部分算力的空载时间，同时也降低了编译器的难度（这部分可以看出，ASIC 时代，软件会成为瓶颈）。

TPU V2 基本定型了后续的架构，V3、V4 的更新则类似于 Wafer-Scaling 和制程提升的结果，更高的制程、更大的芯片面积，换来了单芯片上更多的 MXU（矩阵乘法）核心。以 TPU V4 来看，单块芯片包含两个 Tensor core，共计 8 个 MXU，是 V2 的 4 倍。

总结来看，TPU 的横空出世，基本奠定了大模型 ASIC 的开发方向，即舍弃 NV 架构中用于进行简单加减乘除计算的小核，单独保留 Tensor Core 进行矩阵乘法运算，在提高芯片效率的同时，也保证了一定的灵活性。TPU 由于缺少小核，无法对训练过程中所遇到的带 0 数据进行提前处理，因此当下更多的被业界认为是一块针对“稀疏数据处理能力” 弱化、同时强化了“矩阵乘法能力”的 ASIC，并没有针对特定模型做极致定制化，也并非大模型 ASIC 的终局。

3.3 极致专用化：以 Groq 为例

上节我们提到，以 TPU 为代表的芯片，由于需要兼顾训练、不同算法等需求，并没有做到极致面向推理或者是极致“ASIC”化，同一个芯片中单个 MXU 之间并没有很高效的互动，因此在保留了通用性的同时，也降低了计算效率。我们来看当下较为领先的“推理 ASIC”亦或是“LLM 专用 ASIC”Groq，Groq 由谷歌 TPU 团队成员创立，在经过了几年的默默发展后，最终在 2024 年 2 月一鸣惊人，运行在 Groq 平台上的 Meta Llama 2 模型，实现了领先的推理速度，将大模型的推理速度带到了 500 Token/s，而 GPT-4 的输出速度则在 40 Token/s。

为何一张 14NM 的芯片，能够在推理端打败昂贵的 4NM 制程 H100 呢？这其实就是极致 ASIC 化的必然结果。我们从 Groq 芯片的架构图中可以看出，除了舍弃掉小核，只保留了矩阵乘法核与向量乘法核外，Groq 还创新性的引入了 sRAM 作为核与核之间互相传递数据的工具，这样 MXU 就无需频繁与外界的存储进行互动，可以搭建出一条由“矩阵核、向量核、SRAM”三者共同组成的数据处理“流水线”，从而完美契合推理过程，即用先前推理出的 Token 代入模型，得到下一个 Token 的过程。

但我们需要注意的是，由于 Groq 的芯片架构定型于四年前，以现在的视角来看，依旧有不少遗憾，第一，sRAM 的容量较小，导致需要更多的 groq 显卡才能完整容纳大模型，第二，由于四年前依旧是 CNN 卷积计算占据主流，因此 Groq 有部分面积给了相对没有必要的向量计算核。

Groq 的成功已经向我们展示了未来推理 ASIC 的广阔空间，即在 MXU 堆叠的基础上，通过 sRAM、DDR7 等等高速存储进行桥接，使得 MXU 之间能够进行高速率的数据传输，使得推理结果流水线式加工，而不需要像英伟达架构一般，每次推理都需要去 HBM 中访问一次先前的 Token，降低了数据交互密度，使得无论是访存 IO，亦或是网络 IO 都不再成为瓶颈。

3.4 主要技术趋势总结：Wafer-Scaling+近存计算构建数据流水线

我们先来总结一下大模型 ASIC 发展的道路，核心还是围绕聚焦“矩阵核”，舍弃多余部分来进行，从英伟达 GPU 到 TPU，初步实现了这一步，通过舍弃外围小核，采用全新的填充模式，获得了更高性价比的训练算力。第二部则是串联“矩阵核”，使得数据的处理更加流水线化，这一步也是目前芯片设计趋势中的“Streaming Processing”概念，进一步降低与外界的数据互动，实现超低延迟的推理，从 TPU 到 Groq，就是此种思路。往后来看，ASIC 的发展也将聚焦于两个方向，第一个方向为“Wafer-Scaling”，以 Sam Altman 投资的 cerebras 为例，即扩大单个芯片面积，实现在单个芯片内装在更多的 MXU，也即是矩阵计算核心。这样单次运算能够处理的数据量就更大，是最简单和直接的升级路线。第二个方向即为“近存计算”，Groq 给我们具体展示了这一路线，MXU 将数据运算后直接转移给相邻的 sRAM，由于传输距离短，叠加 sRAM 天生的高带宽，从而实现了绕过 HBM 的流水线式加工，我们认为这种通过近计算单元的高速存储，来实现计算单元之间高速沟通的模式，将会是大模型 ASIC 发展的另一主要方向。

4、以矿机为鉴，英伟达与 ASIC 之争将走向何方？

前面提到的两种 ASIC 代表性芯片，初看会让人觉得，从架构层面，对现有的英伟达体系实现了颠覆，但当下，英伟达的显卡仍然是客户需求的主流，那是什么样的原因造成了这样的反差呢？在接下来的章节，我们将通过对上一轮最激烈的“通用 GPU VS 专用 ASIC”战场——矿机市场进行复盘，来探寻当下和未来，在大模型领域，这种斗争会走向何方。

4.1 比特币矿机发展史，用何种速度取代CPU

比特币的挖矿历史，就是一部最生动的 ASIC 对于通用芯片的取代过程。在诞生之初，最早的挖矿工具是 CPU，2009 年 1 月，中本聪在芬兰赫尔辛基一个小型服务器上挖出了比特币的第一个区块—即创世区块。中本聪所使用的正是 CPU 服务器。当时由于全网算力很低，因此并行计算能力较弱的 CPU 也能够参与挖矿，成为了当时矿工的主力机器。 2010 年以后，随着比特币进一步爆火，全网算力提升，矿工对于算力的需求急剧膨胀。由于比特币采用 SHA256 加密算法，属于哈希算法，较为简单的算法更加适合 GPU 所擅长的并行计算，因此在 2010 年-2012 年的时间段内，GPU 逐渐取代 CPU，来给矿工提供更加强大的算力。同时，由于币价的不断上涨，矿工开始第一次追求专用芯片挖矿， 2011 年，市面上出现了首台“FPGA”矿机，但由于 FPGA 的开发难度和性能提升有限，这种方式并未普及。 2012 年之后，随着比特币算力需求持续井喷，同时比特币发明时就固定了 SHA256 加密算法，因此全球第一台商用比特币 ASIC 矿机迅速在中国出现，发明人张楠赓后来成立了全球矿机龙头之一的嘉楠科技。2013 年下半年开始，大量 ASIC 矿机雨后春笋般出现，比特币算力竞争进入 ASIC 时代，并延续至今，通过芯片制程提升，不断提升性能。时至今日，比特大陆、神马、嘉楠三家中国厂商凭借优秀的迭代和周期管控能力，占领了全球大部分矿机市场。随着专用算法 ASIC 的普及，GPU 这一低效率的工具被迅速取代，目前全球比特币计算几乎全部由 ASIC 提供。

我们可以看到，在比特币挖矿诞生的短短三年内，就快速经历由 CPU 到 GPU，GPU 再到 ASIC 的转变，即使中本聪早在 2019 年就提议防范 GPU 挖矿带来的军备竞赛，主张让所有人通过拥有一块 CPU 就能够参与竞争。但是财帛动人心，暴涨的币价，日益加剧的算力对抗，使得矿工对于算力的需求出现井喷，这点和当下的 AI 类似。第二是比特币算法简单且固定，对于 ASIC 的设计过程更加友好，因此行业内部会有无数的新玩家进入，竞争、迭代、繁荣。

4.2 以太坊矿机发展史，为何一波三折？

相比于比特币矿机流畅的换代过程和最终格局，以太坊挖矿算力的发展则显得更加波折。从以太坊 2014 年发起众筹后，再到 2022 年 9 月正式完成 POS 升级，在 8 年的 POW 历史中，直到最后，以太坊专用矿机也并未完成对显卡挖矿的完全取代。我们认为主要有两点原因，第一，以太坊虽然 ICO 于 2014 年下半年，但是早期也仅仅被当成是一个创业项目，此后经历了各类网络测试才正式上线，2015 年 7 月 30 日，随着以太坊第一阶段版本 Frontier 发布，第一个以太坊区块才被开采出来。因此以太坊初期并未像比特币一样由于币价暴涨，从而引发全网算力暴涨，矿工需求急剧膨胀，因此，参与以太坊挖矿的矿工，大多是利用手头的闲置显卡，也并未有专门的矿机被发明出来，核心还是需求较为疲软。

第二则是以太坊在发明之初，就为防止出现类似于BTC 一样的恶性算力竞争做足了准备。第一，以太坊虽然一开始采用了使用挖矿算力来维持网络稳定的 POW 模式，但始终把转向完全无法挖矿的 POS 模式作为一大愿景，这也对后续希望进入以太坊矿机的投资人构成了显著的限制，没有人希望从事一项随时会失去意义的研发，同时，也没有如此多的矿工敢于购买一台未来会完全失效的 ASIC 矿机。第三则是以太坊的挖矿算法设计之初，就已经有意识的防范 ASIC 矿机的出现，以太坊采用的是 Ethash 加密算法，在挖矿的过程中，需要读取内存。当时计算机每次读取内存的带宽都是有限的，因此也就让以太坊的 PoW 机制有了“抗 ASIC 性”。当然后来随着显存读取速度加速提升，英伟达看到了这一点后加速介入了以太坊挖矿市场，这也造就了英伟达在 AI 前的上一轮辉煌。

再到后来，固定的算法无论如何在设计之初对抗 ASIC，都不能阻止 ASIC 矿机的出现，后续国内如比特大陆、芯动等公司都陆续推出了面向 ETH 的专用矿机，但是由于 POS 升级始终如一把利剑悬挂在以太坊矿工之上，矿工担心自己的矿机会完全失效，而显卡在停止挖矿后仍有残值，因此以太坊 ASIC 最终并未占领全部市场。

4.3 以史为鉴，“算法确定性”和“用户需求”决定 ASIC 渗透速度

对比以太坊矿机的一波三折和比特币矿机的一帆风顺，我们不难发现，ASIC 能否迅速完成对于通用芯片的渗透和替换，主要取决于两点，第一，也是最核心的一点，用户的需求，第二，算法的稳定性。我们先来看第一点，比特币起步较早，币价涨幅较快，因此涌现海量的用户算力需求，上文提到，客户需求是芯片厂商的第一目标，因此比特币快速完成了对于通用芯片的淘汰。而以太坊则由于币价的波动，POS 的愿景，并没有产生过渡膨胀的用户需求，因此矿机厂商大举进入并持续迭代 ETH 矿机的意愿不高。

我们再来看第二点，算法的确定性，这里要特别强调，算法的确定性，不是算法的难易度。因为一个算法即使再复杂再艰难，只要保持不变，就一定可以开发出专用的 ASIC 来提高效率，即使复杂如矩阵乘法、CNN 卷积算法，也能够拥有相应的 ASIC。而算法的不确定性，则是 ASIC 最大的敌人。ASIC 的高性能是以舍弃通用性为代价的，当下全球比特币算力已经进入 E 时代，而 H100 仍然停留在 P 时代，但比特币矿机除了简单的哈希算法外，不能进行任何运算。因此，算法的更换会导致 ASIC 芯片部分或完全失效，从而导致开发者、使用者承受极大的损失。我们将这两点类比到如今的 AI 时代。第一，客户需求的问题无需多言，模型的持续内卷，推理需求的箭在弦上，无疑不告诉芯片开发者和芯片使用者，这是一个旺盛的市场，是远超比特币级别的全球趋势，这显然满足了 ASIC 芯片起量的土壤。第二，算法的稳定性，这一点上，在大模型时代，我们依旧需要观察，当下 Transformer 算法是绝对的主流，目前新的算法方向也集中在以 Transformer 为本，去做一些变种，因此，矩阵乘法运算似乎正在慢慢成为大模型时代的主流，ASIC 崛起的第二条件似乎也已经具备。但正如同以太坊 POW 一样，客户也在担心，当 Transformer 的参数达到顶峰，是不是业界会更加激进的寻找下一代算法，亦或是老旧的卷积算法重出江湖？这一不确定性，也是客户持续衡量是否大量投入 ASIC 的原因。

5、软件将成为算力第三极

上文提到，用户需求与算法确定性是矿机时代决定 ASIC 趋势的两条生命线，但进入大模型时代，或者说 AI 时代，软件也成为了非常重要的一部分，或者更精细一些，软件一个是决定了用户需求，一个是决定了开发成本。我们先来看用户需求，相比于较为“傻瓜式”的矿机来说，如何调动显卡的算力，如何实现显卡运算单元和指令的契合是一件更加专业的事，以英伟达为例，英伟达的 CUDA 生态上，积累了无数应用场景的应用经验和过往代码，每一名 AI 软件工程师从入门，到工作，到创造都在 CUDA 上进行学习、编程和创作，用户对于软件的依赖也成为了英伟达的壁垒之一。而离开熟悉的软件，进入新的操作环境，无疑会让一部分用户犹豫，这也是为什么软件将会影响用户需求的原因。

第二，软件开发门槛。Transformer 算法的操作软件，算法库开发相对简单和单一，我们这里更多是指编译器层面。除了最基本的架构设计外，大模型时代，对于控制 ASIC 芯片内部器件的编译器，设计难度和工作量与日俱增，这也将成为新进入者的门槛。

5.1 推理时代，更加考验编译器的“流水线”构筑能力

编译器负责将指令转化为对于芯片内部器件的控制，上文我们提到，由于现有 ASIC 结构，跳过了小核心，直接将数据存入乘法器中进行运算，因此对于编译器的指令调度能力提出了极高的要求，谷歌就因为编译器开发难度过大，从而在 TPU V2 中不得不缩小乘法器体积。再往后看，前文提到，面向 LLM 推理的专用 ASIC 芯片，一套计算流程往往需要多个计算核和存储的配合，如何保证这些元器件同时稳定运行，保证计算的确定性，这就需要非常复杂的编译器设计。以 Groq 为例，其在芯片架构内部，甚至专门增加了用来协调不同计算单元指令流的专用模块，足以见得这项工作之复杂。

往后来看，随着 Transformer 及其变种的持续进化，如何设计出一款优秀的编译器，能够让芯片快速适应新模型以及微调的 Transformer 算法，将是考验一款 ASIC 除了架构外最重要的能力。

5.2 两年硬件，四年软件，编译器和生态将成为进入者最大门槛

我们来看 Groq 团队近年来发布文章的顺序，可以看到，初步的硬件架构在 2020 年的论文中就已完成，后续至今的四年，团队主要专注于相关编译器和软件生态的研发。可谓是两年做硬件，四年完善软件。由此可见软件的重要性不容小觑。

由于第一次引入了“流水线式”的处理理念，Groq 的软件语言也更加复杂，需要同时对多个功能单元的指令集进行设计，使用时也需要重新学习，这无疑对于新用户上手来说更加困难。

在此之前，许多新的 AI 芯片公司，希望通过在用户层来模拟“CUDA”系统，然后在软件底层通过转译软件将用户的“CUDA 指令”转化为自身产品能理解的指令，帮助用户大幅缩短上手时间，这也是大家所热议的“兼容 CUDA”。但近日，根据 Tom’s Hardware 报道，英伟达进一步加强了对于 CUDA 转译软件的封锁，将封锁范围从在线使用扩大到所有本地文件，这也进一步彰显出，英伟达正在通过进一步加强软件封锁，来拖慢竞争者们的进度，同时，也更加体现出软件在未来芯片战争中的重要性。

6、我们的理解：需求决定一切，AISC 与 GPU 螺旋上升

我们通过前文章节，较为系统地描述了当下主流大模型 ASIC 的设计思路、原理，以及过往 ASIC 芯片的发展历程，以及提出了“软件和编译器”将成为继算力、通信后的计算第三极。阅读至此，相信大家对于 ASIC 在大模型时代的竞争力和发展都有了些初步的判断。当下，海外 ASIC 设计巨头的财报已然出现了一些积极的变化。博通在近期的 FY24Q1 财报上表示，FY24Q1 网络业务收入为 33 亿美元，同比增长 46%，主要得益于 2 家超大规模客户对定制人工智能加速器的强劲需求；公司上季度法说会预计 AI 占 FY24 半导体收入的 25%，现上调指引至 35%，超过 100 亿美元，其中 70%是 AI 加速器，20% 是交换机、路由器，10%是其他产品（PAM4、DSP、光学元件等）。美满电子在近期的 FY24Q4 电话会议上表示，预计来自云优化芯片（cloud optimized silicon）的年收入有可能与数据中心光学业务相媲美（数据中心光学业务在 2024 财年的收入将超过 10 亿美元）。

可以看到，在生成式 AI 大时代面前，从头部大厂，再到中小客户，再到创业团队，均已经开始投身 ASIC 芯片的星辰大海。同时海外产业界也正在加速认识到 ASIC 对于 AI 后续算力供给的重要性，黄仁勋近日在母校斯坦福大学的访谈上，就被多次问及 ASIC 的挑战。最后，用一句话来总结和引发思考，“用硬件的人和开发硬件的人对立”。这一故事似乎正在 AI 芯片界再次上演，当下大模型，英伟达用先发优势和 CUDA 积累，让硬件的最终使用者软件工程师们，能够在熟悉的环境更加轻松地去工作，他们似乎更希望能够继续拥护这一稳定的格局，换取较为轻松的编程压力，从他们的主观感受上，日常使用的 CUDA 和英伟达帝国似乎是不可战胜。但是我们也应该看到，也有众多优秀的硬件工程师们，前赴后继，从最底层的架构层面为 Transformer 计算提供更优性价比的选择。

然而使用者与开发者，最终都绕不开市场需求，也就是购买算力的客户。当下，为了迅速追赶头部，扩容算力，大量采购英伟达是大家公认的选择。但是当算法固定，AI 下游需求加速放量之时，ASIC 芯片也有望凭借更高的性价比，以及更加“开源”的生态而放量，因此，我们判断，只要有充足的下游需求，大模型 ASIC 的前景广阔。从全局来看，ASIC 放量与对应的算力降本，是大模型走向一个更大产业的必经之路，但 AI 的算力叙事足够宏大，与比特币的一轮代替便成终局不同，我们认为在 AI 芯片的发展上，将会经历多轮螺旋上升式的发展，最终达到全社会的 AGI，新的模型与算法通过通用性 GPU 被发现和初步开发，通过专用 ASIC 将需求繁荣，繁荣的生态吸引更多用户与参与者，最终培育出新的、更强的算法，循环往复，螺旋上升，最终达成 AGI 的宏伟目标。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）