【申万宏源】计算机行业智联汽车深度三十三暨华为系列深度之六：特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾，趋势是带宽与扩展性！.pdf

2023-09-18

29页

2MB

1、Tesla Dojo：架构/存算一体/扩展性/带宽

Dojo 芯片与架构成为亮点。在 IEEE MICRO 2020 上，特斯拉发布《Compute Solution for Tesla's Full Self-Driving Computer》，要点包括 FSD 芯片/NNA 神经网络加速器 /NNA 架构等。在 2022 年 8 月 hotchips 34 大会上，特斯拉发布《The Microarchitecture of Dojo, Tesla’s Exa-Scale Computer》和《Dojo Super-Compute System Scaling for ML Training》（在 Tesla AI day 等也有涉及）。

1.1 Dojo 架构和重要问题

其中每个集群（ExaPOD）包括 3000 个 D1 芯片，每个芯片包括 354 核心。而核心内部反而与传统 CPU 有类似之处（有解码器 Decoder，取指令缓存 Fetch Buffer，有 SRAM）。

增强互联和扩展性，弱化存储的优化和连接。较多 CPU/GPU 采用增强计算单元、增强存储读写、力图增强计算和存储的连接（例如 HBM 等）来提高性能。但 Dojo 不同，它在微观领域增强了 SRAM（以至于 D1 达到 440MB），然后在宏观领域并未做明显的内存增强。例如 HBM 在 Dojo 接口处理器 DIP 上，片内没有 HBM；再例如 Dojo 不支持暂时虚拟内存。做个比喻：这有些像完成某项重要而前瞻的任务，大多数的思路是在冲刺任务的时候增加人力数量、智库数量（就像对稀疏矩阵、矩阵乘加等 AI 运算的支持），并让这些智库关键时刻集思广益（就像 HBM 和 NVlink1增强连接）。而 Dojo 的思想是把平时每段时间、每位人力充分利用，且保证平时工作成果高度共享。这样平时的工作强度适中，也可以同样满足任务，甚至需要的人力数量还减少了（不追求计算内核 Dojo core 的数量）。

1.2 Dojo：存算一体/可扩展性/路由便捷/带宽

Dojo 至少有存算一体/扩展性强/路由便捷/带宽高四个特色。第一，存算一体。在最小的 Dojo Core 中有 1.25M SRAM 内存，也有类似 CPU 的处理单元，形成“存算一体“。而不能直接访问系统内存/无 L1D 缓存/低寻址位宽都是降低延迟、提高速度的方式，与“存算一体”契合。大多 AI 处理器有大片独立的计算单元和存储单元（并通过互连技术增加读写/数据同步带宽），但 Dojo 不是此类架构，甚至完全相反。 Dojo 部分功能类似 IBM 的 SPE（Synergistic Processing Elements，协同处理元件）。 Dojo 或 SPE 上运行的代码不能直接访问系统内存。应用程序预计主要在一小部分本地 SRAM 中工作。此本地 SRAM 由软件管理，不能用作缓存。 Dojo 的本地 SRAM 块不是缓存，所以它不需要与数据一起存储的标记和状态位。 SRAM 前面也没有 L1D 缓存，因此它必须足够快以处理所有加载和存储指令而不会造成瓶颈，即使它的大小更接近 L2 缓存。不将 SRAM 实现为缓存可能是特斯拉保持低延迟的方式。我们预计，特斯拉以类似 L1 缓存的延迟访问 L2 缓存大小的 SRAM 块。跳过一级缓存可以节省面积和功耗。

低寻址位宽也可以提高速度、降低延迟。Dojo 可以只用 21 个地址位寻址 SRAM，这可以简化 Dojo 的 AGU 和寻址总线。这些权衡可让特斯拉以足够低的延迟访问该 SRAM，以避免在其前面实现单独的 L1 数据缓存。

第二，扩展性佳，拓扑更容易，因此改变了传统 AI 架构中存储和缓存的诸多处理方法。从物理上讲，Dojo 节点内的逻辑由网络导线覆盖，这些导线可以缝合成一个全局网络。这允许多个节点无缝连接，形成一个可以向任何方向扩展的计算平面。前述 Dojo 没有片外 SRAM，没有共享缓存（Cache），没有 TLB（转译查找缓存， Translation Lookaside Buffers），没有 L1D 高速缓存，也是为了增加扩展性。

第三，正是由于上述存算一体、可扩展性强，因此数据路由（Routing）也很简单便捷。 Dojo 网络拓扑结构力求简洁。使用平坦的寻址空间，避免虚拟化。编译器需要知道所有数据的放置位置。数据路由也很简单，到达目的地只需跟随行和列到达目的节点即可。为了增加灵活性，每个 D1 管芯都实现了一个路由表。一旦数据包进入网络或在到达目的地的途中到达新的骰子，它就会参考本地路由表来决定什么是最佳的前进路径。根据安装在路由表中的信息，数据包可以沿着同一行或同一列继续，或者它可以转向以避免拥塞或出现故障的网络组件。还可以设置路由表，将数据包传输到最近的 DIP，以利用 Z 维度快捷方式。

第四，高带宽。特斯拉传输协议 TTP（Tesla Transport Protocol）还可以桥接到标准以太网，TTPOE 可将标准以太网转换至 Z 平面拓扑，拥有高 Z 平面拓扑连接性。最终得到的带宽均远超 1TB。

2. 部分流行 GPU/NPU/DSA 的异同：英伟达/谷歌/昇腾

2.1 Nvidia GPU 的 10 年架构趋势

2010 年以来，英伟达 GPU 主要架构至少包括八类，具备衍生关系。2010 年费米、 2012 年开普勒、2014 年麦克斯韦、2016 年帕斯卡、2017 年伏特、2018 年图灵、2020 年安培、2022 年赫伯架构。市场热议的 A100/A800、H100/H800 分别属于安培和赫伯架构。可以看出趋势： 1）注重互联； 2）对 AI 支持与时俱进（从 Cuda Core 到 Tensor Core，增加对 INT/BF16 等 AI 新趋势的支持，结构稀疏矩阵支持）；3）注重带宽和扩展性而非核心数量等（例如麦克斯韦比开普勒的 SM/SMX 数量减少，从图灵架构后 SM 数量增长也不快）。

2.2 谷歌 TPU 的五代升级

张量处理器（Tensor Processing Unit，缩写：TPU）是 Google 为机器学习定制的专用芯片（ASIC），专为 Google 的深度学习框架 TensorFlow 而设计。它可以视为 DSA 的范畴。 TPUv1 发布于 2016 年，是谷歌第一代 DNN DSA，能够处理推理任务。 TPUv2 发布于 2017 年 5 月，有两个 TensorCore，风险是相对延迟。近年来，模型训练的规模逐渐增大，所以一种新的改进是添加一个片到片的定制互连结构 ICI (Inter-Core Interconnect)。与 TPUv1 不同，TPUv2 每个芯片有两个 TensorCore。芯片上的全局线不会随着特征尺寸的缩小而缩小，因此相对延迟会增加。每个芯片有两个较小的核，以避免单个大型全芯片核的过度延迟。 TPUv3 发布于 2018 年 5 月，改进了带宽和扩展性，例如 HBM 容量和计算单元。在 TPUv2 的基础上微调了设计，采用相同的技术，拥有 2 倍的 MXU 和 HBM 容量，并将时钟频率、内存带宽和 ICI 带宽提高至 1.3 倍。一台 TPUv3 超级计算机可以扩展到 1024 个芯片。 TPUv3 对 AI 训练的精度要求支持增加。其在使用 16 位浮点（bfloat16）与英伟达 Volta GPU 相当。一些扩展到 1024 片芯片的应用程序可以获得 97%-99% 的完美线性加速。

TPUv4 部署于 2020 年，主打可扩展性，但 2023 年才论文发表。风险也是相对延迟。论文为《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》（ISCA 2023）。物理距离较近的 TPU v4（即在同一个 4x4x4 cube 中的芯片）可以用常规的电互联（例如铜绞线）方法连接，但是距离较远的 TPU 之间（例如在 Cube 之间的互联）就必须使用光互连，原因就在于在如此大规模的超级计算机中，芯片之间的数据互联在很大程度上会决定整体计算的效率；如果数据互联效率不够高的话，很多时候芯片都在等待来自其他芯片数据到达以开始计算，这样就形成了效率浪费。而光互连对于物理距离较远的芯片就成为了首选。

TPUV5 2023 年 8 月亮相。2023 年 8 月，谷歌在 Cloud Next 2023 大会上，公开了 Google Cloud 新款自研 AI 芯片 TPU v5e。可以看出 TPU 趋势： 1) 注重互联，互联问题可能会成为后续的瓶颈。

2) 对 AI 支持与时俱进。例如用脉动阵列的方法支持矩阵乘法，参见下图。左侧输入向量，下侧通过累加的方式输出矩阵乘积（还包括错误）。中间过程存储局部加法后的结果。

3）注重扩展性。TPUv4 开始，对扩展性大大增强，相应论文的标题描述也是 “Reconfigurable Supercomputer ”。TPU v4 从一开始设计时，其目标就是极高的可扩展性，可以有数千个芯片同时加速，从而实现一个为了机器学习模型训练而设计的超级计算机。在谷歌 TPUv4 的设计中，超级计算机的拓扑结构为：将 4x4x4（64）个 TPU v4 芯片互联在一起形成一个立方体结构（cube），然后再把 4x4x4 这样的 cube 用连在一起形成一个总共有 4096 个 TPU v4 的超级计算机。

2.3 华为昇腾

华为的 AI 生态，于 2019 年 8 月即已经发布。根据《机器之心》报道，华为轮值董事长徐直军在发布会上表示：华为自 2018 年 10 月发布 AI 战略以来，稳步而有序地推进战略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出，标志着华为已完成全栈全场景 AI 解决方案（Portfolio）的构建，也标志着华为 AI 战略的执行进入了新的阶段。昇腾 910 也是华为“达芬奇架构“最大的一款芯片。去年 10 月，华为在全联接大会（HC）上宣布了达芬奇计划，其中用于人工智能训练的昇腾 910 芯片格外引人注目。发布会上，华为产品与其他厂商做了典型性能比较。根据《机器之心》，“面向服务器的芯片昇腾（Ascend）910 采用 7nm 制程，而设计功耗为 310W，其算力比英伟达 Tesla V100 还要高出一倍，半精度（FP16）达到了 256 TeraFLOPS（英伟达 Tesla V100 为 125），整数精度算力（INT8）则为 512TeraOPS。此外，华为表示，昇腾 910 达到规格算力所需功耗仅 310W，明显低于设计规格的 350W”。该发布会还指出，“还推出了大规模分布式训练系统 Ascend 集群，在设计中，该集群将包括 1024 个昇腾 910 芯片，算力达到 256P，大幅超过英伟达 DGX2 和谷歌 TPU 集群”。软件工具链完善，例如 MindSpore 与 ModelArts。MindSpore 是华为提出的全场景 AI 框架，与 TensorFlow、PyTorch、PaddlePaddle 等框架类似。在框架之上，华为还为开发者提供了更为高级的 ModelArts，这是一个机器学习 PaaS，提供全流程服务、分层分级 API 及预集成解决方案。

根据公开披露的华为 AI 芯片达芬奇架构： 1）3D Cube 矩阵乘法单元。矩阵乘是 AI 计算的核心，这部分运算由 3D Cube 完成，Buffer L0A、L0B、L0C 则用于存储输入矩阵和输出矩阵数据，负责向 Cube 计算单元输送数据和存放计算结果。这个结构与英伟达的 TensorCore 有类似之处。 2）向量计算单元。虽然 Cube 的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠 Vector 向量计算单元来完成。 3）标量计算单元。主要负责 AI Core 的标量运算，功能上可以看作一个小 CPU，完成整个程序的循环控制、分支判断、及基本算术运算等。

我们认为，华为昇腾可能与谷歌 TPU 有类似之处。整体来看，两个缓冲 Buffer L0A 和 L0B 作为输入，应该是其中一个暂存的是输入变量，另一个暂存的是权重 weight。推测红色的 Cube 模块，应该是类似谷歌 TPU 脉动阵列的结构，即是一个矩阵乘法累加阵列，计算结果输出存放在另外一个缓冲 buffer L0C。 Vector Unit，类似一个 DSP（数字信号处理器）。这一点应当是区别于 TPU 的设计，在不增加成本的情况下，尽量增加功能灵活性。我们预计，系统从缓冲 buffer L0C 中取得乘累加计算结果，然后进行池化 pooling/padding、激活、加法等处理。如果还没得到最终结果，就暂时返回存储在 buffer L0C。如果得到了最终结果，就传递给 Unified Buffer。

2.4 异同

根据上述特斯拉 Dojo、英伟达 GPU、谷歌 TPU、华为达芬奇及昇腾的设计： 1）都把扩展性放在重要位置。 2）都在持续增加 AI 甚至大模型下特殊操作的支持。例如数据精度 TF32/BF16/CFP8 （下文有论述），例如矩阵乘法（代替向量乘法），例如 Transformer 的支持。

3）预计带宽的增强是后续关键能力，因为在计算/存储/读写 IO 中，瓶颈在带宽。后续也会论述。区别是，有些处理器是较难模仿的，尤其是特斯拉 Dojo。原因是不同处理器的设计架构是“架构向后兼容”的。例如英伟达的 Hopper(当前 H100，H800)仍然与费米架构有相似之处，例如核心是 SM 和 Cuda Cores、拥有共享内存机制。改为“存算一体”、TTP （Tesla Transport Protocol）的难度较大。再例如谷歌 TPU 的“脉动阵列”切换到“存算一体”依然变动太大。一方面，TPU 第一版发布于 2015-2016 年，那么芯片立项大约为 2013 年。英伟达 Pascal 架构发布于 2016 年，特斯拉 Dojo 发布于 2020 年。发布前芯片/软件/AI 的工业界水平决定了当时的架构，而此后版本大多“向后兼容”，很难再大幅度改变。因此其他领军公司切换到类似 Tesla Dojo 架构的概率低。另一方面，2020 年时，特斯拉 AI 算法已经应用了 BEV，且对 ADAS 场景和拓展性有明确需求，这点区别于 GPU/NPU。特斯拉场景的独特性也是研发 Dojo 这款 DSA 的客观条件。

3、计算：GPU/NPU/DSA 推测产业趋势

3.1 与时俱进，适配新 AI 场景

这些 GPU/NPU/DSA/AI ASIC 的进步，一大特点是快速适配新的 AI 场景。例如精度匹配/加速的 AI 算法。首先，关于精度匹配，AI 训练不同场景有不同的精度要求。

其中 TF32/BF16/CFP8 等是 AI 计算十分重要的新格式。 1)BF16：略牺牲精度，数据范围与 FP32 差不多，大大提高速度。Ampere 架构还引入了 Bfloat16 （ BF16 ）的数据类型，BF16 / FP32 混合精度张量核心运算的运行速度与 FP16 / FP32 混合精度相同。相对来说，在深度学习计算里，范围比精度要重要得多，于是 BF16，略牺牲精度，但保持和 FP32 差不多的范围。 2)TF32，兼具半精度一样的尾数和精度，是 AI 训练中 FP32 很好替代品。TF32 （TensorFloat32）是 NVIDIA 在 Ampere 架构推出的时候面世的，现已成为 Tensorflow 和Pytorch框架中默认的32 位格式。TF32 使用与半精度 (FP16) 数学相同的10 位尾数，表明其具有足够的余量来满足 AI 工作负载的精度要求。 TF32 的设计，在于即汲取了 BF16 的好处，又保持了一定程度对主流 FP32 的兼容， FP32 只要截断就是 TF32 了。先截断成 TF32 计算，再转成 FP32，对历史工作几乎无影响。这种组合使 TF32 成为 FP32 的绝佳替代品，用于处理单精度数学，特别是深度学习和许多 HPC 应用程序核心的大量乘法累加函数. 3)CFP8, 可配置浮点 8 位数据类型。CFP8 支持具有可配置偏差的 4 位或 5 位指数，可根据本地应用程序的需要有效地改变数据类型的表示范围。在所有可能的偏置值之间， CFP8 具有比常规 IEEE FP16 更大的表示范围。

其次，不同 AI 应用算法，有不同的加速单元帮助实现，这里举三个例子。例如，谷歌 TPUV1 主要优化 MLP/DLRM（MLP，多层感知机，Multilayer Perceptron； DLRM，深度学习推荐模型，Deep Learning Recommendation Model）。TPU V3 对 RNN、 CNN 的优化比例较多，而两者分别适合语音语言、图像的 AI 训练。TPU V4 对 Transformer 的优化占比大幅度提高，而众所众知 Transformer 是大模型的基础。

再例如，谷歌 TPU 和英伟达伏特(Volta)后的架构都支持张量计算，即直接矩阵乘法，之前流行的操作是“向量乘法“。英伟达 Volta 架构计算此类计算速度达到 12 倍，称为第一代 TensorCore。

再例如，英伟达从安培（Ampere）架构开始支持对稀疏矩阵（Sparse Matrix）的支持。其可以充分利用网络权值下的细粒度稀疏优势。相较于稠密数学计算（dense math），最大吞吐量提高了 2 倍，而且不会牺牲深度学习的矩阵乘法累加任务的精度。测试表明，这种稀疏方法在许多 AI 任务（包括图像分类、对象检测和语言翻译）中使用，都能保持与使用稠密数学计算相同的精度。该方法还已在卷积神经网络和递归神经网络以及基于注意力机制的 transformer 上进行了测试。这种稀疏化支持的趋势也得到了谷歌等巨头的印证。稀疏化计算是指在机器学习和深度学习中,对于高维特征向量进行数据压缩和降维处理的一种技术。稀疏化计算可以大幅度减少原始特征空间的维度,从而提高模型的运算效率。2022 年 6 月，谷歌带来最新成果 LIMoE，首次将稀疏化方法用在了图像文本混合模型。谷歌 Jeff Dean 等随后发表《A Review of Sparse Expert Models in Deep Learning》。

3.2 带宽最大化，延展关键化

特斯拉传输协议 TTP（Tesla Transport Protocol）还可以桥接到标准以太网，TTPOE 可将标准以太网转换至 Z平面拓扑，拥有高 Z平面拓扑连接性。最终得到的带宽均远超1TB，较为惊人： 1）D1 芯片内四个方向(上下左右)各自传输速率 10TB/s； 2）D1 芯片之间四个方向(上下左右)各自传输 4TB/s； 3）Tile(5x5 的训练瓦片)每条边各自传输 9TB/s； 4）Tile(5x5 的训练瓦片)之间，最高传输 36TB/s；

谷歌 TPU 也在持续尝试解决带宽问题。 1）TPUv1 主要使用简单的 DDR3 内存，因为它针对的是推理 Inference，仅需要使用已有的权重 weight，不需要生成权重。 2)TPU v2 的结构中，DDR3 改成与 Vector Mem/HBM 直连，允许双向读写。因为其针对训练任务。3)TPU V4 的内存带宽为 1200GB/s，Slice 内的片间互连（ICI）通过六个 50GB/s 链路提供 300GB/s 的数据传输速率。 TPUv4 硬件结构上，独立存在的稀疏核心单元 SparseCore（SC）就是为了解决擅长密集范式的 TensorCore 不能更好的支持优化计算范式的问题。如下图：SC 设计了一种类似于 GPUDirect 的快速 HBM。增加了独立的 fetch、scVPU、flush 等操作的处理单元，让数据高效传送到 Spmem（预计为一种数据池）内。

英伟达解决带宽的努力较为显著，包括 NVLink、InfiniBand、高速以太网等全面的解决方案，即多种卸载网络负荷、提升传输效率、降低延迟的技术。

1）InfiniBand（直译为“无限带宽”技术，缩写为 IB）是一个用于高性能计算的计算机网络通信标准，它具有极高的吞吐量和极低的延迟，用于计算机与计算机之间的数据互连。InfiniBand 也是英伟达帕斯卡 Pascal 之后架构的关键。 2）PCIE 带宽成为瓶颈，采用 NV Link。例如英伟达为自家 A100 芯片配备了 HBM 超高带宽显存，并且通过高带宽桥接器 NV-Link 连接多个 A100。 3）类似 LDGSTS 的内存操作。英伟达处理器一般是将全局内存（Global Memory）的数据加载到寄存器后再处理，类似 RISC 处理器的思路。安培 Ampere 架构为了解决带宽问题，引入 LDGSTS 指令，可以直接从全局内存（Global Memory）载入, 并以共享内存为目的地，直接载入。该指令已导入到 CUDA C/C++中。

3.3 核心数可能减少

并非核心数（和计算力正相关）越高越好，因为并发、吞吐量和拓展性是个平衡。特斯拉 Dojo 的论文展示了这种平衡和折中。在“拆解/去集成”的系统中，满足灵活的比率，往往计算核心数不比贸然增加。

英伟达设计思路，也没有贸然追求计算核心数量的快速增长。 1）英伟达 GPU 架构从麦克斯韦到帕斯卡就是这个思想。核心进一步减少,但拓展增强。每个 SM 的计算核心从 128 Cuda Cores 优化到 64Cuda Cores。 2）英伟达 GPU 架构从伏特到赫伯是类似的。TensorCore 成为核心，但单 SM 的核心数量从 8 个下降到 4 个。只是上述核心数的优化，背后是适配 AI 场景/新数据精度/延展性增强等大量设计努力。

4. 通信：从 2D 到 3D 组网，平衡带宽与时延瓶颈

4.1 2D 到 3D 组网

在《AIGC 系列之二十：通信网络延续基础算力的摩尔定律？》中，我们已经提出算力网络领域的和观点，可以对应延续到 Dojo 组网的研究： 1）吞吐带宽与连接架构是算力性能不可忽视的决定因素。 2）芯片层面，高速 c2c 连接方案（如 NVLink、CXL 等）的推广，是宏观设备/数据中心层高速网络、光网络等需求爆发的底层逻辑。 3）设备层面，单 SoC 性能提升+芯片“堆量”，不意味着算力集群整体性能的线性提升；而 Nvidia、Google、AMD、AWS 等算力大厂正应用 InfiniBand、OCS 等新架构替代通用算力下的以太网，带来增量网络需求。带宽角度，Tesla Dojo 的互联速率可与 Nvidia A/H 系列对标；系统拆解如下： 1）最小计算单元是 D1 Compute Die（可对标单个 GPU，TSMC 7nm 工艺，645mm^2； 354 个 Training nodes（训练节点，可大致类比为 GPU 核心，实际有区别），片上内存 SRAM 共 440MB；算力性能 362 TFlops BF16/CFP8，22 TFlops FP32 @2GHz），25 个 D1 芯片以 5×5 矩形阵列的形状，通过 40 个 I/O Die 相互连接，组成一个 Training Tile。

2）每个 Training Tile 拥有 10 TBps 的内部双向带宽，及 36TBps 的对外总带宽（4 个边，每个边 9 TBps，同相邻的 Tile 相互连接。 3）此外每 6 个 Tile 搭配了 20 张 V1 Dojo Interface Processor（DIP），用于内存扩容、PCIe 扩展、以及对外的网络连接（Interface Processor 类似于内存+网卡的综合体）。 DIP 为 Training Tile 提供了 800GBps 的内存带宽，并使用了 Tesla Transport Protocol（TTP，类似地可以对应于 CXL、NVLink 等），TTP 带宽达到 900GBps（与 Nvidia H100 NVLink、AMD MI300 Infinity Fabric 等目前主流芯片的连接带宽一致）， 32 GB 的 HBM 内存。

值得注意，每个DIP提供了50 GBps的 TTP over Ethernet（TTPoE，基于以太网 TTP）接口，用于对外连接以太网交换机，及 32 GBps 的 PCIe Gen4 的连接。也就是说每 6 个 Tile 对应 20 个 DIP 卡、每个 DIP 卡又对应了 1 个 50GBps 接口（也就是 400Gb 的网络接口），即每 6 个 Tile 对应了 20 个 400Gb 接口，以及总共 32×20=640 GB 的 HBM 可共享内存。 DIP 部署在 6 个 Tile 组成的阵列的边缘（20 个 DIP 分为 4 组，每组 5 个 DIP），其作用包括： 1）提供 HBM 扩展，形成共享的 DRAM 和单独的 D1 核心 SRAM。 2）提供对外连接，例如通过每组 DIP 通过 PCIe Gen4 去连接 1 个 Host System，以及通过 TTPoE 和外部以太网交换机连接其他的 DIP。

3）2 个 System Tray 组成 1 个机柜，177 个机柜（折合 53100 个 D1 Die）组成 1 个基础的 BasePOD；20 个 BasePOD（折合 3540 个机柜，或者 1062000 个 D1 Die）则组成一个完整的 ExtraPOD。

Tile 通过搭配的 DIP 和 TTPoE 对外形成 400Gb 连接，每 1 个机柜有 6×2 个 Tile，因此每机柜对外的 400Gb 连接数量为 2×20=40 个。 TTPoE 在 2D 矩阵网络的基础之上，在“Z 轴平面”上形成了立体网络。机柜之间的连接，通过以太网 fat-tree 连接。据 Tesla，系统中不同 D1 上的 SRAM 以 2D 片上互联的方式相互连接，若要跨越整个 2D 网络可能需要 30 跳，借助相邻的矩阵周转；而在 TTPoE 的点对点以太网连接下，仅需约 4 跳即可完成互联（Tile01->DIP01-> 交换机 ->DIP02->Tile02，共 4 组连接）。

4.2 光模块估算

综上，我们可以推算 Dojo 的网络设备与器件使用情况（假设全部使用光通信系统）： 1）如果是 1 个 Dojo 机柜的规模。机柜侧的 400Gb 模块数量为 40 个，则交换机侧同样配对 40 个 400Gb 模块。 2）如果是一个基础的 BasePOD，177 个机柜的规模。假设 fat-tree 的 2 层交换架构组网，那么 Dojo 机柜侧的 400Gb 模块数量为 177×40=7080 个，机柜到 L1 交换机之间的模块数量是 7080×2=14160 个；L1 和 L2 交换机之间，假设不收敛，同样也需要 7080 ×2=14160 个模块。因此总共需要14160×2=28320个光模块，对应177 个机柜中的53100 个D1 芯片。两者相除对应于 0.53 的 400Gb 光模块/D1 核心比率（但由于 D1 不能等效为 GPU 的核心，且华为昇腾/英伟达 H100/谷歌 TPU 与特斯拉 Dojo 的设计思想迥异。这仅证明训练芯片越来越多样化/延展化/适配更多的 AI 场景，因此所以整体利好光模块投入）。 3）如果是 3540 个机柜的 ExtraPOD，则需要进一步假设是否引入 3 层 fat-tree 架构以及网络收敛比的情况。另外 Host 系统预计也需要若干光模块，通过 Dojo Network Interface Card 和 TTPoE 协议进行远程内存直接调用（RDMA）。若 Dojo 系统与 Nvidia A100 系统对标，显著差异是网络带宽从 DGX A100 SuperPOD 的 200Gb 网络升级至 Dojo 的 400Gb 网络、SRAM 与 DRAM 容量与带宽提升、引入了 15 千瓦的液冷封装方案，同时提供了不同维度的整体算力性能提升。

Dojo 试图打破冯诺依曼瓶颈，借助软件与网络，平衡系统中的时延、带宽、资源消耗量和传输距离。冯诺依曼瓶颈即 IT 系统在内存容量指数级提升以后，CPU 和内存之间的数据传输带宽存在瓶颈。在 Dojo 系统中，我们发现，node、D1 Die、Tile 之间的网络带宽随着传输路径长度的增加而递减，如 D1 Die 之间的直连带宽远大于 Tile 之间，且越长的传输路径就越消耗系统资源。因此 Dojo 通过软件与网络设计，把大量的数据通信范围控制在本地较短的距离上，而长距离的全局通信则聚焦在同步（synchronization）、All Reduce 等环节。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）