1、Tesla Dojo:架构/存算一体/扩展性/带宽
Dojo 芯片与架构成为亮点。在 IEEE MICRO 2020 上,特斯拉发布《Compute Solution for Tesla's Full Self-Driving Computer》,要点包括 FSD 芯片/NNA 神经网络加速器 /NNA 架构等。在 2022 年 8 月 hotchips 34 大会上,特斯拉发布《The Microarchitecture of Dojo, Tesla’s Exa-Scale Computer》和《Dojo Super-Compute System Scaling for ML Training》(在 Tesla AI day 等也有涉及)。
1.1 Dojo 架构和重要问题
其中每个集群(ExaPOD)包括 3000 个 D1 芯片, 每个芯片包括 354 核心。而核心内部反而与传统 CPU 有类似之处(有解码器 Decoder, 取指令缓存 Fetch Buffer,有 SRAM)。
增强互联和扩展性,弱化存储的优化和连接。较多 CPU/GPU 采用增强计算单元、增 强存储读写、力图增强计算和存储的连接(例如 HBM 等)来提高性能。但 Dojo 不同,它 在微观领域增强了 SRAM(以至于 D1 达到 440MB),然后在宏观领域并未做明显的内存 增强。例如 HBM 在 Dojo 接口处理器 DIP 上,片内没有 HBM;再例如 Dojo 不支持暂时 虚拟内存。做个比喻:这有些像完成某项重要而前瞻的任务,大多数的思路是在冲刺任务 的时候增加人力数量、智库数量(就像对稀疏矩阵、矩阵乘加等 AI 运算的支持),并让这 些智库关键时刻集思广益(就像 HBM 和 NVlink1增强连接)。而 Dojo 的思想是把平时 每段时间、每位人力充分利用,且保证平时工作成果高度共享。这样平时的工作强度适中, 也可以同样满足任务,甚至需要的人力数量还减少了(不追求计算内核 Dojo core 的数量)。
1.2 Dojo:存算一体/可扩展性/路由便捷/带宽
Dojo 至少有存算一体/扩展性强/路由便捷/带宽高四个特色。 第一,存算一体。在最小的 Dojo Core 中有 1.25M SRAM 内存,也有类似 CPU 的 处理单元,形成“存算一体“。而不能直接访问系统内存/无 L1D 缓存/低寻址位宽都是降 低延迟、提高速度的方式,与“存算一体”契合。 大多 AI 处理器有大片独立的计算单元和存储单元(并通过互连技术增加读写/数据同 步带宽),但 Dojo 不是此类架构,甚至完全相反。 Dojo 部分功能类似 IBM 的 SPE(Synergistic Processing Elements,协同处理元件)。 Dojo 或 SPE 上运行的代码不能直接访问系统内存。应用程序预计主要在一小部分本地 SRAM 中工作。此本地 SRAM 由软件管理,不能用作缓存。 Dojo 的本地 SRAM 块不是缓存,所以它不需要与数据一起存储的标记和状态位。 SRAM 前面也没有 L1D 缓存,因此它必须足够快以处理所有加载和存储指令而不会造成 瓶颈,即使它的大小更接近 L2 缓存。不将 SRAM 实现为缓存可能是特斯拉保持低延迟 的方式。我们预计,特斯拉以类似 L1 缓存的延迟访问 L2 缓存 大小的 SRAM 块。跳过 一级缓存可以节省面积和功耗。
低寻址位宽也可以提高速度、降低延迟。Dojo 可以只用 21 个地址位寻址 SRAM, 这可以简化 Dojo 的 AGU 和寻址总线。这些权衡可让特斯拉以足够低的延迟访问该 SRAM,以避免在其前面实现单独的 L1 数据缓存。
第二,扩展性佳,拓扑更容易,因此改变了传统 AI 架构中存储和缓存的诸多处理方法。 从物理上讲,Dojo 节点内的逻辑由网络导线覆盖,这些导线可以缝合成一个全局网络。这 允许多个节点无缝连接,形成一个可以向任何方向扩展的计算平面。 前述 Dojo 没有片外 SRAM,没有共享缓存(Cache),没有 TLB(转译查找缓存, Translation Lookaside Buffers),没有 L1D 高速缓存,也是为了增加扩展性。
第三,正是由于上述存算一体、可扩展性强,因此数据路由(Routing)也很简单便 捷。 Dojo 网络拓扑结构力求简洁。使用平坦的寻址空间,避免虚拟化。编译器需要知道所 有数据的放置位置。 数据路由也很简单,到达目的地只需跟随行和列到达目的节点即可。为了增加灵活性, 每个 D1 管芯都实现了一个路由表。一旦数据包进入网络或在到达目的地的途中到达新的骰 子,它就会参考本地路由表来决定什么是最佳的前进路径。根据安装在路由表中的信息, 数据包可以沿着同一行或同一列继续,或者它可以转向以避免拥塞或出现故障的网络组件。 还可以设置路由表,将数据包传输到最近的 DIP,以利用 Z 维度快捷方式。
第四,高带宽。特斯拉传输协议 TTP(Tesla Transport Protocol)还可以桥接到标准 以太网,TTPOE 可将标准以太网转换至 Z 平面拓扑,拥有高 Z 平面拓扑连接性。最终得到 的带宽均远超 1TB。
2. 部分流行 GPU/NPU/DSA 的异同:英伟达/谷 歌/昇腾
2.1 Nvidia GPU 的 10 年架构趋势
2010 年以来,英伟达 GPU 主要架构至少包括八类,具备衍生关系。2010 年费米、 2012 年开普勒、2014 年麦克斯韦、2016 年帕斯卡、2017 年伏特、2018 年图灵、2020 年安培、2022 年赫伯架构。市场热议的 A100/A800、H100/H800 分别属于安培和赫伯 架构。 可以看出趋势: 1) 注重互联; 2) 对 AI 支持与时俱进(从 Cuda Core 到 Tensor Core,增加对 INT/BF16 等 AI 新趋势的支持,结构稀疏矩阵支持);3) 注重带宽和扩展性而非核心数量等(例如麦克斯韦比开普勒的 SM/SMX 数量减少, 从图灵架构后 SM 数量增长也不快)。
2.2 谷歌 TPU 的五代升级
张量处理器(Tensor Processing Unit,缩写:TPU)是 Google 为机器学习定制的 专用芯片(ASIC),专为 Google 的深度学习框架 TensorFlow 而设计。它可以视为 DSA 的范畴。 TPUv1 发布于 2016 年,是谷歌第一代 DNN DSA,能够处理推理任务。 TPUv2 发布于 2017 年 5 月,有两个 TensorCore,风险是相对延迟。近年来,模型 训练的规模逐渐增大,所以一种新的改进是添加一个片到片的定制互连结构 ICI (Inter-Core Interconnect)。与 TPUv1 不同,TPUv2 每个芯片有两个 TensorCore。芯片上的全局线 不会随着特征尺寸的缩小而缩小 ,因此相对延迟会增加。每个芯片有两个较小的核,以避 免单个大型全芯片核的过度延迟。 TPUv3 发布于 2018 年 5 月,改进了带宽和扩展性,例如 HBM 容量和计算单元。在 TPUv2 的基础上微调了设计,采用相同的技术,拥有 2 倍的 MXU 和 HBM 容量,并 将时钟频率、内存带宽和 ICI 带宽提高至 1.3 倍。一台 TPUv3 超级计算机可以扩展到 1024 个芯片。 TPUv3 对 AI 训练的精度要求支持增加。其在使用 16 位浮点(bfloat16)与 英伟达 Volta GPU 相当。一些扩展到 1024 片芯片的应用程序可以获得 97%-99% 的完美线性 加速。
TPUv4 部署于 2020 年,主打可扩展性,但 2023 年才论文发表。风险也是相对延迟。 论文为《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》(ISCA 2023)。 物理距离较近的 TPU v4(即在同一个 4x4x4 cube 中的芯片)可以用常规的电互联(例 如铜绞线)方法连接,但是距离较远的 TPU 之间(例如在 Cube 之间的互联)就必须使用 光互连,原因就在于在如此大规模的超级计算机中,芯片之间的数据互联在很大程度上会 决定整体计算的效率;如果数据互联效率不够高的话,很多时候芯片都在等待来自其他芯片数据到达以开始计算,这样就形成了效率浪费。而光互连对于物理距离较远的芯片就成 为了首选。
TPUV5 2023 年 8 月亮相。2023 年 8 月,谷歌在 Cloud Next 2023 大会上,公开 了 Google Cloud 新款自研 AI 芯片 TPU v5e。 可以看出 TPU 趋势: 1) 注重互联,互联问题可能会成为后续的瓶颈。
2) 对 AI 支持与时俱进。例如用脉动阵列的方法支持矩阵乘法,参见下图。左侧输入 向量,下侧通过累加的方式输出矩阵乘积(还包括错误)。中间过程存储局部加法 后的结果。
3)注重扩展性。TPUv4 开始,对扩展性大大增强,相应论文的标题描述也是 “Reconfigurable Supercomputer ”。TPU v4 从一开始设计时,其目标就是极高的可 扩展性,可以有数千个芯片同时加速,从而实现一个为了机器学习模型训练而设计的超级 计算机。在谷歌 TPUv4 的设计中,超级计算机的拓扑结构为:将 4x4x4(64)个 TPU v4 芯片互联在一起形成一个立方体结构(cube),然后再把 4x4x4 这样的 cube 用连在一起 形成一个总共有 4096 个 TPU v4 的超级计算机。
2.3 华为昇腾
华为的 AI 生态,于 2019 年 8 月即已经发布。根据《机器之心》报道,华为轮值董事 长徐直军在发布会上表示:华为自 2018 年 10 月发布 AI 战略以来,稳步而有序地推进战 略执行、产品研发及商用进程。昇腾 910、MindSpore 的推出,标志着华为已完成全栈全 场景 AI 解决方案(Portfolio)的构建,也标志着华为 AI 战略的执行进入了新的阶段。 昇腾 910 也是华为“达芬奇架构“最大的一款芯片。去年 10 月,华为在全联接大 会(HC)上宣布了达芬奇计划,其中用于人工智能训练的昇腾 910 芯片格外引人注目。 发布会上,华为产品与其他厂商做了典型性能比较。根据《机器之心》,“面向服务 器的芯片昇腾(Ascend)910 采用 7nm 制程,而设计功耗为 310W,其算力比英伟达 Tesla V100 还要高出一倍,半精度(FP16)达到了 256 TeraFLOPS(英伟达 Tesla V100 为 125),整数精度算力(INT8)则为 512TeraOPS。此外,华为表示,昇腾 910 达到规格算力所需功耗仅 310W,明显低于设计规格的 350W”。该发布会还指出,“还推出 了大规模分布式训练系统 Ascend 集群,在设计中,该集群将包括 1024 个 昇腾 910 芯 片,算力达到 256P,大幅超过英伟达 DGX2 和谷歌 TPU 集群”。 软件工具链完善,例如 MindSpore 与 ModelArts。MindSpore 是华为提出的全场 景 AI 框架,与 TensorFlow、PyTorch、PaddlePaddle 等框架类似。在框架之上,华 为还为开发者提供了更为高级的 ModelArts,这是一个机器学习 PaaS,提供全流程服务、 分层分级 API 及预集成解决方案。
根据公开披露的华为 AI 芯片达芬奇架构: 1)3D Cube 矩阵乘法单元。矩阵乘是 AI 计算的核心,这部分运算由 3D Cube 完 成,Buffer L0A、L0B、L0C 则用于存储输入矩阵和输出矩阵数据,负责向 Cube 计算单 元输送数据和存放计算结果。这个结构与英伟达的 TensorCore 有类似之处。 2)向量计算单元。虽然 Cube 的算力很强大,但只能完成矩阵乘运算,还有很多计 算类型要依靠 Vector 向量计算单元来完成。 3)标量计算单元。主要负责 AI Core 的标量运算,功能上可以看作一个小 CPU,完 成整个程序的循环控制、分支判断、及基本算术运算等。
我们认为,华为昇腾可能与谷歌 TPU 有类似之处。整体来看,两个缓冲 Buffer L0A 和 L0B 作为输入,应该是其中一个暂存的是输入变量,另一个暂存的是权重 weight。 推测红色的 Cube 模块,应该是类似谷歌 TPU 脉动阵列的结构,即是一个矩阵乘法累 加阵列,计算结果输出存放在另外一个缓冲 buffer L0C。 Vector Unit,类似一个 DSP(数字信号处理器)。这一点应当是区别于 TPU 的设计, 在不增加成本的情况下,尽量增加功能灵活性。我们预计,系统从缓冲 buffer L0C 中取得 乘累加计算结果,然后进行池化 pooling/padding、激活、加法等处理。如果还没得到最终 结果,就暂时返回存储在 buffer L0C。如果得到了最终结果,就传递给 Unified Buffer。
2.4 异同
根据上述特斯拉 Dojo、英伟达 GPU、谷歌 TPU、华为达芬奇及昇腾的设计: 1)都把扩展性放在重要位置。 2)都在持续增加 AI 甚至大模型下特殊操作的支持。例如数据精度 TF32/BF16/CFP8 (下文有论述),例如矩阵乘法(代替向量乘法),例如 Transformer 的支持。
3)预计带宽的增强是后续关键能力,因为在计算/存储/读写 IO 中,瓶颈在带宽。后 续也会论述。 区别是,有些处理器是较难模仿的,尤其是特斯拉 Dojo。原因是不同处理器的设计架 构是“架构向后兼容”的。例如英伟达的 Hopper(当前 H100,H800)仍然与费米架构有 相似之处,例如核心是 SM 和 Cuda Cores、拥有共享内存机制。改为“存算一体”、TTP (Tesla Transport Protocol)的难度较大。再例如谷歌 TPU 的“脉动阵列”切换到“存 算一体”依然变动太大。 一方面,TPU 第一版发布于 2015-2016 年,那么芯片立项大约为 2013 年。英伟达 Pascal 架构发布于 2016 年,特斯拉 Dojo 发布于 2020 年。发布前芯片/软件/AI 的工业 界水平决定了当时的架构,而此后版本大多“向后兼容”,很难再大幅度改变。因此其他 领军公司切换到类似 Tesla Dojo 架构的概率低。 另一方面,2020 年时,特斯拉 AI 算法已经应用了 BEV,且对 ADAS 场景和拓展性有 明确需求,这点区别于 GPU/NPU。特斯拉场景的独特性也是研发 Dojo 这款 DSA 的客观 条件。
3、计算:GPU/NPU/DSA 推测产业趋势
3.1 与时俱进,适配新 AI 场景
这些 GPU/NPU/DSA/AI ASIC 的进步,一大特点是快速适配新的 AI 场景。例如精 度匹配/加速的 AI 算法。 首先,关于精度匹配,AI 训练不同场景有不同的精度要求。
其中 TF32/BF16/CFP8 等是 AI 计算十分重要的新格式。 1)BF16:略牺牲精度,数据范围与 FP32 差不多,大大提高速度。Ampere 架构还引 入了 Bfloat16 ( BF16 )的数据类型,BF16 / FP32 混合精度张量核心运算的运行速度 与 FP16 / FP32 混合精度相同。相对来说,在深度学习计算里,范围比精度要重要得多, 于是 BF16,略牺牲精度,但保持和 FP32 差不多的范围。 2)TF32,兼具半精度一样的尾数和精度,是 AI 训练中 FP32 很好替代品。TF32 (TensorFloat32)是 NVIDIA 在 Ampere 架构推出的时候面世的,现已成为 Tensorflow 和Pytorch框架中默认的32 位格式。TF32 使用与半精度 (FP16) 数学相同的10 位尾数, 表明其具有足够的余量来满足 AI 工作负载的精度要求。 TF32 的设计,在于即汲取了 BF16 的好处,又保持了一定程度对主流 FP32 的兼容, FP32 只要截断就是 TF32 了。先截断成 TF32 计算,再转成 FP32,对历史工作几乎无影 响。这种组合使 TF32 成为 FP32 的绝佳替代品,用于处理单精度数学,特别是深度学习和 许多 HPC 应用程序核心的大量乘法累加函数. 3)CFP8, 可配置浮点 8 位数据类型。CFP8 支持具有可配置偏差的 4 位或 5 位指数, 可根据本地应用程序的需要有效地改变数据类型的表示范围。在所有可能的偏置值之间, CFP8 具有比常规 IEEE FP16 更大的表示范围。
其次,不同 AI 应用算法,有不同的加速单元帮助实现,这里举三个例子。 例如,谷歌 TPUV1 主要优化 MLP/DLRM(MLP,多层感知机,Multilayer Perceptron; DLRM,深度学习推荐模型,Deep Learning Recommendation Model)。TPU V3 对 RNN、 CNN 的优化比例较多,而两者分别适合语音语言、图像的 AI 训练。TPU V4 对 Transformer 的优化占比大幅度提高,而众所众知 Transformer 是大模型的基础。
再例如,谷歌 TPU 和英伟达伏特(Volta)后的架构都支持张量计算,即直接矩阵乘法, 之前流行的操作是“向量乘法“。英伟达 Volta 架构计算此类计算速度达到 12 倍,称为第 一代 TensorCore。
再例如,英伟达从安培(Ampere)架构开始支持对稀疏矩阵(Sparse Matrix)的 支持。其可以充分利用网络权值下的细粒度稀疏优势。相较于稠密数学计算(dense math), 最大吞吐量提高了 2 倍,而且不会牺牲深度学习的矩阵乘法累加任务的精度。 测试表明,这种稀疏方法在许多 AI 任务(包括图像分类、对象检测和语言翻译)中使 用,都能保持与使用稠密数学计算相同的精度。该方法还已在卷积神经网络和递归神经网 络以及基于注意力机制的 transformer 上进行了测试。 这种稀疏化支持的趋势也得到了谷歌等巨头的印证。稀疏化计算是指在机器学习和深 度学习中,对于高维特征向量进行数据压缩和降维处理的一种技术。稀疏化计算可以大 幅度减少原始 特征空间的维度,从而提高模型的运算效率。2022 年 6 月,谷歌带来最新成果 LIMoE,首次将稀疏化方法用在了图像文本混合模型。谷歌 Jeff Dean 等随后发 表《A Review of Sparse Expert Models in Deep Learning》。
3.2 带宽最大化,延展关键化
特斯拉传输协议 TTP(Tesla Transport Protocol)还可以桥接到标准以太网,TTPOE 可将标准以太网转换至 Z平面拓扑,拥有高 Z平面拓扑连接性。最终得到的带宽均远超1TB, 较为惊人: 1)D1 芯片内四个方向(上下左右)各自传输速率 10TB/s; 2)D1 芯片之间四个方向(上下左右)各自传输 4TB/s; 3)Tile(5x5 的训练瓦片)每条边各自传输 9TB/s; 4)Tile(5x5 的训练瓦片)之间,最高传输 36TB/s;
谷歌 TPU 也在持续尝试解决带宽问题。 1)TPUv1 主要使用简单的 DDR3 内存,因为它针对的是推理 Inference,仅需要使用 已有的权重 weight,不需要生成权重。 2)TPU v2 的结构中,DDR3 改成与 Vector Mem/HBM 直连,允许双向读写。因为其 针对训练任务。3)TPU V4 的内存带宽为 1200GB/s,Slice 内的片间互连(ICI)通过六个 50GB/s 链 路提供 300GB/s 的数据传输速率。 TPUv4 硬件结构上,独立存在的稀疏核心单元 SparseCore(SC)就是为了解决擅长 密集范式的 TensorCore 不能更好的支持优化计算范式的问题。如下图:SC 设计了一种类 似于 GPUDirect 的快速 HBM。增加了独立的 fetch、scVPU、flush 等操作的处理单元, 让数据高效传送到 Spmem(预计为一种数据池)内。
英伟达解决带宽的努力较为显著,包括 NVLink、InfiniBand、高速以太网等全面的 解决方案,即多种卸载网络负荷、提升传输效率、降低延迟的技术。
1)InfiniBand(直译为“无限带宽”技术,缩写为 IB)是一个用于高性能计算的计 算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的 数据互连。InfiniBand 也是英伟达帕斯卡 Pascal 之后架构的关键。 2)PCIE 带宽成为瓶颈,采用 NV Link。 例如英伟达为自家 A100 芯片配备了 HBM 超高带宽显存,并且通过高带宽桥接器 NV-Link 连接多个 A100。 3)类似 LDGSTS 的内存操作。英伟达处理器一般是将全局内存(Global Memory) 的数据加载到寄存器后再处理,类似 RISC 处理器的思路。安培 Ampere 架构为了解决带 宽问题,引入 LDGSTS 指令,可以直接从全局内存(Global Memory)载入, 并以共享内 存为目的地,直接载入。该指令已导入到 CUDA C/C++中。
3.3 核心数可能减少
并非核心数(和计算力正相关)越高越好,因为并发、吞吐量 和拓展性是个平衡。特 斯拉 Dojo 的论文展示了这种平衡和折中。在“拆解/去集成”的系统中,满足灵活的比率, 往往计算核心数不比贸然增加。
英伟达设计思路,也没有贸然追求计算核心数量的快速增长。 1)英伟达 GPU 架构从麦克斯韦到帕斯卡就是这个思想。核心进一步减少,但拓展增强。 每个 SM 的计算核心从 128 Cuda Cores 优化到 64Cuda Cores。 2)英伟达 GPU 架构从伏特到赫伯是类似的。TensorCore 成为核心,但单 SM 的核 心数量从 8 个下降到 4 个。 只是上述核心数的优化,背后是适配 AI 场景/新数据精度/延展性增强等大量设计努力。
4. 通信:从 2D 到 3D 组网,平衡带宽与时延瓶颈
4.1 2D 到 3D 组网
在《AIGC 系列之二十:通信网络延续基础算力的摩尔定律?》中,我们已经提出算力 网络领域的和观点,可以对应延续到 Dojo 组网的研究: 1)吞吐带宽与连接架构是算力性能不可忽视的决定因素。 2)芯片层面,高速 c2c 连接方案(如 NVLink、CXL 等)的推广,是宏观设备/数据 中心层高速网络、光网络等需求爆发的底层逻辑。 3)设备层面,单 SoC 性能提升+芯片“堆量”,不意味着算力集群整体性能的线性提 升;而 Nvidia、Google、AMD、AWS 等算力大厂正应用 InfiniBand、OCS 等新架构替 代通用算力下的以太网,带来增量网络需求。 带宽角度,Tesla Dojo 的互联速率可与 Nvidia A/H 系列对标;系统拆解如下: 1)最小计算单元是 D1 Compute Die(可对标单个 GPU,TSMC 7nm 工艺,645mm^2; 354 个 Training nodes(训练节点,可大致类比为 GPU 核心,实际有区别),片上内存 SRAM 共 440MB;算力性能 362 TFlops BF16/CFP8,22 TFlops FP32 @2GHz),25 个 D1 芯片以 5×5 矩形阵列的形状,通过 40 个 I/O Die 相互连接,组成一个 Training Tile。
2)每个 Training Tile 拥有 10 TBps 的内部双向带宽,及 36TBps 的对外总带宽(4 个边,每个边 9 TBps,同相邻的 Tile 相互连接。 3)此外每 6 个 Tile 搭配了 20 张 V1 Dojo Interface Processor(DIP),用于内存扩 容、PCIe 扩展、以及对外的网络连接(Interface Processor 类似于内存+网卡的综合体)。 DIP 为 Training Tile 提供了 800GBps 的内存带宽,并使用了 Tesla Transport Protocol(TTP,类似地可以对应于 CXL、NVLink 等),TTP 带宽达到 900GBps(与 Nvidia H100 NVLink、AMD MI300 Infinity Fabric 等目前主流芯片的连接带宽一致), 32 GB 的 HBM 内存。
值得注意,每个DIP提供了50 GBps的 TTP over Ethernet(TTPoE,基于以太网 TTP) 接口,用于对外连接以太网交换机,及 32 GBps 的 PCIe Gen4 的连接。也就是说每 6 个 Tile 对应 20 个 DIP 卡、每个 DIP 卡又对应了 1 个 50GBps 接口(也就是 400Gb 的网络 接口),即每 6 个 Tile 对应了 20 个 400Gb 接口,以及总共 32×20=640 GB 的 HBM 可共享内存。 DIP 部署在 6 个 Tile 组成的阵列的边缘(20 个 DIP 分为 4 组,每组 5 个 DIP),其 作用包括: 1)提供 HBM 扩展,形成共享的 DRAM 和单独的 D1 核心 SRAM。 2)提供对外连接,例如通过每组 DIP 通过 PCIe Gen4 去连接 1 个 Host System, 以及通过 TTPoE 和外部以太网交换机连接其他的 DIP。
3)2 个 System Tray 组成 1 个机柜,177 个机柜(折合 53100 个 D1 Die)组成 1 个基础的 BasePOD;20 个 BasePOD(折合 3540 个机柜,或者 1062000 个 D1 Die)则 组成一个完整的 ExtraPOD。
Tile 通过搭配的 DIP 和 TTPoE 对外形成 400Gb 连接,每 1 个机柜有 6×2 个 Tile, 因此每机柜对外的 400Gb 连接数量为 2×20=40 个。 TTPoE 在 2D 矩阵网络的基础之上,在“Z 轴平面”上形成了立体网络。机柜之间的 连接,通过以太网 fat-tree 连接。据 Tesla,系统中不同 D1 上的 SRAM 以 2D 片上互联 的方式相互连接,若要跨越整个 2D 网络可能需要 30 跳,借助相邻的矩阵周转;而在 TTPoE 的 点对 点 以 太网 连 接 下, 仅 需约 4 跳 即 可完 成 互 联 (Tile01->DIP01-> 交 换机 ->DIP02->Tile02,共 4 组连接)。
4.2 光模块估算
综上,我们可以推算 Dojo 的网络设备与器件使用情况(假设全部使用光通信系统): 1)如果是 1 个 Dojo 机柜的规模。机柜侧的 400Gb 模块数量为 40 个,则交换机侧 同样配对 40 个 400Gb 模块。 2)如果是一个基础的 BasePOD,177 个机柜的规模。假设 fat-tree 的 2 层交换架构 组网,那么 Dojo 机柜侧的 400Gb 模块数量为 177×40=7080 个,机柜到 L1 交换机之间 的模块数量是 7080×2=14160 个;L1 和 L2 交换机之间,假设不收敛,同样也需要 7080 ×2=14160 个模块。 因此总共需要14160×2=28320个光模块,对应177 个机柜中的53100 个D1 芯片。 两者相除对应于 0.53 的 400Gb 光模块/D1 核心比率(但由于 D1 不能等效为 GPU 的核 心,且华为昇腾/英伟达 H100/谷歌 TPU 与特斯拉 Dojo 的设计思想迥异。这仅证明训练 芯片越来越多样化/延展化/适配更多的 AI 场景,因此所以整体利好光模块投入)。 3)如果是 3540 个机柜的 ExtraPOD,则需要进一步假设是否引入 3 层 fat-tree 架 构以及网络收敛比的情况。另外 Host 系统预计也需要若干光模块,通过 Dojo Network Interface Card 和 TTPoE 协议进行远程内存直接调用(RDMA)。 若 Dojo 系统与 Nvidia A100 系统对标,显著差异是网络带宽从 DGX A100 SuperPOD 的 200Gb 网络升级至 Dojo 的 400Gb 网络、SRAM 与 DRAM 容量与带宽 提升、引入了 15 千瓦的液冷封装方案,同时提供了不同维度的整体算力性能提升。
Dojo 试图打破冯诺依曼瓶颈,借助软件与网络,平衡系统中的时延、带宽、资源消耗 量和传输距离。冯诺依曼瓶颈即 IT 系统在内存容量指数级提升以后,CPU 和内存之间的 数据传输带宽存在瓶颈。在 Dojo 系统中,我们发现,node、D1 Die、Tile 之间的网络带 宽随着传输路径长度的增加而递减,如 D1 Die 之间的直连带宽远大于 Tile 之间,且越长 的传输路径就越消耗系统资源。因此 Dojo 通过软件与网络设计,把大量的数据通信范围控 制在本地较短的距离上,而长距离的全局通信则聚焦在同步(synchronization)、All Reduce 等环节。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
智联汽车专题分析:特斯拉Dojo+英伟达GPU+谷歌TPU+昇腾,趋势是带宽与扩展性!.pdf
汽车空气悬架行业研究:高附加值集成部件,国产替代新蓝海.pdf
零跑汽车研究报告:全域自研驱动技术降本,汽车出口盈利前景可期.pdf
华为汽车专题分析:X界智选,鸿蒙智行.pdf
麦肯锡&中国电动汽车百人会-新能源汽车行业驶向2030:全球新能源汽车产业发展格局与展望.pdf
长安汽车研究报告:汽车央企转型新生,产品向上开启新周期.pdf
特斯拉研究报告:如何理解特斯拉的当下与未来?.pdf
特斯拉及造车新势力年报分析:特斯拉稳健增长,新势力增速分化.pdf
人形机器人行业专题报告(硬件篇):特斯拉Optimus引领技术实现,国产零部件迎来机遇.pdf
特斯拉研究报告:全球电动车领导者,科技创新引领未来增长.pdf
汽车智能驾驶行业专题报告:特斯拉专题.pdf
PCB行业专题报告:GB200单颗GPUHDI价值量有望提升,产业链迎新机遇.pdf
英伟达GTC专题分析:新一代GPU、具身智能与AI应用.pdf
超威半导体研究报告:CPU攻城略地,GPU仍需磨炼.pdf
景嘉微研究报告:国产GPU老兵,高效研发促进产品革新.pdf
GPU行业专题报告:GPU框架,从ROCm、Pytorch看生态壁垒.pdf