一、使用光交换机能够显著提升AI超算集群效率
谷歌为何要发展OCS光交换机:提升计算集群性能支撑大模型
2023年12月7日,谷歌推出自身首个多模态大模型Gemini 1.0,其中高性能版本Gemini Ultra可对标GPT-4。 2024年2月16日,谷歌Gemini模型Pro版迭代出1.5版本: 该模型在长语境理解方面取得突破,显著增加可处理信息量,持续运行多达100万个tokens,是迄今为止基础模型中最长的上下文窗口 。Gemini 1.5 Pro可一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库 。谷歌透露其在研究中还成功测试了多达1000万个tokens 。 2024年2月22日,谷歌推出新型开源模型系列“Gemma”:该开源模型基于Gemini研究和技术开发,与Gemini相比,Gemma展示了更高的效 率和轻量化设计,同时免费提供全套模型权重,并明确允许商业使用 。 谷歌不断加速迭代大模型,大模型性能提升除了软件层面优化,更需强大算力支撑,算力一方面来自底层的芯片性能,另一方面则来自计 算集群效率,为了高效地将多个计算芯片连接起来,谷歌在通用解决方案基础上,创造性地引入OCS光交换机(Palomar)。
谷歌大模型 Gemini快速迭代,亟需算力支撑
谷歌大模型的迭代动作加快: 2023年初推出聊天机器人Bard:2023年2月6日,谷歌宣布将推出一款聊天机器人Bard,2023年3月21日,谷歌向公众开放Bard 的访问权限 。 2023年12月推出首个多模态大模型Gemini 1.0:模型共分为Ultra、Pro、Nano三个版本,同时将聊天机器人Bard背后的模型从PaLM2换成了 Gemini Pro,其中高性能版本Gemini Ultra可对标GPT-4,Gemini Ultra 在大型语言模型(LLM) 研发中使用的32 个广泛使用的学术基准中, 有30个的性能超过了当前最先进的结果 。 2024年2月16日,Gemini 1.0 Pro迭代至1.5:在文本、代码、图像、音频和视频评估达到了与Gemini 1.0 Ultra相当的质量,但减少了计算资源 ✓ 2024年2月22日,谷歌推出新型开源模型系列“Gemma”。
谷歌自研TPU单芯片性能不足,提高计算集群效率是破局关键
谷歌2016年涉足ASIC芯片,截止目前已推出6代版本: 2015年谷歌首次发布了第一代TPU,正式涉足定制ASIC芯片,2017年发布第二代TPU v2,2018年发布第三代TPU v3,第四代TPU v4于2021 年5月正式推出,此次迭代间隔三年,并于2023 年8月推出第五代TPU v5e,以及2023年12月6日最新发布TPU v5p 。 单芯片性能不足,提高计算集群效率(POD)是同英伟达竞争的关键:谷歌训练 Gemini Ultra所使用芯片为TPU v4、TPU v5e,性能无法与英 伟达H100相比,TPU v5e峰值算力只有英伟达三年前发布的A100 的六成,最新版本TPU v5p峰值算力不到H100的三成,且英伟达将于2024年 推出更高性能的B100产品。
TPU v4时期首次引入Palomar OCS提升计算集群性能
谷歌从TPU v2版本开始构建超级计算机集群:谷歌在2017年发布TPU v2的同时,宣布计划研发可扩展云端超级计算机TPU Pods,通过新的计 算机网络将64块Cloud TPU相结合。 TPU v3集群(Pod):2018年与TPU v3芯片一同推出,每个Pod最多拥有1024个芯片 。 TPU v4集群首次引入OCS:首次引入Palomar OCS(Optical Circuit Switches,光交换机),一个集群总共有4096个TPU,是TPU v3的4倍。 TPU v5p集群:每集群TPU数量达到8960个,每集群可用 FLOP总数是TPU v4的4 倍,每秒浮点运算数(FLOPS)比TPU v4 提高一倍,每 Pod芯片数量增加一倍,可以提高训练速度的相对性能;TPU v5p集群同样使用了Palomar光交换机 。 短时间内,谷歌在单颗芯片性能上超过英伟达难度较大,通过其擅长的软硬件集成,提高计算集群效率,在支撑自身大模型训练的基础上,可 以通过出售算力资源获取收入,Salesforce 和 Lightrick等客户已经在使用Google Cloud 的 TPU v5p 超级计算机来训练大模型。
二、光交换机产业链增量明显,相关标的受益
TPU v4集群:总共4096个TPU互联
TPU v4集群:谷歌目前训练大模型的主要集群,一个集群共有4096个TPU互联,未来升级到TPU v5p集群,届时将 有8960个TPU互联,由于目前最新资料是基于TPU v4,本文后续将基于TPU v4论文进行OCS架构和产业链分析。 TPU v4集群中4096个TPU芯片的构成:一个集群有64个机架,每个机架16个tray盘,每个tray盘上4个TPU,共计 4096个芯片。
TPU v4集群:使用OCS光交换机对光模块用量的影响
光模块用量:每个cube(即每个机架)伸出来对立面上的2根线与每个光交换机互联,一共64 个机架,所以每个光交换机需要有64×2=128个端口,所以每个集群总共有有48个交换机*128 端口=6114个端口,所以在整个集群中TPU数量与端口数量之比为4096:6114=1:1.5,与英伟达 胖树架构的1:2.5相比,光模块用量变少了 。论文中表示每个交换机有136个端口,其中8个端口是检测校准和监控的,不实际传递信号。
三、光是AI时代高速传输的必由之路
从网络架构看光连接的驱动力:从电信到数通
电信市场:FTTx(光纤到任意终端)不断拓展、5G网络建设推进,整个电信网络各级光传输节点的数量和端口速率要求明显提升。数通市场:AI对算力的需求持续提升,数据中心、机架、服务器、计算芯片之间的互联架构变革,更多地使用光连接,且速率要求不断提升 。从整个网络架构的演进来看,随着数据交换速率的需求持续提升,光连接对应的线缆、组件、芯片需求不断提升。
光连接成为解决AI时代高速传输的必由之路
光所连接的节点的距离不断下沉,速率不断提高,同时伴随着CPO等新技术的不断涌现,成为AI时代的必由之路: 数据中心之间:目前使用400G ZR传输技术以及对应的光模块,2025年将主要使用800G ZR传输及对应光模块,均主要使用硅光技术 。 核心层和主干层之间:目前使用800G LR8传输技术以及对应的光模块,2025年将使用1.6T LR4/LR8传输及对应光模块 。主干层和叶交换机之间:目前使用800G DR8/FR8传输技术以及对应的光模块,2025年将使用1.6T DR8/2FR4/FR8传输及对应光模块,其中 800G DR8、1.6T DR8均主要使用硅光技术,CPO(共封装光学)技术将在后续进行规模化应用,应用在这一层级 。 叶交换机和架顶交换机之间:目前使用800G SR8传输技术以及对应的光模块, 2025年将使用1.6T SR8和1.6T DR8传输及对应光模块,集成的 VCSEL芯片升级为硅基光子芯片(Si PIC) 。 架顶交换机和服务器之间:目前使用200G电缆(DAC)或光缆(AOC),2025年将使用400G DAC/AOC。 服务器之间:将越来越多使用光接口芯片(OIO)进行CPU、GPU乃至Chiplet间连接,取代传统的电IO方案,芯片输入输出的IO变为光信号。
光连接产业链概览
光连接:利用光模块、光通信设备和光纤光缆,将用户终端、基站、数据中心、数据中心内部各级节点、乃至 CPU/GPU间连接起来,实现数据的传输 。 产业链概览:上游为光芯片、电芯片、光器件等基础器件供应商,中游包括光模块、光纤光缆、光通信设备等,下游 应用市场包括电信市场和数通市场。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
光交换机行业专题报告:光是通信的必由之路,OCS已成功应用.pdf
盛科通信研究报告:国内稀缺交换机芯片领先企业,AI景气+国产化替代双轮驱动加速成长.pdf
工业网络交换机行业专题报告:连接工业设备,赋能新型工业.pdf
数据中心224G可插拔模块交换机方案研究报告.pdf
通信行业Arista公司研究:全球高速数据中心交换机领航者,站上AI浪潮之巅.pdf
菲菱科思研究报告:交换机ODM“排头兵”,结构优化与份额提升并进.pdf
通信行业2024上市公司见面会暨春季策略会:全球算力共振,国内新连接开启.pdf
自考操作系统原理-进程同步与进程通信.pptx
现代通信系统.pptx
通信行业专题报告:通感一体化网络,护航低空经济腾飞.pdf
国网信通研究报告:国网系信息通信服务商,电网数智化建设创造发展良机.pdf