【华创证券】光通信产业系列报告之一:新技术巡礼:深度拆解Google OCS及其产业链演进的投资机遇.pdf

2024-01-25
36页
4MB

一、Google 位居 AI 行业第一梯队,有望进一步加强 AI 领域投资

(一)Google 为大模型领域奠基者,最新发布的 Gemini 彰显深厚底蕴


1、超前提出 AI First 战略,长期深耕大模型和算力设施


Google 深耕 AI 技术多年,为大模型领域奠基者。早在 2017 年,Google 就已经把发展战 略从 Mobile First 转变为 AI First。同年 Google 发布 NLP 模型 Transformer,该模型通过 引入 Self-Attention 机制,利用注意力机制来提高模型训练速度,使得模型可以并行化训 练,这也为后续大语言模型的升级迭代奠定了基础。2018 年,Google 发布大规模预训练 模型 BERT,可以进行双向预测,该模型进一步提升了自然语言理解及处理的精度。2022 年,Google 推出模型 PaLM,该模型在语言理解、逻辑推理、代码生成等方面均实现了 出色表现。2023 年以来,Google 先后推出 PaLM2 及 Gemini,模型能力进一步提升。


最新发布 Gemini 多模态模型,Google 彰显 AI 深厚底蕴。美国时间 2023 年 12 月 6 日,Google 正式发布该公司“规模最大、功能最强”的多模态大模型 Gemini,引发 市场高度关注。根据 Google 披露,Gemini 是基于 Transformer decoder 构建的原生多 模态模型,其性能较原有的单一模型更为全面,支持 32K 的 contex 长度。在大型语 言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 性能有 30 个都超过了当前最先进的结果,其中 Gemini Ultra 的 MMLU(大规模多任务语言理解) 得分为 90.0%,是第一个优于人类专家的模型,多个任务性能表现也都超过 GPT-4。 Google 未来会将 Gemini 融入到自身业务中,例如搜索、广告、Chrome 和 Duet AI 等。


为满足内外部业务需求,Google持续加强算力建设。除了在大模型领域引领行业发展外, Google 在算力设施方面也有持续的布局,以满足企业内外部的业务需求。对内,Google 将 AI 技术深度赋能公司各项业务,包括搜索、地图、广告等公司传统的优势业务,例如 公司推出了 SGE(Search Generative Experience)搜索引擎,利用 AI 改进用户搜索体验; 对外,Google 通过 Google Cloud 可以提供从 IaaS 到 PaaS 到 SaaS 的 AI 相关一系列服务, 其中 Compute Engine 是 Google Cloud 的计算托管服务,提供可添加到虚拟机实例的 GPU, 实现智算算力的对外供应。为了满足以上对内对外的算力需求,Google 一方面通过部署 成熟的 GPU 资源提供算力服务,如最新发布的 A3 超级计算机即可提供 Nvdia H100 GPU 算力;另一方面采取自研 TPU 的方式,满足自身如大模型训练/推理等相关的算力需求, 同时也可对外提供算力支持。


2、自研的 AI 芯片 TPU,支撑 Google AI 技术及业务发展的重要利器


TPU(张量处理器)为 Google 推出的用于机器学习的专用处理器。为提升处理器训练和 学习神经网络的计算能力,Google 用 15 个月的时间成功设计第一款张量处理器 TPU, 并于 2016 年正式发布。该处理器专用于机器学习,擅长大型矩阵运算,可以更高效地训 练模型,芯片内集成的 HBM 也有助于更大规模的模型训练,此外多个 TPU 可以组成 Pod 集群,极大地提升了神经网络工作负载的效率。TPU 芯片在不同的版本中会包含一个或 多个 TensorCore,每个 TensorCore 都由一个或多个矩阵乘法单元 (MXU)、一个向量处理 单元(VPU) 和一个向量存储器(VMEM)。其中 MXU 由收缩阵列中的 128×128 乘法累加 器组成,是供应算力的主要引擎,在每个周期能够执行 16K 乘法累加运算。




TPU 采用脉动阵列可加速大矩阵计算,更适合 AI 应用场景。TPU 为专用于神经网络工作负载的矩阵处理器,相较于 CPU 和 GPU,TPU 的功率更低、物理占用空间更小。TPU 采用了脉动阵列的方式以规避冯·诺依曼瓶颈。在传统的计算架构下由于需要对存储器 进行高频访问,系统的处理能力会极大地受限于其访存能力。而脉动阵列的本质就是在 访问存储器之前将更多的工作留存在处理单元内完成。在脉动阵列实现矩阵运算的过程 中(Y=WX+b),权重 W/像素 X 分别从上向下/从左至右地流入数组,每次执行乘法时各 个单元的乘数结果将被直接传递累加至此前的计算结果中,直至数据不再流入。在脉动 计算和数据传递的过程中 TPU 无需再访问内存。TPU 虽然牺牲了通用性,但基于对脉动 阵列的应用大幅提升了其计算吞吐量,显著优化了矩阵与卷积运算过程,而大模型的训 练和推理过程中,主要涉及的就是矩阵及卷积计算,因此 TPU 作为专用型芯片特别适用 于 AI 的应用场景中。


历经多代的持续更迭,最新发布的 TPUv5p 性能尤为强大。2016 年 Google 推出的 TPUv1 定位为推理芯片,为 AlphaGo 提供过重要的算力支撑,此后 Google 持续优化并迭代 TPU 芯片的整体性能。2017 年发布的 TPUv2 兼顾了推理和训练的功能,相较于 TPUv1,TPUv2 不再固定功能单元之间的缓冲区和激活管道,而是采用了向量存储器和向量单元的方式 实现功能。TPUv3 的改动较为温和,整体与 TPUv2 采用相同技术,但将 MXU 和 HBM 容量增加了两倍。2021 年发布的 TPUv4 则首次引入光交换机(OCS)以解决规模和可靠 性的障碍。2023 年 Google 先后推出 TPUv5e 及 TPUv5p 两款芯片。其中 TPU v5e,可在同样成本情况下,为大语言模型和生成式 AI 模型提供相较于 TPUv4 高达 2 倍的训练性 能和 2.5 倍的推理性能;TPUv5p 则是 Google 有史以来功能最强大、可扩展性最强、灵 活性最高的 AI 芯片,其训练大型 LLM 模型的速度为 TPUv4 的 2.8 倍,较 TPUv5e 有近 50%的提升。


TPU 已成为 Google 大模型训练的主力军。从 TPU 的使用情况来看,目前 Google 90%以 上的模型训练均在 TPU 上进行。根据 Norman P. Jouppi 等人的《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》 数据,Google 已经部署了数十台 TPUv4 超级计算机,其中有 8 台会通过 Google Cloud 供 外部使用。其中最新发布的多模态大模型 Gemini 主要就是通过 TPUv4 以及 TPUv5e 训 练的,而此前发布的 5400 亿参数语言模型 PaLM 则是用两个 TPUv4 pods 训练的。


(二)Google Cloud 支撑公司业绩向好,AI 领域投资有望进一步加强


AI 赋能下 Google 利润率及营收增速迎来拐点。根据 Google 公司公告数据,2022 年公司 收入为 2828 亿美元,同比+9.8%,对应 2019-2022 年 CAGR 达 20.4%。2023Q1-3 公司收 入为 2211 亿美元,同比+6.9%。2022Q4 以来公司营收加速增长的趋势主要系 AI 赋能下 公司服务类业务及云业务快速增长所致。同期公司利润率有所改善则主要因为:1)AI 的 应用降低了员工人数的增幅;2)AI 优化了工作流程,加强了运营效率;3)良好的费用 管控成效及其他原因。


Google Cloud 业务占比提升迅速,有望成为公司第二成长曲线。从收入结构来看,主要 包括广告业务、云业务及其他业务。其中广告业务主要包括搜索、网络及 You Tube 广告 业务,云业务则主要包括云平台、工作区及其他企业服务。近年来云业务受益云平台和 工作区业务的增长,收入占比呈快速上涨趋势,2022/2023Q1-3 公司云业务收入占比分别 为 9.3%/10.8%,同比分别+1.8/1.6pcts。其中云平台实现高增主要系客户人均营收有所增 加及基础设施和平台服务有所增长所致。根据公司 IR 公告,目前全球最大的 1000 家公 司中超过 60%的企业均为 Google Cloud 的客户。公司认为目前其在 AI 解决方案 Vertex AI、Duet 及 GCP、Workspace 的客户参与度上都具有较高的潜力,未来公司将继续积极 地保持对相关业务的投资,云业务有望成为公司的第二成长曲线。


Google 资本开支进入向上通道,有望进一步加强 AI 领域投资。2022 年,微软、Google、 亚马逊、苹果、Meta 资本开支同比分别+3%/28%/5%/13%/67%,Google 资本开支增速居 于行业前列。具体来看,Google 资本开支主要由服务器及网络设备投资组成,其中包括 AI、数据中心及配套建筑等项目的建设。2022/2023Q1-3 Google 资本开支分别为 315/212 亿美元,同比分别+27.8%/-11.1%。公司单 Q3 资本开支为 80.6 亿美元,同比/环比分别 +10.7%/+16.9%。Q3 资本开支环比显著回暖主要系 AI 计算需求大幅增长下服务器及数据 中心投资快速增长所致。根据公司 IR 公告,2023Q4 及 2024 公司资本开支将持续增长, 但整体增速将低于公司营收增速。在资本开支投向方面,公告显示 Google 将着力加强在 AI 领域的相关投资,未来公司资本开支有望实现高质量增长,预计到 2025 年,Google 在 AI 领域的总投入将达到 1000 亿美元。


二、自研基于 OCS 的光连接新方案,进一步提升 TPU 集群性能

需求推动 OCS 技术落地,深度赋能两大应用场景。OCS(Optical circuit switches),即光 电路交换机,是在光层动态地配置互连拓扑,类似于传统的交换机在电层交换的作用。 Google 在建设自己的数据中心过程中,由于在部署规模、灵活可用、模块化部署、安全 性、功耗和性能等方面有更高要求,传统电交换不满足相关的互联需求,因此引入了 OCS 形成新的解决方案。根据 Google 论文的数据,在搭建 TPUv4 的集群时,与传统 Infiniband 交换机方案相比,OCS 方案成本更低,功耗更低,部署更快,其中 OCS 和其他光学组件 的成本在系统总成本的占比低于 5%,功耗占比低于 3%。目前 OCS 在 Google 基础设施 中主要有 Jupiter 数据中心和 TPU 数据中心两大应用场景,其中后者为专注于 AI 算力的 数据中心。


(一)OCS 的应用场景 1:Jupiter 数据中心


Jupiter:Google 自研的第五代网络架构。早期 Google 的数据中心里使用的是一种非常 简易的网络集群架构,由 4 个商用路由器串联成环构成,512 台 ToR 交换机与每个商用 路由器都连接,每台 ToR 交换机与 40 台服务器相连,从而形成了一个 512×40,约 2 万 台服务器的集群。这种架构缺点很明显,可扩展性差,同时也不适用于大带宽应用场景。 由于其业务对带宽需求和数据中心分布式计算基础设施的规模要求较高,从 2005 年开 始,Google 即推出第一代自研网络架构 Firehose,通过定制数据中心网络硬件和软件去 实现所需规模大小的集群构建。随后历经了五代架构的演进后,逐步形成目前的 Jupiter 架构。


初代 Jupiter 一鸣惊人,最大可支持超过 3 万台服务器组网。在 2015 年论文《Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network》 中,可以看到 Jupiter 主要应用 CLOS 架构,由 ToR、Spine 块和 Aggregation 块三大部分 组成,其中最基础的交换单元都是商用交换芯片,单芯片可提供 16x40G 或者 64x10G 的 端口连接。4 个交换芯片是通过一台 Centauri 交换机来提供。


Spine 块:内部由 6 台 Centauri 交换机组成。逻辑上会再分成两层,上层由 4 台 Centauri 交换机的一半交换芯片组成,向下可提供 32x40G 端口;下层由 2 台完 整的 Centauri 交换机以及 4 台 Centauri 交换机剩下一半的交换芯片所组成,可向上行的上层 Spine 交换机和下行的 Aggregation 交换机分别提供 128x40G 端口;


Aggregation 块:内部由 8 个中间(Middle)块组成,每个中间块由 4 台 Centauri 交换机组成,每个中间块可向上行的上层 Spine 交换机提供 64x40G 端口和下行 的 ToR 交换机分别提供 256x10G 端口;


ToR 交换机:即 Centauri 交换机,由两组共 4 个交换芯片所组成,单个交换芯片 被配置为 48x10G 的下行与服务器连接和 8x2x10G 的上行与 8 个中间块交换机连 接。 在最大的配置环境中,Jupiter 可为服务器提供总共 1.3 Pbps 的网络带宽,即可支持超过 3 万台端口速率为 40Gbps 的服务器接入。




Jupiter 网络架构持续升级,引入 OCS 实现能力的跃升。在初代 Jupiter 的基础上,Google 对网络架构进行持续升级,通过引入 OCS(Optical Circuit Switches,光交换机)取代 Spine 层传统电交换机,将网络逻辑拓扑由 CLOS 架构演进到 Aggregation 块的直接光互联。由 于 OCS 采用光交换,对传输的速率无感,通过进一步引入 WDM(波分复用)和环形器 等技术可以实现在单根光纤上传输通道数的增加以及 Tx/RX 双路信号,提升单光纤的数 据传输速率,实现整个 Jupiter 网络互联带宽的数倍增长。基于以上的技术革新,Jupiter 已实现超过 6 Pbps 带宽容量,即相对于初代实现约 5 倍带宽提升的同时,电力消耗减少 了 41%,成本降低 30%。


(二)OCS 的应用场景 2:TPUv4 计算中心


Google 自研的低成本高性能 TPUv4 超级计算机集群。TPUv4 的超级计算机自 2020 年开 始在 Google 得到大规模应用,系统由 4096 个 TPUv4 芯片组成,共享 256 TiB 的 HBM 内存,总算力超过 1 ExaFLOP。网络架构中引入了 OCS 等 Jupiter 的核心技术。目前 Google 已经部署了数十台 TPU v4 超级计算机,供内部使用和外部通过 Google Cloud 使用。在 TPUv4 超级计算机中,最基础的物理算力单元是 TPU 芯片,系统的设备组成路径如下:


TPUv4 Package:即单芯片,主要由 1 个 ASIC+4 个 HBM 堆栈封装。


TPUv4 Tray:即单板卡,由 4 个 TPUv4 芯片组成,每个 TPUv4 芯片会出 6 条链 路,其中两条用于板内连接,四条用于板间连接。TPUv4 芯片在板卡内以 mesh 方式连接,在板卡间则以 3D Torus 连接。板块前面板分布有 4 个 PCIE 连接器和 16 个用于在板卡间核间互联(ICI,Inter-Core Interconnect)连接的 OSFP 接口, 即每个 TPUv4 芯片对应 1 个 PCIE 3x16 接口和 4 个支持 400G 双工的 OSFP 接 口。板卡采用液冷散热方式。


TPUv4 Rack:即单机柜,由 16 个 TPUv4 Tray 组成,共计 64 颗 TPUv4 芯片,因 此也称为 4×4×4 Cube。机柜内的两个 TPUv4 Tray 之间通过无源电缆(铜缆) 进行连接,形成 4×4×4 的 3D mesh 结构。每个 Rack 都需要和每个 OCS 交换机 连接,光模块用于 Rack 与 OCS 之间的连接,主要为单模光模块。


TPUv4 Supercomputer:也称为 Pod,由 64 个 TPUv4 Rack 组成,共计 64×64=4096 颗 TPUv4 芯片。每个 Rack 都需要和每个 OCS 交换机一一连接。


系统使用的光模块数量为 TPU 数量的 1.5 倍。一个 Rack 即为一个 4×4×4 的 Cube 立方 体,由 64 个 TPUv4 芯片组成。立方体内部的连接较为简单,节点主要通过铜缆进行连 接,组成 3D mesh 拓扑。立方体外部连接较复杂,共有三个维度 6 个面,每个面 16 个节 点,每个节点都需与 OCS 交换机连接,即每个面都会与一组 16 台 OCS 交换机连接。同 一个维度相对的两面(上下、左右、前后)都需要连接到同一组的 OCS 交换机连接,形 成 3D Torus 拓扑。光路系统的成本控制得很低,在整个 TPU v4 超级计算机成本中占 5% 以下。可以算出每台 TPUv4 超级计算机中,相关器件的用量:TPU 芯片数量:4096 个; OCS 交换机数量:XYZ 三个维度,每个维度 16 台,共 48 台; 光通路数量:每个 cube 需要 6(面)×16(节点)=96 个对外的光通路连接,因 此 64 个 cube 对应 64×96=6144 个光通路; 光模块数量:每个光通路需要 1 个光模块实现 Cube 侧的电光/光电转换,因此整 个系统需要 6144 个光模块。即光模块数量为 TPU 数量的 1.5 倍。 内部铜缆连接数量:Rack 内部的板卡间是通过铜缆连接,因此每个 Rack 内部 16 块 TPUv4 板卡之间需要 80 条铜缆连接,64 个 Cube 对应 64×80=5120 条铜缆。


三、深度剖析 Google OCS 解决方案:器件高度定制化

(一)基于 MEMS 器件的 OCS 成为新的光交换方案


OCS 是简单高效的光交换解决方案。业界对于光交换的技术研究比较早,此前包括压电 光开关、机械式光开关和 MEMS 系统等都有过一定的商业应用。Google 认为相对于电交 换,基于 MEMS 的光交换方案在对数据速率及波长不敏感、低功耗、低延迟等方面都具 备优势,因此选择了自研 OCS、光模块和光环形器三大主要器件,以构成一个低成本高 效益的大规模光交换系统。OCS 的结构较为简单,大体上可以分成两套子系统:


子系统 1:主要用于检测控制。由 2 个 850nm 激光发射模组、3 个 850nm 激光可 穿透的二向色镜、2 个 MEMS 反射镜阵列、2 个摄像模组所组成,主要的功能是 通过检测 850nm 激光在光交互通道中的传输状态,调整 MEMS 反射镜的相关参 数,从而实现路径上光信号损耗最小;


子系统 2:光交换的实际链路。由 2 个 136 通道的光纤准直器阵列、3 个二向色 镜、2 个 MEMS 反射镜阵列所组成,通过 MEMS 反射镜的调整控制,实现经过 两个光纤准直器所接入的光通路之间的互联互通。


MEMS 反射镜是 OCS 的核心组成器件。每个 MEMS 反射镜模组采用陶瓷封装,内部在 一块 MEMS 芯片上制作了 176 个微镜,每个镜子都可以单独可控,镜子表面镀金以最大 程度减少光路上的损耗,在最终完全校准后的系统中将有 136 个微镜用于实际光开关中。 每个微镜可通过四个梳状驱动进行调整,在 X 轴和 Y 轴两个自由度上旋转从而实现所需 的角度形成光通路。在这个 MEMS 的光交换核心之外,还有配置 272 个 LC/APC 连接器 的前面板、12 块高压驱动板、CPU 控制板、电源及风扇等,共同组成了一个完整的具备 136×136 双工端口的 OCS。据论文《Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale》数据,已有数万个 OCS 已经制造并被部署。




OCS 的创新性应用,有助于 MEMS 代工业务的拓展。结合 Google 相关论文的描述,我 们判断其 OCS 为自研产品,内部相关器件主要都为定制化开发和代工生产,如 MEMS 反 射镜模组。根据 Yole 的预测,MEMS 器件在电信领域的市场将由 2022 年的 2 亿美元增 长至 2028 年的 8 亿美元,CAGR 达到 28%,是各主要的 MEMS 应用市场中增长最快的 细分方向,产品具体包括光学 MEMS 和基于 MEMS 的振荡器。此外 MEMS 代工厂的商 业模式增长较快,MEMS 代工业务的总收入同比增长 6%,达到近 7.7 亿美元,一些 IDM 由于运营成本高昂而正在重新考虑其商业模式,并转向无晶圆厂模式,此外主要 MEMS 代工厂的客户数量也在激增,寻求新 MEMS 技术的合作,Google 的 OCS 业务正是其中 的重要场景。全球 MEMS 代工厂近几年的排名相对稳定,其中赛微电子的全资控股子公 司 silex 已连续数年保持排名第一。根据赛微电子在投资者问答平台披露的信息,公司向 客户提供的产品包括 OCS(Optical Circuit Switch,MEMS 型光开关),MEMS-OCS 是基 于 8 英寸 MEMS 工艺和设计技术制造,对于大模型所使用的 MEMS-OCS,公司瑞典工 厂历经 7 年研发已实现量产,公司北京工厂已进行约 2 年时间的工艺开发,希望后续能 够尽快推进风险试产及量产。


(二)适配 OCS 需求,定制化设计光模块


针对 OCS 的特定应用,Google 定制化最新光模块设计。Google 在论文《Lightwave Fabrics: At-Scale Optical Circuit Switching for Datacenter and Machine Learning Systems》中认为, 相较于数据中心网络连接,用于机器学习系统网络的光模块在高带宽、低延迟和同步特 性有更高的要求,与传统光模块有较大的差异,因此 Google 对光模块中的关键组件,如 激光器,环行器,跨阻放大器(TIA),光电探测器(PD),数字信号处理(DSP) ASIC 等进行 了重新设计或者加强集成,以实现更低成本,提高可制造性。目前 Google 在基于 OCS 的 TPUv4 Pod 中所使用的,是使用环形器+CWDM4/8 的最新一代 Bidi OSFP 封装光模块, 分别是支持双工 2×400G(CWDM4,20nm 波长间隔)和双工 800G(CWDM8,10nm 波 长间隔)的传输速率。


光模块国内企业具有较强竞争力,未来应用技术难度更高,客户粘性有望持续提升。根 据 Google 论文所披露的信息,目前 OCS 中主要使用的新一代光模块以 800G 端口速率为 主,并且在 2024-2025 年有望引入 1.6T 速率光模块。目前我国的光模块企业在全球范围 具有较强竞争力,而且在 800G/1.6T 等高端高速产品上具有领先布局。我们认为,Google应用于 OCS 的光模块在性能上要求较高,因此其在选择 800G 光模块的供应商时应该会 重点考虑供应商的综合实力,此外光模块具有较高的定制化要求,故也会优先选择有较 强研发能力和良好合作关系的光模块企业。在面向下一代更高速度,如 1.6T 的光模块, 由于速率提升后,技术、产品和稳定性的门槛更高,我们判断,已有 800G 光模块供应经 验的公司将具有先发卡位优势,延续强者恒强的趋势。


(三)光模块内创新性引入环形器,传输效率进一步提升


引入环形器,单光纤传输带宽再提升。此前环形器在电信系统中已有一定的应用,但数 量规模有限,未形成大批量的稳定生态系统。此外也考虑到在机器学习的应用场景中要 增加端口间的回波损耗和减少串扰等需要,Google 同样选择了对环形器的重新设计。使 用环形器可实现单根光纤的双工传输,主要作用是限制光的传输方向,如光由端口 1 输 入时,可以几乎无损失地从端口 2 输出,但不可从端口 3 输出;当光从端口 2 输入时, 可以几乎无损地从端口 3 输出,但不可从端口 1 输出。环形器的实现原理主要是基于光 的偏振特性。环形器主要由三个组件构成,分别是: PBS,偏振分束器,可实现 P 偏振光的透传,S 偏振光的反射;FR,法拉第旋光器,具有非互易性,正向传输和反向传输偏振态旋转方向一致 ; HWP,半波片,具有互易性,正向传输和反向传输偏振态旋转方向相反。


通过以上器件的叠加作用,可以限定光路的传输路径: 发射端到光纤:光由端口 1 进入环形器后,仅有 P 偏振态的光可以通过 PBS,经 过 FR 后偏振态旋转-45°,再经过 HWP 后偏振态旋转 45°,抵消了 FR 的旋转, 仍为 P 偏振态,最终通过 PBS 传输到光纤处; 光纤到接收端:光由光纤进入环形器后,经过 PBS 会分成 S 偏振态和 P 偏振态 两部分的光,其中 P 偏振态光会穿透 PBS,经过 HWP 和 FR 两次偏振态 45°旋 转后成为 S 偏振态的光,经过 PBS 两次反射后到达接收端口 3;S 偏振态光先经 过 PBS 两次发射后再经过 HWP 和 FR 两次偏振态 45°旋转后成为 P 偏振态的 光,到达接收端口 3。因此光信号经过环形器可以几乎无损地传输到接收端。


环形器供应链较为成熟,核心器件法拉第旋转片国产化程度较低。环形器此前比较多是 应用在掺铒光纤放大器中,并且一般用在光模块的外部,在 Google 的 OCS 应用场景中 则被集成到光模块内部,以获得更高的性能、更小尺寸和更低成本。传统独立形态的环 形器较为成熟,供应商较多,其中主要的供应商包括珠海光联(Oplink)、II-VI(高意)、 珠海三石园等,此外腾景科技可以提供可集成在光模块中的环形器产品。在环形器内部, 法拉第旋转片是关键器件之一。根据光隆科技披露信息,目前法拉第旋转片主要供应商 为日本的 GRANOPT 和美国的 II-VI,二者在法拉第旋转片市场的占有率合计超过 90%。 国内的福晶科技、长飞光纤、东田微和飞锐特等公司在法拉第旋转片晶体材料有布局, 部分公司产品已通过下游大客户验证,达到商业化标准。此外 PBS 偏振分束器近年国内 厂商不断突破关键技术,如福晶科技、腾景科技、莱择光电等均已具备量产能力。


(四)更高链路预算需求带来的光芯片与电芯片配套升级


配合 OCS 的应用环境,光模块内光电芯片需进行较大改变。由于 OCS 和环行器的使用, 链路需要提供更高的损耗预算,因此配套的光模块需要更少的光学元件和更低的封装损 耗,光模块内部设计需进行较大改动: 光芯片:Google 与业界合作开发了更快的光学元件(激光器/光电探测器),同时由 于更高的速率和更大的消光比要求,为了减轻双向通信带来的多光路干扰(MPI) 效应,光模块所使用的激光器芯片需从 DML 演进为外部调制激光器 EML; 电芯片:对于高速 IC/电气技术,Google 用 DSP 方案替换了原来基于模拟的时钟 数据恢复(CDR)方案。使用 DSP 虽然增加了功耗和延迟,但是方案降低了对光器 件和模拟电子元件的要求,通过算法降低双工链路固有的多路干扰,应用 FEC 支 持更高的链路预算,具有更高的鲁棒性和可扩展性。




EML 及 DSP 芯片均以海外供应商为主,国产化程度较低。根据源杰科技招股说明书, 2021 年 25G 光芯片的国产化率约 20%,但 25G 以上光芯片的国产化率仍较低约为 5%, 目前仍以海外光芯片厂商为主。800G 光模块中主要使用 100G PAM4 EML 激光器,海外 企业如 Lumemtum、II-VI 和三菱等公司较早实现了产品布局,国内企业如源杰科技、长 光华芯等正全力追赶,其中源杰科技在投资者平台披露其 100G PAM4 EML 产品特性可 以与海外产品对标,目前已在客户端测试;长光华芯披露其单波 100G EML (56GBd EML 通过 PAM4 调制)产品已量产。DSP 也主要以海外企业为主,其中已被 Marvell 收购的 Inphi 在 PAM4 DSP 领域占据较大市场份额,此外还有 Broadcom、Credo 和 Max Linear 等 企业也提供 PAM4 DSP 产品。其中 Credo(默升科技)成立于 2008 年,由 3 名海归华人 在中国上海创立,目前可提供 Dove 800D/800/801/802/850 等适用于不同场景的 800G PAM4 DSP。


(五)两层连接释放大量铜缆与光纤需求


Rack 内采用铜缆连接,Rack 外采用光纤连接。在 TPUv4 的系统设计中,每个 Rack 由 4x4x4 个 TPUv4 芯片组成,其中 4 个 TPUv4 组成一张板卡,同一个 Rack 内的板卡间通 过铜缆连接,Rack 和 OCS 之间使用光互联,需要使用光模块进行光电转换。TPUv4 的 核间互联 ICI 带宽为 2400 Gb/s,每个 TPUv4 对外有 6 条 ICI 链路,因此每条 ICI 链路端 口速率为 400Gb/s;TPUv5p 的 ICI 带宽为 4800 Gb/s,同样采用 3D Torus 拓扑,我们判断 其同样有 6 条 ICI 链路,因此每条 ICI 链路端口速率为 800Gb/s。结合此前的测算,每个 TPUv4 Pod 将释放 6144 条光缆和 5120 条铜缆的连接需求,官方未公开 TPUv5p Pod 的 具体硬件网络设计,但其芯片数量为 8960 个,超过 TPUv4 Pod 芯片数量的两倍,我们认 为 TPUv5p Pod 集群的光缆和铜缆的数量将大幅提升,同时接口速率也将达到 800 Gb/s。


四、AI 浪潮加速算力基础设施的演进,重点关注产业演变趋势带来的机遇

(一)趋势 1:自研低成本算力部署方案或成为新选择,有助于算力基础设施的快速建 设


自研芯片有助于低成本高性能算力部署,或成为产业发展新趋势。Google 的 TPUv4 相较 于 A100 性能更佳、成本更低、功耗更低,下游客户拥有更多高性价比选择。根据 Google 论文披露,对于类似大小的系统,TPUv4 的 BERT 训练速度比 A100 快 1.15 倍;对于 ResNet,TPUv4 表现为 A100 的 1.67 倍。而在部分测试中,A100 的功耗是 TPUv4 的 1.3- 1.9 倍。对于 TPUv4 和 A100 的使用成本,我们参考 Google Cloud 的相关报价进行对比, TPUv4 Pod 在 us-centra2 区域按需/1 年租/3 年租的单芯片每小时使用价格分别约为 3.22 美元、2.03 美元、1.45 美元,而 Google 提供向虚拟机 (VM) 实例挂接 GPU 的服务,其 中 A100 80G GPU 在 us-central1 区域的每小时价格约为 1.57 美元。综合以上数据,TPUv4 在性能表现和功耗成本上,相较于 A100 都具有一定的优势。这为下游客户提供了更多的 选择,有望助力原本受制于成本和供应因素而未完全释放的下游需求得到进一步加快加 大的释放,利好算力基础设施产业链。Google 的客户如 Anthropic、Hugging Face 和 AssemblyAI 等就已在广泛应用 TPU 所提供的算力服务。


降低核心芯片供应风险,AI 巨头积极布局自研芯片。目前 Nvidia 的 GPU 因算力军备竞 赛而需求大增,但其产能受限于 HBM、CoWos 封装等的供应,因此 H100 芯片存在大量 缺口,各 AI 巨头能分到的 GPU 数量有限,根据 GPU Utils 预测,H100 的短缺情况或将 持续至 2024 年。在此背景下 H100 的售价已达 3.5 万美元左右,对应毛利率水平已超过 90%。Google 通过自研 TPU,可降低算力核心芯片的供应风险,同时减少算力部署成本。 除 Google 以外,众多 AI 巨头公司也都在布局自研 AI 算力芯片,比如 Amazon 的 Trainium 和 Inferentia、微软的 Athena、META 的 MTIA 等。


(二)趋势 2:AI 巨头的算力需求景气度高,进一步推动高度定制化成为新商业模式


AI 巨头持续投入算力设施建设,或更倾向定制化算力解决方案。Google、微软两大 AI 巨 头近两个季度的 Capex 保持上升趋势,对 24 年的投入预期也较为乐观。目前 AI 产业中 前端包括 Gemini、GPT-5 等更多参数量更大的大模型持续在训练和发布,后端类似 Video Poet、Pika 等更多新颖 AI 应用持续推出,行业对于算力的需求仍在持续释放中。由于大 模型对算力的要求高,存在很多新技术难点,比如集群传输带宽的提升等。Google 等 AI 巨头本身就具有很强的技术实力,作为最终用户,对需求的理解也更为深入,配合着对 核心 AI 算力芯片的自研,对整体解决方案高度定制化开发或成为合理有效的解决方式。


与客户深度绑定的供应链企业,有望核心享受定制化带来的高价值红利。我们认为,当 定制化成为新商业模式时,将核心利好具备技术能力,同时与下游客户具有深厚合作关 系的供应企业。他们在产品形态持续升级过程中,有望紧跟客户研发步伐,率先进入客 户供应链,提前锁定客户需求,从而在产品代际更迭时率先享受红利。例如 Google 为适 配其 OCS 架构,对光模块进行了定制设计,增加了环形器等器件,因此应用于 OCS 中 的光模块的价值量较一般应用场景的光模块有较大提升,而且竞争门槛也有所提升,对 于早期已切入 Google 供应链的相关光模块企业以及上游的环形器等光学器件企业,受益 利好的确定性高,享受红利的周期长。


(三)趋势 3:网络架构升级将催生如 OCS 等新型设备的落地应用,带来产业格局变化


高性能计算领域的拓扑结构正被引入到智能算力中心。由传统的三层网络架构到适合大 规模扩展的 CLOS 架构,目前数据中心应用较多的 CLOS 架构包括 Fat-tree 三层无带宽 收敛架构和 Spine-Leaf 二层 Fabric 架构两种。随着 AI 产业的快速发展,目前大型 AI 模 型的参数数量级从几百亿跃升到几万亿级别,对计算能力和内存资源的需求也随之急剧 增长,业界普遍采用构建算力集群的方式去满足相应需求。如英伟达的 DGX 系列 AI 超 级计算机,服务器间的 InfiniBand 网络和服务器内 GPU 间的 NVLink 网络均是采用 Fattree 架构。但传统的 Fat-tree 架构在扩展性、跳转延迟和成本等方面存在瓶颈,因此如 Torus、Dragonfly 等高性能计算领域的拓扑结构也逐步被引入到智能算力中心,以提供大 规模、低延迟、高带宽的多算力芯片间互联,比如 Google 在 TPUv4 超级计算机中所应 用的 3D-Torus 拓扑。




拓扑的演进必然会带来使用设备的更新,或推动产业格局变革。拓扑演进将带来网络设 备的更新,OCS 就是最有代表性的案例。除了 Google 在 TPUv4 超级计算机中应用了 OCS 以外,Nvidia 研发高级副总裁兼首席科学家 Bill Dally 在 Hoti 2023 年的主旨演讲中也分 享了其在 Dragonfly 拓扑中应用 OCS 的案例。通过引入 OCS 技术,可以有效解决网络规 模扩展时重新布线的难点,提高网络的灵活性和可管理性,实现资源的灵活分配。同时 通过 OCS 的灵活切换,可实现冗余节点对故障节点的轻松替换,进一步提高系统的可靠 性。而 OCS 的供应链和传统电交换机的有较大差异,因此在网络拓扑演进促进 OCS 得 到更多应用的趋势下,产业格局或出现变革。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

光通信产业专题报告:新技术巡礼,深度拆解Google OCS及其产业链演进的投资机遇.pdf

烽火通信研究报告:光通信迎400G升级催化,AI打开长期成长空间.pdf

AIGC对光通信行业的影响.pdf

光通信网络行业专题报告:网络架构升级看算力产业需求确定性.pdf

华工科技分析报告:校企改革示范,光通信+新能源+激光齐头并进.pdf

无线光通信在6G中的应用展望.pdf

【华创证券】光通信产业系列报告之一:新技术巡礼:深度拆解Google OCS及其产业链演进的投资机遇.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00