【国信证券】国信通信·光模块专题:AI驱动网络变革,光摩尔定律加速.pdf

2024-03-15
73页
5MB

一、光模块:数据传输核心器件,受益AI需求爆发


光模块:光传输网络中的核心器件


光模块是用于设备与光纤之间光电转换的接口模块,主要用于实现光电信号的转换,是现代光传输网络中的必要器件。光模块主要由光学器件和辅料(外壳、插针、PCB与控制芯片)构成。光学器件(包括光芯片和光学元件组件)约占光模块成本70% 以上,辅料(外壳、插针、PCB与电路芯片等)占光模块总成本近30%。 光发射组件TOSA一般包含激光二极管、背光监测二极管、耦合部件、TEC以及热敏电阻等元件。一定速率的电信号经驱动芯片处理 后驱动激光器(LD)发射出相应速率的调制光信号,通过光功率自动控制电路,输出功率稳定的光信号。光接收组件ROSA一般包含 光电探测器、跨阻放大器、耦合部件等元件。一定速率的光信号输入模块后由光探测器转(PD/APD)换为电信号,经前置放大器 (TIA)放到后输出相应速率的电信号。


光模块:百亿美元市场规模,流量增长是推动核心


光通信的应用与信息流量爆发式增长密切相关。随着信息爆炸式增长,对通信质量、信息质量要求越来越高,光通信成为必然出路。 在目前电光网络的架构中,光模块是承担光电转换功能的核心器件,所以光模块的需求核心来自于数据流量的爆发式增长。


而当数据流量的核心增量从电信网络向数据中心、再向AI集群转移时,光模块不同阶段的主要增长驱动力也发生变化。根据 LightCounting数据,光器件光模块市场规模总体超过百亿美元,其中数通市场占比已达半数, 数通市场在移动互联网、云计算和AI的不断发展推动下,成为光器件光模块产业的主要下游场景。


电信市场:整体市场有望企稳回升


电信光模块全球市场规模在50-60亿美元左右。电信市场中,光模块主要包括固网接入(FTTx)、无线接入(无线前传和回传)以及 无源波分系统使用的CWDM/DWDM模块(包括DCI/城域网/骨干网)等场景。整体来看,电信市场需求在经历2019年5G迭代升级驱动后 达到相对高点,近年来需求有所放缓,整体市场规模约50-60亿美元。其中CWDM和DWDM模块占比最高,目前市场规模在40亿美元左 右;无线前传和无线回传模块市场规模约6亿美元;FTTx所使用的PON模块市场规模约10亿美元左右。


电信市场出货结构上,用于光纤接入的PON模块占比较大(近年出货超9000万块);波分复用(WDM)光模块的单价较高,近年出 货量在180万块左右。


数通市场:传统数据中心需求平稳,AI成为核心增长来源


数通光模块市场整体规模目前约50亿美元,AI成为后续核心增长来源。光模块是AI投资中网络端的重要环节,其与训练端GPU出货量 强相关,同时推理段流量需求爆发也有望带动需求增长。在算力投资持续背景下,AI成为光模块数通市场的核心增长力。据Coherent数 据,预计2023年以太网光模块整体市场规模接近45亿美元(考虑用于存储连接的FC光模块,数通市场规模接近50亿美元),其中800G、 1.6T及3.2T的高速数通光模块市场规模将从2023年的6亿美元以超过70%的CAGR增长至2028年的超过90亿美元,预计AI相关的800G以 上数通光模块市场规模将占所有数通光模块的近60%。


传统市场需求方面,根据LightConting数据,2023年整体市场有一定承压,有望于2024年修复,整体增长相对平缓。


价:长期下降趋势下,有阶段性上升


AI驱动下,光模块升级周期呈现加速特征,高速率光模块有望实现出货均价提升。光模块的价格在代际内产品价格年降,同时更高速 率升级驱动下,单位比特成本整体呈现下降趋势。但由于AI带动光模块速率升级的周期加速(详见第三章),高价值量的新产品加速 推出,短期内高速率光模块市场有望出现结构性的均价提升趋势。


驱动力:打破英伟达垄断,释放新需求


超以太网联盟成立,推动在AI领域与IB展开竞争。超以太网联盟(Ultra Ethernet Consortium,UEC)集结了AMD、Intel、博通、思科、 Arista、HPE、Meta、微软等云厂商,为AI领域提供基于以太网的开放、可互操作、高性能的全通信堆栈架构。UEC将推出新传输协议, 提供更灵活的传输,不需要无损网络,允许many-to-many人工智能工作负载所需的多路径和无序数据包传输等功能。 谷歌也自研了Falcon传输协议,支持RDMA和NVMe以及扩展的上层协议ULP,通过映射层它还兼任传统 IB 的Verbs。 当前AI网络主要采用IB协议,以太网协议的完善有望推动相关交换机厂商加速AI领域产品迭代,释放高速光模块新需求。


二、AI集群网络架构升级,光模块需求弹性大


数据中心网络架构和光模块数量息息相关


数据流量增长推动着网络架构升级。传统数据中心经历了从三层架构到叶脊架构的改变,主要是为了适配数据中心东西向流量的增长。 随着数据上云的进程持续加速,云计算数据中心规模持续扩大,而其中所采用的的虚拟化、超融合系统等应用推动数据中心东西向流 量大幅增长——根据思科此前的数据,2021年数据中心相关的流量中,数据中心内部的流量占比超过70%。 网络架构的变化导致光模块需求的变化。以传统三层架构到叶脊架构的转变为例,叶脊网络架构下,光模块数量提升最高可达到数十 倍。


GH200:网络结构及光模块需求测算


针对单个GH200集群:256张超级芯片GPU互联,采用2层fat-tree网络结构,其中两层网络均采用NVLink switch来完成搭建,第一 层(服务器和Level 1交换机)之间使用了96台交换机,Level 2使用了36个交换机。 NVLink switch的配置参数为:每台交换机拥有 32个端口,每个端口速率为800G。由于NVLink 4.0对应互联带宽双向聚合是900GB/s,单向为450GB/s,则256卡的集群中,接入 层总上行带宽为115200GB/s,考虑胖树架构以及800G光模块传输速率(100GB/s),800G光模块总需求为2304块。因此,GH200 集群内,GPU:光模块=1:9。 若考虑多个GH200互联,参考H100架构,3层网络架构下,GPU:800G光模块需求=1:2.5;2层网络架构下,GPU:800G光模块 =1:1.5。即多个GH200互联情况下,GPU:800G光模块上限=1:(9+2.5)=1:11.5。


Meta算力集群架构及应用


Meta此前发布“Research SuperCluster”项目用于训练LLaMA模型。RSC项目第二阶段,Meta总计部署2000台A100服务器, 包含16000张A100 GPU,集群共包含2000台交换机、48000条链路,对应三层CLOS网络架构,若采用全光网络,对应9.6万个 200G光模块,即A100:光模块=1:6,与前文测算的A100架构相同。


针对LLaMA3的训练,Meta使用了H100 GPU,包含IB和以太网集群,最大均可支持3.2万张GPU。针对以太网方案,根据Meta披 露的信息,其算力集群仍采用了有收敛的叶脊网络架构——每个机架2台服务器,接入1个TOR交换机(采用Wedge 400),一个 集群中有252台服务器;Cluster交换机采用Minipack2 OCP机架交换机,一个集群中共使用18个Cluster交换机,推算收敛比为 3.5:1;汇聚层交换机共18台(采用Arista 7800R3),收敛比为7:1。集群主要采用400G光模块,从集群架构来看,以太网方案仍 有待在协议层面进一步突破,推动无阻塞网络的构建,关注超以太网联盟等进展。


三、光摩尔定律加速,关注新材料、新封装


光摩尔定律:传输速率提升,单位bit的成本、功耗下降


数据流量爆发带来流量洪水压力下,带宽瓶颈不仅带来传输效率的问题,采用多个相对低速率链路捆绑的方式也会引入负载不均衡的 问题。因此数据流量增长要求光模块速率提升,同时也降低单位数据传输成本。更高的网络带宽能够在单位时间传输更多的数据量, 事实上能够降低单位bit的传输成本,即“光摩尔定律”——短距光模块每4年左右演进一代,比特成本下降一半、功耗下降一半。


英伟达致力于持续提升算力集群网络带宽


以英伟达为例,从A100、H100到B100,对应网卡接口速率从200G提升到800G;H100的卡间互联采用NVLink 4.0,双向带宽提升到 900GB/s。反面案例而言,英伟达面向中国市场推出的H800,由于卡间互联带宽降为400GB/s,大模型训练效率有明显降低。 展望后续,算力集群通信带宽持续迭代提升。IB网络层面,英伟达有望在B100、X100分别引入XDR 800G网卡和GDR 1.6T网卡。并且, 由于NVLink对比PCIe的大带宽优势,英伟达进一步探讨了NVLink从GPU互联拓展至服务器间互联的可能性——以H100和A100对比为例, 根据英伟达官网,若完全采用NVLink网络下(即将IB网络替换为NVLink),H100集群训练效率最大有9x的提升。 从光模块层面,算力集群中,光模块的带宽与网卡带宽密切相关,因此算力集群网络带宽的提升,要求光模块持续 向更高速率升级。


1.6T芯片:单通道200G芯片方案逐步成熟


从上游光电芯片维度来看,Lumentum预计200G EML方案将在2024年下半年开始出货;三菱于OFC 2023推出单波200G PAM4 CWDM4 EML芯片。2023年3月,Marvell发布了新一代Nova系列PAM4 DSP 芯片,采用 5nm 先进制程,可应用于1.6T的DR8/DR4.2/2xFR4/LR8 光模 块中;Semetch和博通于ECOC 2023展示200G单通道方案,采用博通112Gbd PAM4 DSP芯片。 从适配交换芯片情况来看,博通、思科、Nvidia都已经推出51.2T的交换芯片产品;Marvell Terlynx 10有望于2024年投产。


硅光:CPO光引擎最佳产品形态


如前文所述,CPO旨在将光学器件和ASIC芯片直接封装成片上系统,实现更高密度的光电集成和更高性能的光通信系统。硅光是 CPO 交换机中光引擎的最佳产品形态,也是未来硅光在数通最具潜力的应用场景——CPO技术是通过硅光子实现光学I/O,而采用硅光 技术可以轻松突破现有带宽的瓶颈。


四、竞争格局:国内厂商领先,龙头厂商核心受益AI


竞争壁垒:研发优势


光模块厂商需要持续研发投入从而抓住代际升级新品机遇,实现扩大并巩固市场份额。对下一代际产品的前瞻布局和研发、新技术的 储备和预研,都需要光模块厂商持续投入研发。头部厂商具备雄厚的研发实力和再投入意愿,在代际升级时往往取得最大的行业红利, 进一步巩固优势。


竞争壁垒:规模效应


由于光模块价格存在年降,先进入者具备规模效应优势。光模块价格受摩尔定律影响,光模块进入量产后,芯片价格和光模块价格快 速下降。例如100G光模块自2016年开始规模化出货,2017/2018/2019/2020年的价格年降幅分别为25%/39%/37%/23%;400G光模块 2020-2021年平均出货价格的年降幅度分别为31%/24%。 因此先进入者由于在规模上具备优势,能够更快降低供应链成本、提高生产良率。


竞争壁垒:客户黏性


应用不同厂商的光模块需要后期调试,单一客户仅会选择有限的供应商且不会频繁更换,形成较高的客户认证壁垒和客户黏性。光模 块的标准虽然很统一,但即便同款规格的光模块产品,不同的厂商在同样的设备中使用都会有不一样的性能表现,存在兼容性问题。因 此新供应商导入往往需要经历送样-验厂等多个环节、较长时间的审核(认证周期通常需要1年左右时间),终端客户相对来说会控制光 模块供应商数量(一般控制在3-4家),更换频次较低,形成客户黏性。


报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

光模块行业专题报告:AI驱动网络变革,光摩尔定律加速.pdf

中际旭创研究报告:高速率光模块头部厂商,受益于AI硬件产业趋势.pdf

中际旭创研究报告:精准把握契机,800G光模块成就增长新起点.pdf

半导体行业深度报告:AI大模型风起云涌,半导体与光模块长期受益.pdf

中际旭创研究报告:AI时代,全球高速光模块龙头乘风而起.pdf

光模块行业专题研究:AI时代算力需求激涌,高速率光模块伴潮而行.pdf

2024年AI营销应用解析报告.pdf

人工智能专题报告:人形机器人步入软件定义和AI驱动时代.pdf

AI搜索行业深度报告:大模型催生搜索行业变革机遇,产品百花齐放效果几何?.pdf

AIGC助推元宇宙进程加速,未来商业化场景探究.pdf

计算机行业专题报告:AI浪潮之下,液冷投资机会全梳理.pdf

【国信证券】国信通信·光模块专题:AI驱动网络变革,光摩尔定律加速.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00