1. 液冷工艺多样,冷板式有望率先推广
1.1 液冷有直接和间接两大类技术路线
液冷系统可以根据液体与硬件之间的接触方式分为直接液冷和间接液冷。直接液冷系统 中,液体与需要冷却的硬件组件进行接触,即冷却液体直接流经硬件表面,吸收并带走 硬件产生的热量。直接液冷系统的液体与热源之间没有中介,散热效率更高,热量能够 更直接地传递到液体中,主要用于对散热效率要求较高的场景,直接冷却包括浸没式和 喷淋式,其中浸没式根据冷却介质是否发生相变又可分为单相浸没式和相变浸没式。间 接液冷系统中,液体不直接与硬件接触,而是通过一个中介组件(散热器或冷却块)与 硬件接触,而冷却液体则与中介组件接触,通过其中介组件将热量带走,间接冷却一般 为冷板式液冷,根据冷却介质是否发生相变又可分为单相冷板式和两相冷板式。此外, 还存在混合液冷的散热方式,即核心部件用液冷板散热,非核心部件仍采用传统风冷, 或者将间接液冷与直接液冷混合成一套系统。
1.1.1 浸没式液冷
单相浸没式液冷:单相指的是液冷剂保持液态,类似于传统的液冷系统。设备或组件被 完全浸泡在液体冷却剂中,液体在吸收热量后被泵送到一个热交换器中,然后通过换热 器散发热量,将冷却剂重新送回设备进行循环。 两相浸没式液冷/相变浸没式液冷:两相/相变指的是液冷剂在循环中经历液态和气态两 个相态。当液冷剂接触到热的组件表面时,它会迅速蒸发成气体,吸收热量,随后这个 热蒸汽被移动到一个冷凝器或换热器中,重新变为液态,并被送回到设备以继续循环。 两相浸没式液冷系统通常能够提供更高的散热效率,蒸发相变可以在更短的时间内有效 地吸收大量的热量。
1.1.2 喷淋式液冷
喷淋式液冷通过将液体冷却剂以喷淋或喷射方式直接应用到电子设备表面,实现高效降 温。这一系统通过液冷剂吸收热量,促使其发生相变或升温,并通过喷嘴释放,从而在 设备周围形成冷却层,适用于高功率密度设备和要求精密散热的领域。喷淋式液冷具备 承重和占地少、用液冷低、冷却液价格低等优势,且安装简单,可根据设备的实际热量 分布进行定向冷却。
1.1.3 冷板式液冷
冷板式液冷的核心是通过一种特殊的冷板或冷却块来实现对电子设备的有效冷却。冷板 通常是一块直接安装在需要冷却的硬件组件(如 CPU 或 GPU)上的金属或其他高导热性 材料的板料,其内部含有通道可以让液体流动,通过冷板的管道,液体被泵送到需要冷 却的硬件上,并通过冷板与硬件间接接触,液体吸收硬件产生的热量,然后被泵送到一 个散热器或冷却单元,随后借助风扇或其他散热设备辅助散热。冷板式液冷也可以根据 冷却液在吸收或释放热量过程中,是保持液相或者发生气液相转化而分为单相冷板式和 两相冷板式,其中两相冷板式实际中应用较少。
1.1.4 混合液冷
混合液冷常见的混合冷却方法是风冷+冷板,也有技术难度较高的冷板+液冷混合模式。 风冷+冷板的混合模式指的是针对高功率和高热密度的元器件采用冷板,而对于低功率 元件则使用风冷方式,比如在 CPU/GPU 或内存模块上安装液冷冷板,同时采用风冷对其 他元器件进行散热;混合液冷也有采用冷板+浸没式的模式,如英伟达在 2023 年 5 月获 得美国能源部拨款的 COOLERCHIPS 液冷系统,就是将服务器部件全部浸泡在冷却液中, 同时高功率芯片上增加冷板加强冷却,该系统目前尚在研发中,在 2024 年会进行组件 测试。
1.1.5 液冷技术路线对比
实际应用中,冷板式液渗透率相对较高,两相浸没式液冷效果更好。不同液冷技术在散 热性能、维护难易度、建设成本度等方面呈现出较大差异,目前产业内应用较多的是不 需要改造服务器且运维成本较低的间接液冷-冷板式液冷:
散热性能:相变浸没式液冷表现最优,其通过冷却液体相变吸热,具有极高的汽化 潜热载热能力,因此在散热性能上领先。冷板式液冷次之,而单相浸没式液冷使用 的氟化液/油类冷却介质,由于介质比热容及流速有限,导致散热密度相对一般。
维护难易性:冷板式液冷相对简便,液冷不直接接触服务器,日常维护便捷。单相 浸没式液冷维护较为困难,需要通过专用机械吊臂,并且液体需要处理干净后进行 维护。相变浸没式液冷的维护难度较大,但在实际应用中通过刀片式服务器设计, 支持热插拔,可实现单个刀片独立下架维护,因此操作相对简便。
建设成本:冷板式液冷技术工艺成熟,不需改变现有服务器的形态,加工难度低, 冷却介质采用乙二醇水溶液,成本较低。浸没单相式液冷技术整体部署成本较高, 而浸没相变式液冷技术对系统密封性及控制要求高,设计成本偏高,综合成本最高。
1.2 冷板式液冷构件繁多
冷板式液冷系统通常由多个组件和部件构成。冷板式液冷技术设计相对较为简单且更容 易地适应各种设备和硬件配置,因此相对较早开始应用,产业链成熟度和技术稳定性方 面优势相较于浸没式液冷更为明显,一套典型冷板式液冷系统的主要构成部分包含了冷 板、热交换器、管路、泵、冷却液、控制系统等,越靠近热源的组成部分,技术和工艺 难度越高。 冷板式液冷系统中,液冷板属于服务器内部电子散热环节,定制化特征显著。冷板的设 计和材料选择直接影响到散热效果和整个系统的性能,通常情况下服务器厂商会自己设 计冷板并交付给液冷厂商生产制造,普遍呈现定制化特点。此外,快接头涉及密封和插 拔技术,也具备定制化特征。从数量上来看,冷板与芯片通常可以维持在一比一对应关 系,而快接头通常一个机柜具备进水口和出水口共两套(每套包含公母两个接头),因此 叠加数量综合考虑,冷板和快接头在数据中心中的成本占比较高。CDU 工艺难度较高, 单机器价值量较冷板和接头更高。
1.2.1 冷板:可定制化的核心组件
冷板是冷板式液冷系统的核心组件之一,可根据下游要求进行定制设计。冷板通常由高 导热性材料(如铜或铝)制成,以确保热量能够迅速传递到液冷剂,现阶段出于安全性和稳定性考虑,通常采用铜制冷板。冷板在外观上并非平面的一层“板状物”,而是更类 似块状物体,液冷冷板包括进液接头、出液接头、上盖板与底板,底板是散热模块,除 了设计各家会有不同以外,液冷冷板的外形、尺寸也可以要求定制。
冷板又可细分散热模块和固定模块,散热模块为核心组件。固定模块是扣压在散热模块 上方的铜/铝块,与散热模块初步构成密闭的盒状形态,需要具备相当的扣合力和抗压性。 从散热模块与固定模块的连接方式上,冷板可以分为两类: 分体式液冷冷板,即冷板的散热模块与固定模块通过螺钉或其他方式连接,可根据 需要进行拆卸和组装; 一体式液冷冷板,则是冷板的散热模块与固定模块不可拆卸与组装。根据密封形式 的不同,可以进一步分为密封圈组装式或焊接密封等。
冷板内部设计是影响散热效果的重要因素,定制化特性显著,不同厂商对冷板内部的设 计方案各有不同。冷板内部流道通常包含几类构造,如沟槽、扣合翅片、铲齿、折叠翅 片等,面对一些功耗较高的电子元件,流道还会被设计成更复杂的微通道结构,通过增 加接触面积,进一步提高冷板的散热性能。
1.2.2 CDU:冷却液“调度官”
CDU 担任液冷系统中的“调度官”角色,具备调节和分配能力。CDU 指的是冷量分配单 元,是液冷系统的一个关键组件,主要作用是隔离一次侧与二次侧回路,并在其内部提 供一次侧与二次侧的热交换能力,分发和调节冷却液以有效地冷却计算设备或其他热源: 冷却液分发:CDU 负责将冷却液分发到需要冷却的目标设备,例如服务器、计算机 集群或其他高功率密度设备; 温度调节:CDU 可以根据需要调整冷却液的温度,确保其在达到目标设备时具有适 当的温度,以最大限度地提高冷却效率; 流量控制:CDU 可以控制冷却液的流量,确保足够的冷却液能够流经设备,吸收热量,并将其带回冷源进行重新冷却; 压力调节:CDU 可以调节液冷系统中的压力,以确保液体在整个系统中保持稳定的 流动,并避免因为过高或过低的压力而引起故障; 监控和报警:CDU 通常配备有传感器,用于监测液体温度、流量、压力等参数,在 系统出现异常情况时,CDU 会触发报警以及时采取措施防止潜在问题。
CDU 在不同的应用场景中形态不同,主要分为机架式、机柜式和平台式。CDU 主要由 换热器/冷凝器、循环泵、过滤器、储液罐、传感器等组成,在实际应用中对 CDU 类型 的选取通常由数据中心/服务器的具体架构、设备密度以及对冷却需求的特定要求决定。
机架式 CDU:机架式 CDU 是设计成可安装在标准机架中的冷量分配单元,通常以 机架单元(U)为单位进行尺寸规格,便于安装在数据中心的机架中。机架式 CDU 一般适用于小型数据中心,或需要在有限空间内进行液冷部署的场景,设计较为紧 凑以更少占用机房空间。
机柜式 CDU:机柜式 CDU 是专门设计为安装在整个机柜内部的冷量分配单元,相 较机架式 CDU,机柜式 CDU 更注重对整个机柜内设备的全面冷却,可以更直接地 与机柜内的设备集成,提供更均匀和全面的冷却效果。机柜式 CDU 通常适用于需要 在每个机柜中提供独立冷却的情况,在高功率密度和热散热不均匀的情况下通常采 用机柜式 CDU。
平台式 CDU:平台式 CDU 通常被安装在冷通道或热通道的末端,被放置在机柜行 之间,是为了提供对整个机柜行的冷却支持,而不是仅限于单个机柜。平台式 CDU 通常通过地板上的冷却水管网连接到冷源,适用于需要在大型数据中心中提供区域 性或整体性冷却的场景。
数据中心的 CDU 最常用于一二次侧隔离,既可安装在机架内也可以外置。在机房液冷 系统中,CDU 将设施冷却系统(机房外散热侧,即二次侧)与机柜冷却系统(机房内散 热侧,即一次侧)分开,从而避免将 IT 冷却组件暴露在设施冷却系统中,进一步提高整 个散热系统的稳定性。CDU 可以安装于机架内,将液体分配到单个机架内的设备,也可 以安装在外部,呈现为一台较大的落地式整机形态,将液体分配到多个机架。
1.2.3 其他部件:部分可定制,匹配度是关键
快接头(可定制):液冷快速接头通常是指液冷循环系统中各器件之间的连接件,比如用 于连接 Manifold 与液冷冷板的进液接头与出液接头,能实现各器件之间的快速连接和断 开且无泄漏,提高效率,减少排液注液带来的不必要的工作量,可以在带压状态下自由 插拔,接口方式可以定制,一般分为手动插拔和盲插款。在二次侧流体回路中,快换接 头是保证服务器具备在线插拔维护性能的关键部件,技术难度主要在于防泄漏。快换接 头是公/母配置(插头/插座、插件/主体等)配对使用的,断开时,集成在快换接头内部 的用于密封流体流动的自封阀芯会断开流体的连接,以保护周围设备不受影响,因此每 次断开时冷却工质的泄漏量是设计快接头时的重点考量因素。 Manifold(集水分歧管):Manifold 作为液冷系统的集流器,承担将冷却液体引入机架 并传递到机架外侧的关键任务,直接影响整个液冷系统的热管理,确保冷却液体顺畅流 动,高效吸收和带走系统中产生的热量。Manifold 有均流分配、耐腐蚀性强、强度高等 特点,广泛应用于数据中心,根据使用需求,有单管和双排管之分,单管主要用于快插 连接,双排管用于盲插连接,两管路位置精度高,属于超精密制造。
管路:管路在液冷系统中扮演着连接各个组件的重要角色,负责将冷却液体从 Manifold 传输到快接头、电磁阀、单向阀以及液冷冷板等关键部件,管路的设计要求高度精确, 以确保冷却液体的稳定流动,避免泄漏,保持整个系统的运行效率。 电磁阀与单向阀:电磁阀和单向阀在流动控制方面发挥着关键作用,电磁阀通过开闭状态调节冷却液体的流量,实现对热量的精确控制,单向阀防止液体逆流,确保液体在设 定的方向上流动,防止漏液,维护系统的稳定性和安全性。 温度传感器:温度传感器实时检测进出水的温度,通过监测温度差,实现对电磁阀门的 精确控制,有助于调节进出水流量,确保冷却液体的温度和流量相匹配,提高系统的效 率。 控制系统:控制系统整合了各个组件,监测系统状态,自动调控冷却液体流量和温度, 直接关系到整个液冷系统的自动化程度和稳定性,确保系统在不同工作负载下始终保持 高效运行。
2. 两大边际变化推动液冷地位和空间双抬升
2.1 变化一:AIDC 驱动液冷从“可选”变为“必选”
主要矛盾:有限的风冷冷却功耗,与显著提升的 AI 服务器功耗。液冷概念与技术提出 已久,但实际应用中风冷依旧是最普及的冷却技术,其“不变”的本质是在传统 CPU 芯 片发展速度下,风冷尚能覆盖服务器功耗,液冷是“可选”的优化项;边际变化主要发 生在大模型兴起后的 AI 时代,并行计算网络下 GPU+CPU 等的异构架构成为主流,服务 器功耗大幅提升,风冷难以满足温控需求,液冷设备成为“必选”:
显著提升的 AI 服务器功耗:AI 服务器通常采用异构架构,使用大量高功率的 CPU、 GPU 芯片,整机功率随之大幅走高,如用于训练 ChatGPT 的英伟达 AI 服务器 (NVIDIA DGXA100 640GB)包含 8 颗 GPU(NVIDIA A100 80GB Tensor Core GPU) 和 2 颗 CPU 处理器(AMD Rome 7742);H100 服务器同样包含 8 颗 GPU 和 2 颗 CPU。单芯片来看,NVIDIA A100 SXM 芯片单卡功耗 400W,8 卡 AI 服务器单论 GPU 的热功耗就有 3.2kW ;H100 PCIe 5.0 芯片单卡功耗更是高达 700W,假设满 配 8 卡,单台 H100 服务器仅内部 GPU 所需的功耗就达到 5.6kW(且不论 CPU、存 储和额外的整机散热)。对比来看,传统通用服务器以 H3C 为例,R4900 G6 服务器 处理器最大功率为 385W。从几百瓦的 CPU 服务器到几千瓦的 GPU 异构服务器, 热功耗提升超数十倍。
有限的风冷冷却功耗:根据《冷绿色数据中心创新实践--冷板液冷系统设计参考书》, 采用风冷技术通常可以解决 12kW 以内的机柜制冷,但随着服务器单位功耗增大, 原先尺寸的普通服务器机柜可容纳的服务器功率往往超过 15kW,相对于现有的风 冷数据中心,这已经到了空气对流散热能力的天花板,以英伟达 H100 服务器为例, 单台服务器的系统功耗最高达 10.2KW,风冷却难以承载更多的服务器散热需求, 而液冷数据中心单机柜可支持 30kW 以上的散热能力,液冷方案从“可选”升级成 “必选”。
实操痛点:AI 智算中心,理论机柜密度与实际机柜密度差距较大,导致利用率低且 PUE 高。理论上按照计算,一台标准机柜的尺寸可以满配 7 台标准服务器,但实际上机柜服 务器的密度取决于机柜可提供的最大冷却功耗,传统机柜安装 AI 服务器存在严重的机柜 空缺:
理论机柜密度:数据中心常用的标准机柜的高度通常为 42U 或 45U(1U 等于 44.45mm),宽度通常为标准的 19 英寸,深度范围从 600mm 到 1200mm 不等;假设常用标准机柜是 19 英寸*42U 机柜,即宽 48.2 厘米*高 186.7 厘米,以英伟达 A100 服务器为例,高 26.4 厘米、宽 48.2 厘米、长(深度)89.7 厘米,单从机柜尺 寸角度出发,标准机柜最多可以放7个A100服务器,单机柜最大功率可达到45.5KW。
实际机柜密度:当前数据中心单机柜功率以 6kw、8kw 为主,假设放入 A100 服务 器,仅 GPU 功耗就有 3.2KW,考虑到冗余,理论上 8kw 的机柜最多只能摆放两台 A100 服务器,如果摆放 H100 服务器,仅能容纳 1 台,机柜其余部分均处于空余状 态,密度大幅下降,风墙使用效率极低且 PUE 较高。
2.2 变化二:政策端推动和产业端需求形成合力
从单一政策驱动,到政策+需求双驱动,液冷的推广和应用在政策端和产业应用端形成 合力。液冷技术由来已久,前期主要受到政策推动和数据中心 PUE 值(能效指标)等因 素的驱动,PUE 值成为了评估数据中心能效的关键标准,液冷系统相对于传统的空气冷 却系统在能效方面具有明显的优势,更加绿色节能,因此前期拉动液冷落地的主导因素 来自政策端。但伴随 AIGC 的进一步发展,大模型应用对算力需求不断攀升,摩尔定律 下算力呈指数级增长,AI 服务器和智算数据中心的热量功耗已经超过传统风冷散热的阙 值,液冷成为实际应用中的最佳选项,产业自身的需求逐渐成为主导因素,液冷技术不 仅仅是出于政策和能效考虑,更是源于数据中心自身对于更先进、高效散热方案的迫切 需求,政策端与产业端的合力形成,液冷实际落地进展有望加速。
2.2.1 政策驱动:PUE 管控日趋严格
数据中心耗电量庞大,PUE 管控成为刚需,政策端对 PUE 值的限定越来越严格。IDC 历 来就是能耗大户,包含大量的 IT 设备、供电与制冷设备,属于高耗能产业,为保持数据 中心的可持续发展,绿色低碳成为必选,PUE 值成为数据中心重要生存指标之一,阙值 不断缩小。2017 年工信部发布《关于加强“十三五”信息通信业节能减排工作的指导意 见》中指出,到 2020 年,数据中心 PUE 达到 1.4 以下;2019 年工信部、国管局和国家 能源局发布《关于加强绿色数据中心建设的指导意见》中指出,到 2022 年,PUE 达到 1.4 以下,改造使电能使用效率值不高于 1.8;2021 年工信部发布《新型数据中心三年 行动计划(2021-2023)》中指出,到 2021 年底,新建数据中心 PUE 降低到 1.35 以下, 到 2023 年底降低到 1.3 以下,严寒和寒冷地区力争降低到 1.25 以下;同年国家发改委等部门发布《贯彻落实碳达峰碳中和目标要求 推动数据中心和 5G 等新型基础设施绿色 高质量发展实施方案》中指出,到 2025 年,全国新建数据中心 PUE 降到 1.3 以下,国 家枢纽节点进一步降到 1.25 以下;2022 年工信部、发改委、财政部等六部门联合发布 《工业能效提升行动计划》中指出,到 2025 年,新建大型、超大型数据中心 PUE 优于 1.3;“东数西算”工程中,要求内蒙古、贵州、甘肃、宁夏 4 处枢纽设立的数据中心集 群 PUE 控制在 1.2 以内;京津冀、长三角、粤港澳大湾区、成渝 4 处枢纽设立的数据中 心集群 PUE 控制在 1.25 以内。
2.2.2 产业驱动:运营商、设备商、互联网共振
(1)运营商:发布白皮书进一步明确液冷推进节奏
三大运营商共同发布白皮书,规划 25 年液冷渗透率达 50%以上。2023 年 6 月 5 日, 在第 31 届中国国际信息通信展览会上,中国移动、中国电信、中国联通三家基础电信运 营企业,邀请液冷产业链的相关代表企业,共同面向业界发布《电信运营商液冷技术白皮书》。白皮书提出三年发展愿景,三大运营商将于 2023 年开展技术验证;2024 年开展 规模测试,新建数据中心项目 10%规模试点应用液冷技术;2025 年开展规模应用,50% 以上数据中心项目应用液冷技术。
三大运营商不断进行实践,助力液冷技术落地。中国移动积极开展液冷系统试点应用, 2019-2021 年分别在河北、山东、江苏、浙江组织液冷试点,并在 2023 年于呼和浩特智 算中心项目中启动液冷规模试点。中国电信在 5GBBU 站点及数据中心机房积极进行液 冷试点应用,2020 年就启用首个试验点(5GBBU 站点),上线 2 个液冷机柜,满负载率 条件下 PUE 值约 1.15;同时在高密度机房开展数据中心液冷试点,2018 年在广州即开 展冷板式液冷试点,PUE 值约 1.2,2023 年计划在京津冀、安徽、广州分别开展多个液 冷机柜项目,包含冷板式机柜和浸没式机柜。中国联通 2021 年在德清云数据基地投产 的冷板式液冷已稳定运行近两年,2021 年在在郑州开展 5GBBU 设备液冷喷淋测试,配 置一套 10kW 液冷机柜,PUE 值约为 1.16。三大运营商积极探索实践液冷技术,加速推 进液冷技术落地。
(2)设备商:新锐与传统服务器厂商纷纷布局液冷
主流 IT 设备厂商加大研发力度并加快液冷产品迭代速度。根据 IDC 数据显示,从厂商 销售额角度来看,2023 上半年在市场占比前三的液冷服务器厂商是浪潮信息、宁畅和超 聚变,占据了七成左右的市场份额。
浪潮信息:在 IPF 生态合作伙伴大会提出“All in 液冷”,并于 2022 年 6 月即发布全栈液冷产品,包括通用服务器 NF5280M6,高密度服务器 i24LM6,整机柜服务器 ORS3000S,AI 液冷服务器 NF5498LA5、NF5688LM6 等,NF5498LA5 是业界首款 液冷开放加速计算服务器,最高支持 500W,PUE 最低可至 1.1。
宁畅:新锐服务器厂商,已覆盖从冷板式液冷到浸没式液冷的多种形态,液冷技术 已应用于通用、高密度计算、人工智能等多种类型服务器,以高密度计算服务器为 例,从 B5000 LP 冷板式液冷到 B7000 浸没式液冷,宁畅服务器产品计算性能和散 热密度提升,整体 PUE 降至 1.05。根据 IDC 数据,宁畅的液冷服务器(高密度计 算)和液冷服务器(标准机)市占率分别达到 79%和 31.9%。
超聚变:全力投入液冷技术研究,在液冷服务器领域深耕 10 余年,推出 FusionPoD for AI 整机柜液冷服务器,可以进行高密智算部署,单机柜最大支持 8×8GPU 节点 服务器,提供 64 个 GPU;单机柜 pPUE 低至 1.06(含液冷门);100%原生液冷设 计。
其他传统服务器厂商:中兴通讯积极布局液冷,不断投入研发并推出新品,于 2022 年发布《中兴通讯液冷技术白皮书》推进液冷技术发展,于 2023 年 11 月世界互联 网大会展出通讯冷板式液冷方案,方案覆盖冷源、CDU、机柜、服务器、管路、水 处理和群控,可以实现液冷和风冷设备的统一控制管理;中科曙光、紫光股份、锐 捷网络也均具备液冷布局,近期伴随算力推动进一步加速落地。
(3)互联网企业:加速落地液冷
互联网巨头早已积极布局液冷技术,AIGC 发展有望拉动互联网企业液冷规模化布局加 速落地,进一步提高液冷市场空间。阿里巴巴从 2016 年就开始大规模部署液冷技术试 点,2018 年建成首个互联网液冷数据中心,2020 年投产首个 5A 级绿色液冷数据中心 (杭州云计算数据中心);百度在 2021 年发布《天蝎 4.0 液冷整机柜开放标准》,积极布 局冷板液冷方案;京东在 2021 年即采用整机柜液冷技术,并规模投入“双 11”机房中; 伴随液冷技术的进一步成熟、国家 PUE 指标趋严、AIGC 大模型发展对算力需求日益提 高,互联网大厂液冷规落地进程有望加速。
2.3 液冷空间破百亿
液冷市场空间构成可以按照增量和存量分为两大类别,增量空间是由算力新需求带来的, AI 大模型训练需要用到 GPU 为主的异构服务器,新增 AI 服务器需求旺盛且不断增长, 由此带来的液冷需求直线上升;存量空间是传统通用算力出于进一步降低 PUE 诉求,而 逐步提高液冷渗透率带来的,液冷市场空间可以从两类大方向分别进行预测,加总统计 后 2025 年市场空间有望超过 205 亿元。
2.3.1 增量市场:AI 大模型带来增量空间
由 AI 大模型训练和推理带来的液冷市场空间增长迅速,根据我们的预测,在 2025 年增 量市场空间有望破百亿。预测逻辑主要是,先以 AI 服务器出货量为大前提,假设液冷渗 透率,再细分以冷板式液冷和浸没式液冷的比例,假设出对应功耗的价格和服务器功率 需求,根据我们的测算,AI 服务器对应液冷的市场空间在 2025 年有望超 160 亿元。
服务器核心假设: 出货量:根据中商产业研究院的数据预测,2022/2023/2024 年中国 AI 服务器出货量分别为 28.4/35.4/42.1 万台,以此为基础预测 AI 服务器出货量。 功率:根据前文已知 AI 服务器功率较高,如英伟达 A100 单台服务器的系统功耗最 大可达到 6.5KW,实际应用中服务器型号不同对应的功率有所差异,以此为假设 AI 服务器功耗,且假设伴随代际更新,芯片能力的提高,服务器功耗每年有所提升。
液冷核心假设: 渗透率:截至目前,我国已有部分数据中心的液冷渗透率达到 50%以上,例如通讯 龙头企业中兴通讯建设的全液冷数据中心项目中,液冷散热的比例已经达到了 70%, 龙华新型工业智算中心整体液冷应用占比超过 50%,根据曙光数创判断,2023 年 液冷行业的市场渗透率仅为 5%-8%,因此我们推断 2023 年 AI 服务器液冷整体渗 透率远高于全行业。另外,据国家信息中心,未来 80%的场景都将基于人工智 能,所占据的算力资源将主要由智算中心承载,由前文可知,风冷难以满足 AI 服务器和智算数据中心的散热需求,所以随着智算中心建设加快,我们认为 AI 服务 器液冷需求有望迎来爆发式增长。基于以上判断,我们预测 2023-2025 年 AI 服务 器的液冷渗透率分别为 20%、50%、80%。 间接和直接液冷比例:根据 IDC,2023 年 H1 我国冷板式液冷服务器比例为 90%左 右,浸没式液冷渗透率为 10%。浸没式液冷技术具有更好的散热能力和节能效果, 但造价和成本均较间接液冷更高,因此我们预计浸没式液冷整体渗透率呈现缓慢提 升状态,预计 2025 年浸没式液冷比例上升至 20%。 液冷价格:根据《基于价值工程的数据中心液冷与风冷比较分析》,目前浸没式液冷 价格为 11818 元/kw;根据中国电子院数据,目前冷板式液冷价格为 3500-4000 元, 假设冷板式液冷价格为 4000 元,浸没式液冷价格为 12000 元,并假设每年下降 5% (此处指同款液冷板、未考虑芯片制成升级后的液冷价格也会相应提升)。
2.3.2 存量市场:液冷渗透率持续提高
存量市场液冷空间主要来自于渗透率的稳步提升,预测逻辑与增量市场类似,先以通用 服务器出货量为大前提,再假设液冷渗透率,不同之处在于通用服务器市场液冷渗透率 不及 AI 服务器市场。根据我们的测算,通用服务器对应液冷的市场空间在 2025 年有望 超 44 亿。
服务器核心假设:出货量:根据《中国算力发展指数白皮书(2023)》,2022 年中国通用服务器出货量 为 385 万台,假设未来始终保持 8%的增长率,推算整体服务器出货量。 功率:通用服务器功率较 AI 服务器低,通常每台在不超过千瓦,以此为基础进行假 设。
液冷核心假设: 渗透率:由于部分中小型数据中心采用风冷方案已经能够满足散热要求,因此我们 判断,通用服务器的液冷渗透率会低于 AI 服务器,并呈现稳步提升态势,以此为基 础进行假设。其余假设同 AI 服务器。
3. 液冷行业的当下与未来
3.1 液冷产业链参与者较多
液冷产业链:上游零部件类别众多,参与厂商较多。液冷产业链上中下游的参与者众多, 包括上游的产品零部件提供商、中游的液冷服务器提供商、下游的算力使用者。
上游:主要为产品零部件及液冷设备,包括快速接头、CDU、电磁阀、浸没液冷 TANK (仅浸没式液冷需要)、manifold、冷却液等组件或产品供应商,部分代表厂商有英 维克、3M、云酷、竞鼎、诺亚、广东合一、绿色云图等。
中游:主要为液冷服务器、芯片厂商以及液冷集成设施、模块与机柜等,部分代表 厂商有华为、中兴、浪潮、曙光、新华三、联想、超聚变、英特尔等。
下游:主要包括三家电信运营商,百度、阿里巴巴、腾讯、京东等互联网企业以及 信息化行业应用客户,主要在电信信息、互联网、政府、金融、交通和能源等信息 化应用,目前阿里巴巴以单相浸没式液冷为主要发展方向,其他用户以冷板式液冷 试点应用居多。
3.2 行业格局:初步形成“一强 N 多”格局
液冷产业格局:海外液冷技术优先发展,国内厂商积极探索实现突破。从历史来看,海 外厂商率先开启液冷散热技术研究,如数据中心液体冷却始于 1964 年 IBM 公司制造的 首款 System360 冷冻水冷却计算机,海外对液冷技术的应用也较多,美国能源部橡树岭 国家实验室的超级计算机 Frontier 搭载 CPU 和 GPU 的 9408 个刀片服务器通过全冷板液 冷的方式进行冷却散热。从全球格局来看,美国液冷公司在无论是浸没式还是冷板式工 艺路线上都发展较快。国内市场后发追赶,从产业来看,目前参与者众多,初步形成“一 强 N 多”的格局,英维克作为传统温控散热厂商实力较强,后起之秀如高澜股份、申菱 环境、飞荣达、同飞股份、曙光数创等纷纷参与其中,此外还不断有新进入者如强瑞技 术、川润技术、科创新源等,整体来看,除却龙头以外的其他进入者尚未形成稳态格局。
3.2.1 海外:浸没式发展优于冷板,美国公司占主导
浸没式液冷凭借其效率优越于冷板式液冷,在英特尔、微软、3M、Google、Meta、壳牌、 SK 集团等公司以及 AI、加密计算等应用推动下,得到快速发展,参与浸没式液冷市场的 主要欧美冷却公司包括 GRC(美国)、LiquidStack(美国)、Midas(美国)、Asperitas(荷 兰)、Submer(西班牙)、Vertiv(美国)、Iceotope(英国)等。参与数据中心冷板式液 冷市场的主要欧美冷却公司包括 CoolIT Systems(美国)、Asetek(丹麦)、Motivair(美 国)、Chilldyne(美国)、jetCool(美国)等。
3.2.2 国内:冷板优先发展,参与者众多
液冷涉及环节较多,“一强 N 多”格局初步形成。传统散热风冷是使用散热风扇和散热 片来降低计算机硬件温度的散热技术,参与集中的厂商较多,然而随着计算机性能的不 断提高,硬件产生的热量也相应增加,传统的风冷系统在散热效率、噪音和温度控制方 面难以适配高性能计算的需求,液冷技术成为了一种更刚需的散热解决方案,各温控企 业也纷纷布局液冷,液冷系统涉及的零部件较为复杂,包括冷板、快接头、泵、散热器、 管道、冷却液以及控制系统等,参与厂商部分在全链条都有布局,部分只在个别零部件 有布局,初步形成一强 N 多的格局。
散热厂商各自加快推进液冷落地,冷板式液冷率先推广的同时,积极部署浸没式液冷, 发布多个液冷白皮书,多次举办相关产业发布会,液冷发展提速,各参与厂商液冷技术 的进一步优化陆续取得进展:
英维克:散热龙头厂商,全链条布局液冷
公司成立于 2005 年,总部位于深圳,是技术领先的精密温控节能解决方案与产品提供 商,公司产品及服务涵盖数据中心温控、储能温控、液冷及电子散热、机柜空调、数据 中心集成,冷链温控、新能源及轨交空调,室内空气环境控制等领域,应用于数据中心、 储能电站、通信、智能电网,冷链运输、新能源车、轨道交通,智慧教育、家居、医疗 等行业。 2022 年公司已推出针对算力设备和数据中心的 Coolinside 液冷机柜及全链条液冷解决 方案,相关产品涉及冷源、管路连接、CDU 分配、快转接头、Manifold、冷板、液冷工 质等,“端到端、全链条”的平台化布局已成为公司在液冷业务领域的重要核心竞争优势。
曙光数创:持续创新数据中心技术
公司前身为中科曙光集团数据中心产品事业部,专注数据中心领域 20 余年。公司是一家 以高效冷却技术为核心竞争力的数据中心基础设施产品和全生命周期服务供应商,主营 业务有:浸没相变液冷数据中心基础设施产品、冷板液冷数据中心基础设施产品及模块 化数据中心基础设施产品的研究、开发、生产及销售,以及围绕上述产品提供系统集成 和技术服务。公司的数据中心基础设施产品也包括数据中心供配电系统、监控系统和服 务器配套的散热系统等。 截至 2023H1,曙光数创液冷数据中心累计建设规模超过 260MW,在中国液冷数据中心 基础设施市场部署规模位居第一,占比达 58.8%。截至 2023 年 6 月,已采用数创液冷 技术的数据中心已为社会累计减少碳排放十余万吨。
3.3 未来:解耦、性价比与三大竞争力
3.3.1 技术:解耦交付是核心技术路径
解耦交付是液冷与服务器解绑的关键,也是普及推广液冷的重要措施之一。当前冷板式 液冷主要有一体化与解耦交付两种交付模式,解耦交付将液冷机柜与服务器的强绑定关 系解锁,是促进行业良性竞争和优化发展的重要措施。
一体化交付是指液冷系统的各个组成部分被集成在一起,并作为一个整体交付给最 终用户,一体化交付情况下液冷整机柜是由厂商自定标准进行集成设计开发的,机 柜和服务器也包含其中,一体化交付可以减少安装和维护方面的工作,但形成了液 冷机柜与服务器厂商的强绑定关系。
解耦交付是液冷系统的各个组成部分被设计成相互独立的模块,尤其是液冷机柜与 液冷服务器之间无需绑定,可以由不同厂商生产交付,前提是各个零部件必须遵循 一定的接口设计规范和标准。解耦交付模式便于后续灵活部署,并且可以在不同厂 家之间进行适配,是推广液冷、降低成本、促进产业链成熟的关键技术交付模式。
3.3.2 成本:性价比反转是重要推广节点
总成本(TCO)是液冷技术规模应用的关键因素,高功耗下液冷技术性价比提升。液冷 技术已经发展多年,与传统风冷相比,具备节电、节水以及节约空间等多重优势,制约 液冷渗透率提高的主要制约点在于初期成本投入较高,随着 AI 大模型的逐渐发展,机柜 功率密度逐步提高,当单机柜功率密度超过界定值时,液冷技术的性价比将反超风冷, 迎来反转。根据施耐德《大型数据中心浸没式液冷与风冷投资成本分析》白皮书显示, 在一个总容量为 2 兆瓦的数据中心,当机架功率密度为 10kW 时,采用传统风冷与基于 IT 机箱的浸没式液冷相比,初始投资大致相等,但是当容量相同的数据中心单机架功率 密度升级为 20KW 时,液冷比传统风冷节约 10%的投资成本,当单机架功率密度升级为 40KW 时,液冷比传统风冷节约 14%的投资成本。根据此前的测算可知,AI 大模型单机 柜最高功率可达 45.5KW,机柜功率提高的前提下,液冷技术的性价比显著提升。
3.3.3 三大竞争力优选液冷企业
关键竞争力一:全链条能力,保障系统统一性、可靠性和稳定性。标准的液冷系统较为 复杂环节众多,包含一次侧二次侧,涉及冷板、CDU、快接头、manifold 等一系列环节, 具备从热源到冷源的设备散热全链条的技术能力可以首先保障液冷系统运行的统一性, 液冷系统部分核心产品具备定制化特征,全链条能力的液冷企业可以根据芯片厂商要求, 将定制化环节统一集成,在产品适配度上达到一定高度,系统统一性较高;第二可以保 障系统的可靠性,通过全部自行生产后组装的形式可以加大对各项关键零部件细节的把 控,减少漏液渗液等细节疏漏,提高系统整体可靠性;此外,拥有全链条能力意味着各 项产品均参与测试环节,对品质的把控更加升级,集合成系统后稳定性大幅提高。
冷板涉及的定制化环节:根据芯片的型号尺寸及内部结构设计流道,满足芯片插座 的载荷要求及芯片对散热器重量的要求;考虑配管位置、方向及液体进出口位置, 避免与电子信息设备产生结构干涉;满足芯片的扣合力技术要求,及安装/拆除后散 热器底面平面度的技术要求;考虑拆装冷板组件时可能产生的接口应力等问题。
快换接头涉及的定制化环节:公/母配置(插头/插座、插件/主体等)配对;手动插 拔快换接头连接的系统需要考虑人体工程学问题(如锁紧机构、连接力、空间限制) 以便维修;盲插设计需要考虑安装公差和不对中公差,设计可靠的盲插配合机构(如 导向装置)等。
关键竞争力二:实际应用经验是打开新渠道的敲门砖,工艺经验直接影响产品的稳定性。 液冷系统搭建到运维各环节的衔接配合、整体系统的运转,都需要在实际应用中不断积 累经验,从经验积累来看,申菱环境、高澜股份、英维克等核心散热厂家都在液冷侧布 局较早。
英维克:2019 年开始小试研发高效液冷散热系统,2020 年推出 XGlacier 液冷温控 系统,采用集成冷板式液冷技术、高效变频水泵、温水冷却技术达到高效制冷效果, 2021 年数据中心全链条液冷解决方案实现单柜 200kW 批量交付,2022 年公司已 推出针对算力设备和数据中心的 Coolinside 液冷机柜及全链条液冷解决方案,公司 的产品直接或通过系统集成商提供给数据中心业主、IDC 运营商、大型互联网公司, 包括腾讯、阿里巴巴、秦淮数据、万国数据、数据港、中国移动、中国电信、中国 联通等。
申菱环境:2015 年就取得自然冷却冷水装置和液冷装置结合的服务器散热系统专 利认证,截至 2022 年底,公司完成互联网数据中心大型液冷项目规模化的交付, 累计交付规模超过 500MW,公司为华为、阿里巴巴、腾讯、百度、移动、美团、电 信、快手、世纪互联、曙光、浪潮等行业内知名互联网企业提供高品质的空调系统 整体解决方案。
高澜股份:2018 年成为中兴通讯服务器液冷合格供应商,实现订单突破;公司研发 的板式液冷产品已在公司服务器上运行,公司的液冷 IDC 产品采用板式液冷和浸没 式液冷两种方式,2022 年公司数据中心液冷产品完成大批量供货,公司近几年陆续 与西门子、ABB 集团等国际大型输配电企业展开良好合作。
关键竞争力三:液冷技术研发至关重要,前期资金投入是必备基础。液冷技术的复杂性、 多样性和快速发展的特点,需要不断的研发投入来应对不断变化的技术和市场要求,促 进液冷技术能够适应新的硬件架构、并且实现降本增效:
复杂性和创新性:液冷技术涉及复杂的工程和物理学原理,因需要深厚的技术专业 知识,为了在这个领域取得突破,公司需要进行广泛而深入的研究,不断创新以解 决新的挑战。
硬件适应性:不同类型的电子设备和硬件架构需要不同类型的液冷解决方案,为了 在各种应用场景中实现最佳性能,液冷技术的研发需要考虑到硬件的不断变化和创 新。
性能优化:液冷技术的目标之一是提高散热效率,从而提高设备性能并延长其寿命, 需要对冷却系统、材料、流体动力学等方面进行详尽的研究和优化。
能效和环保要求:随着社会对能源效率和环保的关注增加,液冷技术的研发还需要 考虑如何在降低能耗的同时保持高效的散热效果,以符合环保标准。
市场竞争:液冷技术领域的竞争激烈,参与公司数量众多,需要不断投入研发资源 以保持竞争优势。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
通信行业专题:AI算力下的液冷,从“可选”到“必选”之路.pdf
通信行业专题报告:通感一体化网络,护航低空经济腾飞.pdf
国网信通研究报告:国网系信息通信服务商,电网数智化建设创造发展良机.pdf
通信行业专题报告:专网通信,“设备更新+万亿国债”,铁路电力最先受益.pdf
2024年全球互联网通信云(IM+RTC)行业研究报告.pdf
未来通信技术解读2024.pdf
人工智能行业专题研究:温控液冷,AI加速打开增量空间.pdf
通信行业深度报告:AI热浪起,液冷迎来黄金时代.pdf
全液冷冷板系统参考设计及验证白皮书.pdf
数据中心液冷行业专题报告:护航数据中心走向绿色低碳.pdf
威迈斯研究报告:车载电源龙头地位稳固,出海+液冷充电模块有望开辟新增长点.pdf