【开源证券】通信行业深度报告:AI热浪起,液冷迎来黄金时代.pdf

2024-03-11
50页
4MB

1、 AIGC 时代,液冷技术发展迎来风口


AIGC 高速发展,带动数据中心朝着高密度化发展。(1)主流计算芯片功耗不 断增加;(2)AI 集群对算力密度有一定要求,训练单元过于分散不利于作业开展, 减少组网距离亦可减少通信耗材开支。(3)单机柜功率不断上升,逼近风冷散热极 限,液冷散热效率优于风冷,或将成为更佳选择。 政策对 PUE 要求趋严,引导数据中心绿色化发展。我国数据中心耗电量与日俱 增,数据中心平均 PUE 水平偏高,液冷方案可使 PUE 降至 1.25 以下,充分满足政 策要求。 电信运营商提出解耦式交付,助推液冷标准化和规模化发展。据中国三大电信 运营商联合发布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:推进 液冷机柜与服务器解耦,引领形成统一标准,降低液冷全生命周期成本。服务器厂 商和生态链服务商积极布局液冷,促进液冷生态逐渐完善。


1.1、 人工智能发展与算力提升对散热有更高需求


人工智能迎来新变革,带来大量算力和机柜需求。2022 年底生成式 AI 大模型 ChatGPT 横空出世,掀起新的 AI 浪潮,海内外互联网巨头、科技企业及研究机构等 陆续投入到大模型研发当中,拉开“百模大战”的序幕,据浪潮信息发布的《2023-2024 年中国人工智能计算力发展评估报告》,截至 2023 年 10 月,中国累计发布两百余个 大模型,其中以科研院所和互联网企业为开发主力军。随着 AI 语言大模型的不断迭 代,模型数据量和参数规模呈现指数级增长,算力需求不断提升。以 GPT 模型为例, GPT-3 模型参数约为 1746 亿个,训练一次需要的总算力约为 3640 PF-days。据中国 信通院数据,2023 年推出的 GPT-4 参数数量可能扩大到 1.8 万亿个,是 GPT-3 的 10 倍,训练算力需求上升到 GPT-3 的 68 倍,在 2.5 万个 A100 上需要训练 90-100 天。无论是 AI 模型的训练还是推理均离不开算力资源的支持,AI 的高速发 展带来大量算力和数据中心机柜需求,拉动算力基础设施建设。 全球算力规模维持高增长。经中国信息通信研究院测算,在 FP32 精度下,2022 年全球计算设备算力总规模达到 906 EFlops 并持续维持较高增速,增速达到 47%, 其中基础算力规模为 440 EFlops,智能算力规模已超过基础算力规模,达到 451 EFlops,超算算力规模为 16 EFlops。中国信通院预计 2024-2028 年全球算力规模将 以超过 50%的速度增长,到 2025 年全球计算设备算力总规模将超过 3 ZFlops,至 2030 年将超过 20 ZFlops。


AI 形成强大推动力,液冷数据中心市场规模保持高速增长。AIGC 的高速发展 离不开高算力的支撑,随着计算芯片功耗持续上升带动服务器及整机柜功耗上升, 液冷散热有望成为首选。据科智咨询预计,2023 年中国液冷数据中心市场将同比增 长 53.2%,市场规模将增长至 154 亿元,预计 2022-2027 年,中国液冷数据中心市场 将以 59%的复合增长率持续蓬勃发展。预计到 2027 年,随着 AI 系列应用的规模化 落地以及液冷生态的日趋成熟,市场规模将突破千亿大关。


(1)在需求方面,随着 AI 大模型、云计算、5.5G 等新兴技术的不断发展,互 联网、政府和电信行业仍为液冷数据中心的需求主力军,金融、下游制造、医疗、 能源等行业也有望不断加大液冷相关投入。 (2)生态方面,液冷产业早期上下游协同性不高,无统一相关标准,难以形成 合力。液冷服务器是液冷生态链的核心价值环节,近期众多服务器厂商先后推出液 冷服务器,其他设备厂商相继推出液冷交换机、液冷光模块、液冷机柜等配套设备, 积极布局液冷产业,液冷生态链设备商及服务供应商紧密配合,共同推动液冷生态 进一步完善。三大电信运营商助推液冷解耦式交付,引领液冷接口标准化、规范化 发展,构筑开放生态,液冷渗透率有望进一步提升。 (3)成熟度方面,冷板液冷发展较早,相比浸没式和喷淋式、生态更完善、改 造成本更低、改造周期较短,冷板式液冷可作为传统风冷的平滑过渡,未来有望进 一步向浸没式液冷转变。随着众多成熟液冷项目持续落地,液冷发展走向良性循环。 (4)政策方面,IDC 耗电量与日俱增,数据中心绿色化发展成为共识,国家对 PUE 要求不断趋严,液冷相较风冷具有明显节能优势,减少冷却设备能耗,能有效 降低 PUE 至 1.25 以下。 (5)成本方面,虽然液冷总体 Capex 仍高于风冷,但从单位角度来看,单千 瓦散热 Capex 已在快速下降,成本拐点或将出现。据赛迪顾问发布的《2023 中国液 冷应用市场研究报告》,2022 年液冷数据中心 1kW 的散热成本为近 6500 元,相比 2022 年已经下降了 54.2%,预计 2023 年 1kW 的散热成本有望降至 5000 元左右,与 传统风冷的建设成本已基本持平。随着单位散热成本持续下降,液冷 TCO 优势逐渐 显著,或将加速老旧风冷数据中心改建为液冷数据中心,液冷渗透率持续增长。


1.1.1、 高算力需求下 IDC 机柜数量持续增长


算力需求支撑我国数据中心机架规模持续增长。服务器设备是提供算力资源的 主要载体,IDC(数据中心)则是给集中放置的 ICT 设备(服务器设备、网络设备、 存储设备)提供运行环境的场所(数据中心=IT+电力+制冷)。AIGC 的兴起引发数据 量和计算量快速增长,在一线城市数据中心资源日趋紧张的情况下, AI 的高算力需 求或将持续带动 IDC 的建设和机架数量的增长。据工信部、信通院数据,截至 2023 年 6 月底,我国在用数据中心机架规模达到 760 万架,同比增速达到 28.8%,2022 年底总机架规模达到 650 万架,2018-2022 年复合增速超过 30%。


1.1.2、 高算力需求下单机柜功耗持续增长


计算芯片功耗持续攀升,以满足高算力需求。后摩尔定律时代下,芯片制程技 术发展趋缓,计算芯片多以提高核心数量等方式提高算力,导致计算芯片如 CPU 和 GPU 的功耗不断攀升。AI 服务器作为人工智能发展的重要算力底座,CPU 和 GPU (或其他 ASIC 计算芯片)的整体功耗在 AI 服务器总功耗中占比达到 80%左右(。1) 在 CPU 方面,从 2017 年 Intel 第一代铂金至强处理器的发布到 2023 年 12 月第五代 处理器问世,核心数量从早期的 24 颗提升至最多 64 颗,同时 TDP(热设计功耗) 从 150W 提升至最高 385W,功耗相比第一代提升超 2 倍;(2)在 GPU 方面,用于 人工智能计算的GPU TDP从早期V100 Nvlink的300W提升至H100 SXM的700W, 未来功耗或将持续增长。


AI 服务器功率已达风冷散热瓶颈。(1)芯片单点冷却方面:芯片功率密度的不 断提升直接影响着芯片的散热和可靠性,逼近风冷散热上限 800W 左右,而液冷能 有效满足芯片的散热需求。(2)机柜整体冷却方面:芯片功率的增加也导致整机柜 功率的增长,采用传统风冷的数据中心通常可以解决 12kW 以内的机柜制冷。随着 服务器单位功耗增大,同样尺寸的普通服务器机柜可容纳的服务器功率往往超过 15kW,相对于现有的风冷数据中心,已逼近空气对流散热能力天花板。通用服务器 功率平均在 0.5KW 左右,对于 6KW、8KW 的高功率机柜可以放置 10 台服务器以上。 AI 服务器功率可达 6KW 以上,以 NVIDIA DGX A100 服务器为例,额定功率约为 4KW,单机最大功率约为 6.5KW。一个标准 42U 高度的机柜中,假设放置 5 个 5U 高度的 AI 服务器,则需要超过 20KW 的单机柜功率,此时已超过风冷的散热极限, 液冷或将成为最佳选择。


数据中心机柜功率持续上升,在 AI 驱动下功率增速或将加快。根据 Uptime Institute 发布的《2020 全球数据中心调查报告》 统计,2011 年数据中心平均单机架 功率仅为 2.4 kW/机架,2017 年上升到 5.6 kW/ 机架,至 2020 年已达 8.4 kW/机架。 AI 高速发展带来了高算力需求,芯片功耗随之不断增长,导致数据中心单机架的功 率升高,从 4.4 kW/机架逐渐升高至 8 kW/机架、25 kW/机架、30 kW/机架甚至更高。 单机柜功率持续上升,液冷散热更具优势。在传统风冷机房微模块中,随着通 用服务器或 GPU 服务器上架率的提升,单机柜功率密度不断增长,迫使列间空调数 量大增,导致机柜数量减少,并出现风冷制冷技术成本高、难度大的问题,性价比 较低。在单机柜功率上升趋势下,对于用于 AI 训练与推理的智算机柜,在不减少AI 服务器上架量的情况下,单机柜功率或已超过风冷的散热极限,液冷可支持高密 度散热,散热效率和成本等优势愈发显著。


1.2、 与传统风冷技术相比,液冷技术优势显著


液冷散热相比传统风冷散热效果更佳。传统风冷技术是成熟且应用最广泛的数 据中心散热技术,它以空气为介质进行散热,通过送入低温空气、经与电子器件进 行热交换后,将热量带走。相较于液冷散热,风冷技术存在密度低、散热能力差、 易形成局部热点、机械能耗大等缺陷。液冷方式则以液体为介质进行散热,由于液 体的体积比热容是空气的 1000-3500 倍,意味着冷却液可以吸收大量热量而不会显 著升高温度;液体的对流换热系数是空气的 10-40 倍,同等空间情况液冷的冷却能力 远高于空气;只需提供中温液体即可满足元器件散热需求,比空气冷却方式散热效 率更高,也更加节能。


与风冷技术相比,液冷技术主要具有以下优势: (1)低能耗: 液冷散热能显著降低制冷设备能耗。传统风冷数据中心建成后, 电费占运维总成本的 60%-70%。根据赛迪顾问统计数据显示,2019 年中国数据中心 主要设备能耗占比中,制冷耗电占比(约 43%)位居第二,仅次于 IT 设备自身能耗 占比(约 45%)。液冷技术相较传统风冷散热,取代大部分空调系统(压缩机)、风 扇等高能耗设备,可实现节能 20%-30%以上。以某液冷数据中心为例,液冷设备取 代空调设备,耗能占比仅为 9%,数据中心 PUE 降低至 1.2 以下。此外,除了制冷系 统自身能耗降低外,采用液冷散热技术有利于进一步降低芯片温度,芯片温度降低 带来更高的可靠性和更低的能耗,整机能耗预计可降低约 5%。 传热路径短:低温液体由 CDU(冷量分配单元)直接供给通讯设备; 换热效率高:液冷系统一次测和二次测之间通过换热器实现液液换热,一次测 和外部环境之间结合风液换热、液液换热、蒸发换热三种形式,具备更优的换热效 果; 制冷能效高:液冷技术可实现 40~55℃高温供液,无需压缩机冷水机组,采用 室外冷却塔,可实现全年自然冷却。


(2)高散热:液冷解决高功率芯片的散热问题,延长设备寿命,减少折旧成本。 风冷容易产生局部热点,芯片长时间高温运行,影响芯片性能和使用寿命。研究发 现,温度每升高 1 摄氏度电子器件的寿命缩短 5%,液冷可维持芯片低于临界温度 10℃ ~20℃稳定运行,释放芯片最大计算潜能,延长芯片使用寿命。液冷系统常用介质有 去离子水、醇基溶液、氟碳类工质、矿物油或硅油等多种类型;这些液体的载热能 力、导热能力和强化对流换热系数均远大于空气;因此,针对单芯片,液冷相比于 风冷具有更高的散热能力。 (3)低噪声:液冷散热技术利用泵驱动冷却介质在系统内循环流动并进行散热, 解决全部发热器件或关键高功率器件散热问题;能够降低冷却风机转速或者采用无 风机设计,从而具备较好的降噪效果,提升机房运维环境舒适性,解决噪声污染问 题。 (4)低 TCO:液冷初期 CAPEX 更高,但 OPEX 更低。液冷技术具有更佳的 节能效果,液冷数据中心 PUE 可降至 1.2 以下,每年可节省大量电费,能够大幅降 低数据中心运行成本。相比于传统风冷,液冷散热技术的应用虽然会增加一定的初期投资,但可通过降低运行成本回收投资。以规模为 10MW 的数据中心为例,比较 液冷方案(PUE1.15)和冷冻水方案(PUE1.35),预计 2.2 年左右可回收增加的基础 设施初投资。同时,由于液冷服务器对空间的要求降低,可实现高密度设计,提高 了数据中心内设备部署密度,降低数据中心 TCO。


(5)空间利用率高:使用液冷系统的数据中心相对于传统的风冷数据中心更加 简单,去掉了庞大的末端空调系统,提高了建筑利用率,在小空间里也能布置足够 规模的服务器,单机柜功率密度得到较大提升, 节省主机房空间 50%-80%;应用场 景更易布置,受地理位置影响较小,全国布局皆可实现低 PUE 运行。 (6)适应性强:冷板式液冷兼容性强,易配套开发,不需改变原有形态和设备 材料;空间利用率高,可维护性强,布置条件与普通机房相近,可直接与原制冷系 统(常规冷冻水系统)兼容适应。 (7)余热回收易实现:相比传统水温,使用液冷方案的水温更高,温差大,热 源品味和余热系统效率高。


1.3、 全国 IDC 能耗偏高,政策对 PUE 提出新要求


数据中心已成为新“能耗大户”。电力资源作为算力发挥作用的必备条件,消耗 程度也大幅增长。据中国能源报,2022 年全国数据中心耗电量达到 2700 亿千瓦时, 占全社会用电量约 3%。2021 年全国数据中心耗电量为 2166 亿千瓦时,为同期三峡 电站累计发电量 1036.49 亿千瓦时的两倍。随着互联网数字化进程加速推进,预计 到 2025 年,全国数据中心用电量占全社会用电量的比重将提升至 5%,到 2030 年 全国数据中心耗电量将接近 4000 亿千瓦时。数据中心减排迫在眉睫,优化算力平 均能源消耗,打造绿色算力,是未来算力发展的重点目标。 我国数据中心平均 PUE 仍处于较高水平,节能降耗空间较大。据中国信通院数 据,2022 年,我国在用数据中心平均 PUE 为 1.52,部分数据中心存在实际运行 PUE 值与设计 PUE 值相差大的问题;据数据中心绿色能源技术联盟统计,2021 年度全国 数据中心平均 PUE 为 1.49,仅有 41%的数据中心 PUE 在 1.4 以下,并且有相当数 量的数据中心 PUE 仍超过 1.8 甚至 2.0。我国数据中心 PUE 仍处于较高水平,液冷 方案能大幅降低 PUE,潜在应用空间较大。随着政策的逐步落地,下游行业对液冷 技术的认可度提升,液冷散热渗透率有望持续提升。


液冷散热技术可实现更低 PUE,助力数据中心绿色化发展。液冷散热相较于传 统风冷,取代大部分空调系统(压缩机)、风扇等高能耗设备,可实现节能 20%-30% 以上。


政策引导数据中心绿色低碳加速发展。2021 年 9 月,《中共中央国务院关于完整 准确全面贯彻新发展理念做好碳达峰碳中和工作的意见》要求推动互联网、大数据、 人工智能、第五代移动通信(5G)等新兴技术与绿色低碳产业深度融合,提升数据 中心、新型通信等信息化基础设施能效水平,助力实现碳达峰、碳中和目标。随着 我国碳达峰碳中和战略的深入推进,国家层面出台多项政策促进数据中心绿色化发 展,降低“老旧小散”数据中心能源消耗。在京津冀、长三角、粤港澳大湾区、成 渝、内蒙古、贵州、甘肃、宁夏等 8 地启动建设国家算力枢纽节点,并规划了 10 个 国家数据中心集群,标志着“东数西算”工程正式全面启动。 数据中心作为“新基建”重要内容,被赋予绿色低碳等新内涵。在落实节能降 碳方面,政策明确要求到 2023 年底新建大型及以上数据中心 PUE 降低到 1.3 以下; 到 2025 年,数据中心运行电能利用效率和可再生能源利用率明显提升,全国新建大 型、超大型数据中心平均电能利用效率降到 1.3 以下,国家枢纽节点进一步降到 1.25 以下,绿色低碳等级达到 4A 级以上,旨在有序推动以数据中心为代表的新型基础 设施绿色高质量发展,发挥其“一业带百业”作用,助力实现碳达峰碳中和目标。


1.4、 运营商助推液冷解耦式交付,生态逐渐完善


液冷技术规范化程度较低,产品形态各异。我国液冷技术起步稍晚于国外,起 步后发展迅速,目前与国外发展进程基本同步,但当前液冷生态尚不完善,机柜与 服务器深度耦合,各家服务器设备、冷却液、制冷管路、供配电等产品形态各异, 不同厂家产品接口不同,尚无统一接口标准,难以标准化、规模化推广应用。


电信运营商提出三年愿景,液冷发展按下“加速键”。据三大电信运营商联合发 布的《电信运营商液冷技术白皮书》,电信运营商提出三年愿景:构筑开放生态,降 低 PUE 与 TCO;发挥规模优势,大力拓展应用。冷板式液冷方面,推进形成拥有原 创技术、接口标准统一、产业生态完善、应用规模最大的发展态势;浸没式液冷方 面,推进形成标准统一化、产品国产化、实施工程化、推广规模化的发展格局。 《电信运营商液冷技术白皮书》提出:2023 年开展技术验证,充分验证液冷技 术性能,降低 PUE,储备规划、建设与维护等技术能力;2024 年开展规模测试,推 进液冷机柜与服务器解耦,促进竞争,推进产业生态成熟,降低全生命周期成本; 至 2025 年,开展规模应用,共同推进形成标准统一、生态完善、成本最优、规模应 用的高质量发展格局,电信行业力争成为液冷技术的引领者、产业链的领航者、推 广应用的领先者。运营商近年来对算力基础设施的资本开支增长较快,我们认为运 营商大力开展液冷技术验证,有望加速液冷数据中心的标准化,完善液冷生态。


冷板式液冷服务器可细分为三种交付方式,一体化交付相对成熟。液冷系统涉 及一次侧散热系统、二次侧散热系统、CDU、液冷机柜、液冷服务器的对接,根据 IT 设备侧与机房配套侧各自的交付内容,液冷服务器可分为三种交付模式:模式一:IT 侧仅交付液冷服务器;模式二:IT 侧交付“液冷服务器+液冷机柜”;模式三(一体 化交付):IT 侧交付“液冷服务器+液冷机柜+CDU+二次侧管路”,是当下应用案例 较为广泛、成熟度最好的交付模式。


解耦交付或将促进液冷行业走向标准化。(1)解耦交付是液冷机柜与液冷服务 器之间遵循用户统一制定的接口设计规范,机柜与服务器解耦,由不同厂商交付, 基础设施和服务器厂家需协调合作。(2)一体化交付是液冷整机柜(包括机柜和服 务器)由厂商自定标准进行集成设计开发,整机柜由同一厂商一体化交付。我们认 为解耦交付的推进使液冷技术更易于推广与灵活部署,最终降低液冷整体 TCO,加强液冷散热竞争力,利于提高液冷行业渗透率。


2、 冷板式液冷相对成熟,浸没式液冷长期发展空间大


液冷是以液体工质为传热介质,带走设备热量的散热方式。液冷散热系统通常 由至少两个相互隔离的循环回路组成,其中供给设备的内循环也称作二次侧,将热 量传递给外界环境的循环也叫一次侧,两个循环通过 CDU 内置的板换进行隔离和交 换热量。


单相冷板式液冷和单相浸没式液冷为主要形式。流体工质吸收热量的方式有两 种:一种是通过流体温度升高而吸收热量,此时流体形态始终保持液态,也称作单 相液冷;另一种是由液态转变为气态通过汽化潜热转移热量,此时流体的形态发生 了变化,也称作相变液冷(又称“双相液冷”或“两相液冷”)。根据冷却液与发热 源的接触方式,液冷技术可以分为非接触式液冷和接触式液冷两大类。非接触式液 冷可分为单相冷板式液冷和相变冷板式液冷,目前主要以单相冷板式液冷(下文提 及冷板式液冷均为单相冷板式液冷)为主,相变冷板式液冷尚不成熟;接触式液冷 的液体与发热源直接接触,包括单相浸没式液冷、相变浸没式液冷和喷淋式液冷三 种。


2.1、 冷板式液冷


2.1.1、 单相冷板式液冷


冷板式液冷属于非接触式液冷,是通过液冷板(通常为铜铝等导热金属构成的 封闭腔体)将发热器件的热量间接传递给封闭在循环管路中的冷却液体,通过冷却 液体将热量带走的一种散热形式。液体不与发热源直接接触,冷却液多采用去离子 水。 根据液冷板覆盖范围的不同可分为:(1)风液复合半液冷:仅处理器或处理器 和内存采用冷板液冷散热,其他部件采用风冷散热;(2)风液复合全液冷:处理器 和内存采用冷板液冷散热,其他部件采用风冷散热,热量由液冷门带走;(3)全冷 板液冷:处理器、内存、硬盘、标卡、PSU 以及节点内所有其他部件都采用冷板液 冷散热。目前冷板式液冷方案以风液复合半液冷和风液复合全液冷为主。


冷板式液冷系统主要由冷却塔、CDU、一次侧和二次侧液冷管路、冷却介质、 液冷机柜组成;其中液冷机柜内包含液冷板、设备内液冷管路、流体连接器(QDC)、 分液器(RCM)等。


单相冷板式液冷作为非接触式液冷的一种,行业内具有 10 年以上的研究积累, 在主流液冷方案中技术成熟度最高,对现有服务器芯片组件及附属部件改动量较小,过渡平缓,是解决大功耗设备部署、提升能效、降低制冷运行费用、降低 TCO 的 有效应用方案,具有以下技术特性和优势: (1)产品架构兼容性:可兼容现有硬件架构; (2)机房适应性:灵活适用于旧机房改造和新建机房; (3)可靠性:液体与设备不直接接触,可靠性更高; (4)维护性:易开展维护性设计,可实现在线维护方案; (5)节能:数据中心的 PUE 值可降至 1.2 以下; (6)噪声:风机转速大幅降低,噪声值可至 70dB 左右。


2.1.2、 相变冷板式液冷


相变冷板式液冷散热冷能力更强,目前尚不成熟。以氟化物作为工艺冷媒能有 效提升冷板液冷系统可靠性,由于部分氟化物沸点较低,在冷板内吸收热量后蒸发 汽化,大大提升冷板的散热能力,该技术可称为相变冷板式液冷。NVIDIA 和国内厂 商有使用制冷剂泵驱动的动力热管解决方案,这种方案可使散热器与机柜的相对位 置更加灵活,可支持多机柜的多联系统。但目前均处在预研阶段,商业化程度还相 对较低。此外,还有重力热管方案等相变冷板冷却技术。


2.2、 浸没式液冷


浸没式液冷属于接触式液冷,是以冷却液作为传热介质,将发热器件完全浸没 在冷却液中,发热器件与冷却液直接接触并进行热交换的制冷形式。浸没式液冷系 统室外侧包含冷却塔、一次侧管网、一次侧冷却液;室内侧包含 CDU、浸没腔体(Tank)、 IT 设备、二次侧管网和二次侧冷却液。其中,Tank 又由密闭箱体、液体分配单元、 温度传感器、液位传感器等组成,作为电子元件与液体进行热交换的场所,为电子 元器件提供安全可靠的冷却环境,是单相浸没式液冷系统的核心部件;室外冷却设 备可选择干冷器、开式冷却塔或闭式冷却塔等。使用过程中 IT 设备完全浸没在二次 侧冷却液中,因此二次侧循环冷却液需要采用不导电液体,如矿物油、硅油、氟化 液等。 浸没式液冷可完全去除散热风扇(噪音更低),换热能力强,节能效果好,数据 中心 PUE 值可降至 1.1 及以下,但一般需要改为箱式部署,部署密度一般低于冷 板式液冷,机房配套和服务器改造难度和成本也较大。


按照热交换过程中冷却液是否存在相态变化,可分为单相浸没液冷和两相浸没 液冷两类。


2.2.1、 单相浸没液冷


作为传热介质的二次侧冷却液在热量传递过程中仅发生温度变化,而不存在相 态转变,过程中完全依靠物质的显热变化传递热量。


在单相浸没液冷系统中,CDU 循环泵驱动二次侧低温冷却液由浸没腔体底部进 入,流经竖插在浸没腔体中的 IT 设备时带走发热器件热量;吸收热量升温后的二次 侧冷却液由浸没腔体顶部出口流回 CDU;通过 CDU 内部的板式换热器将吸收的热 量传递给一次侧冷却液;吸热升温后的一次侧冷却液通过外部冷却装置(如冷却塔) 将热量排放到大气环境中,完成整个制冷过程。 单相浸没式液冷相较冷板液冷,噪音更低,换热能力更强,由于不存在相变, 运维难度相对较低,应用案例较多。


2.2.2、 相变浸没液冷


作为传热介质的二次侧冷却液在热量传递过程中发生相态转变,依靠物质的潜 热变化传递热量。


相变浸没液冷系统传热路径与单相浸没液冷基本一致。主要差异在于二次侧冷 却液仅在浸没腔体内部循环,浸没腔体内顶部为气态区、底部为液态区:IT 设备完 全浸没在低沸点的液态冷却液中,液态冷却液吸收设备热量后发生沸腾,汽化产生 的高温气态冷却液因密度较小,会逐渐汇聚到浸没腔体顶部,与安装在顶部的冷凝 器发生换热后冷凝为低温液态冷却液,随后在重力作用下回流至腔体底部,实现对 IT 设备的散热。 相变浸没冷却系统中冷却介质与发热器件直接接触,减少了热阻;与非相变浸 没散热方式相比,相变换热效率高,潜热(相变)为显热(非相变)的数百倍。通 过表面处理技术强化沸腾传热,可大大提高传热效率,相变浸没式液冷技术可使 CPU 核温低于 65℃。可满足高发热原件对散热的极端需求,允许芯片超频运行,性能约 可提升 10-30%,相当于单位算力的拥有成本可降低 10-25%。


2.3、 喷淋式液冷


喷淋式液冷属于接触式液冷,是面向芯片级器件精准喷淋,通过重力或系统压 力直接将冷却液喷洒至发热器件或与之连接的导热元件上的液冷形式。喷淋式液冷 系统主要由冷却塔、CDU、一次侧和二次侧液冷管路、冷却介质和喷淋式液冷机柜 组成;其中喷淋式液冷机柜通常包含管路系统、布液系统、喷淋模块、回液系统等。


在喷淋式液冷系统中,冷量分配单元内冷却后的冷却液被泵通过管路输送至喷 淋机柜内部;冷却液进入机柜后直接通过分液器进入与服务器相对应的布液装置, 或将冷却液输送至进液箱以提供固定大小的重力势能以驱动冷却液通过布液装置进 行喷淋;冷却液通过 IT 设备中的发热器件或与之相连的导热材料进行喷淋制冷;被 加热后的冷却液将通过回液箱进行收集,并通过泵输送至冷量分配单元进行下一个 制冷循环。 喷淋式液冷也可完全去除散热风扇,换热能力强,相较于浸没式液冷节省冷却 液,数据中心 PUE 可降至 1.1 左右。喷淋式液冷需要对机柜和服务器机箱进行改 造,运维难度较大,目前应用案例较少,生态单一。


2.4、 液冷方式对比:冷板式液冷最成熟,浸没式液冷散热效果较好


现阶段冷板式液冷生态最为成熟,可靠性较高。对比目前主流的 4 种液冷方式 来看: (1)初始投资方面:相变浸没式≥单相浸没式>单相冷板式>喷淋式; (2)节能效果方面:相变浸没式>单相浸没式≥喷淋式>单相冷板式; (3)运维难度方面:喷淋式≥相变浸没式>单相浸没式>单相冷板式; (4)成熟度方面:单相冷板式>单相浸没式>相变浸没式>喷淋式。 综合考量初始投资成本、PUE 效果、可维护性以及产业成熟度等因素,单相冷 板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案。冷板 式液冷可以实现从传统风冷模式的平滑过渡,改造难度和成本较低,改造周期较短, 在数据中心领域应用更多,目前在液冷数据中心占据主流地位。我们认为,中短期 内对于老旧的存量IDC改造和新建的增量IDC,单相冷板式液冷方案是可行性较高、 成本相对较低且能满足政策 PUE 要求的主流方案,随着技术的不断成熟,长期来看, 浸没式液冷的优势将逐渐凸显。


3、 液冷产业链拆解


液冷产业生态涉及产业链上中下游,包括上游的一次侧和二次侧产品零部件提 供商、中游的液冷服务器、液冷交换机等 IT 设备提供商及下游的算力使用者和第三 方 IDC 服务商。上游主要为产品零部件及液冷设备,包括快速接头(QDC)、 CDU/CDM、电磁阀、浸没腔体(TANK)、分级液器(Manifold 或 RCM 或 VCDU)、 冷却液、软管、环路工艺冷媒供回歧管(LCM)等组件或产品供应商,代表厂商有 英维克、曙光数创、高澜股份、申菱环境、3M、云酷、诺亚、广东合一、绿色云图 等。中游主要为液冷服务器和液冷交换机等 IT 厂商、芯片厂商以及液冷集成设施、 模块与机柜等,代表厂商有华为、中兴、浪潮、曙光、新华三、联想、超聚变、锐 捷、英特尔等。下游主要为算力使用者和第三方 IDC 服务商,主要包括三大电信运 营商,互联网企业如百度、阿里巴巴、腾讯、京东等,第三方 IDC 服务商如 EQUINIX、 万国数据、宝信软件、光环新网、润泽科技、数据港、世纪互联等,以及分布在电 信信息、互联网、政府、金融、交通和能源等行业的信息化应用客户。


3.1、 一次侧


一次侧主要指在液冷系统内负责将被冷却设备元器件的发热量传递至冷却液分 配单元的冷却液循环系统。一次侧冷却环路由冷源和一侧回路等构成,一次侧主要 的冷源包括主要有三种:干冷器、冷却塔和制冷机组。干冷器和冷却塔属于自然冷 却系统;制冷机组属于机械制冷系统。(1)干冷器通常由管翅式风液换热器和风扇 组成,管内走封闭的水,热量靠和空气干球温度进行显热交换。(2)冷却塔靠蒸发 冷却,换热和空气湿球温度相关,利用水与空气流动接触后进行冷热交换产生蒸汽, 通过蒸汽挥发带走制冷空调中产生的余热,以降低水温。按水和空气的接触方式可 分为直接冷却塔(也称开式冷却塔)和间接冷却塔(也称闭式冷却塔)。(3)制冷机 组则是采用空调式的蒸发-压缩-冷凝循环,利用制冷剂和压缩机来制取冷量。


从能耗上看,制冷机组≥干冷器>冷却塔,但采用自然冷却系统均存在一定限制。 冷却塔由于需要消耗大量的水,适用于水源充足地区;干冷器则适用于温度较低、 较为缺水的区域。


3.2、 二次侧


3.2.1、 冷板式液冷基础设施


(一)冷板组件


冷板是带有内部流体通道并允许冷却工质流过的热交换器或散热器。冷板安装 在需要冷却却的电子元器件热表面上,将元器件产生的热量通过液体冷却工质传递 到冷量分配单元的板式热交换器。冷板组件由冷板、配套管路、扣具、转接头、快 速接头 QDC、漏液检测装置等主要零部件构成。 (1) 冷板:以工艺冷媒为媒介,实现热量交换的紧凑型换热部件,与设备配 套管路、QDC、CDU、RCM、LCM 等形成二次侧冷却环路,并最终将处理器热量 传递至室外,原材料主要为铜金属,部分扣具为铝制。 (2) 设备配套管路:用于冷板与冷板或液体快速接头之间互连流通的部件。 (3) 扣具:为冷板与处理器贴合提供锁紧力的专用锁紧零部件。 (4) 转接头:在冷板系统中起到连接作用的零部件。


(二)快速接头(QDC)


快速接头在服务器的冷板组件和 RCM,或 RCM 和 LCM 使用连接时使用,根 据上述安装位置的不同,分为自锁式快速接头和球阀式快速接头。快速接头应具备 可实现的快速连接和断开功能,方便带压连接和断开。当插头和插座连接时,流体 接通;当插头和插座断开时,弹簧自复位确保供液中断,工艺冷媒不会溢出到系统 外,以避免频繁工艺冷媒补液,污染甚至危及服务器。


(三)机柜工艺冷媒供回歧管(RCM)


机柜工艺冷媒供回歧管(RCM),又称分集液器(Manifold)或竖直分液单元 (VCDU),安装于液冷机柜内部,具备分液、集液和排气等功能的部件。RCM 一般 由排气阀、分支管路和主管路等组成。分支管路的软管端部安装有 QDC,实现与服 务器内冷板组件的连接。主管路接口位于上端或下端,是工艺冷媒供回液冷机柜的 接口,与 LCM 通过软管连接。


(四)环路工艺冷媒供回歧管(LCM)


环路工艺冷媒供回歧管(LCM)将从 CDU 冷却的工艺冷媒,通过分支软管输送 到 RCM 处,一般安装于数据中心地板底部,有时也会安装于机柜顶部,具备分液、 集液和排气等功能。LCM 一般由排气阀、分支管路、主管路、阀件等组成。


(五)冷量分配单元(CDU)


冷量分配单元(CDU)是一种用于在液体回路之间进行热交换的装置。CDU 将 进入服务器冷板组件的工艺冷媒与冷源侧的冷却水进行隔离,并将冷却后的工艺冷 媒分配给不同服务器的冷板的冷却设备。CDU 组件繁多,最主要的部件为液-液换热 的板式换热器,其次是用于工艺冷媒循环输送的二次侧泵,再次是配置工艺冷媒系 统(即二次侧)所需的调节、定压、补水、排气等装置,包括电动球阀、定压罐、 补水箱/袋、自动排气阀等,然后是冷却水系统(即一次侧)所需的装置,监测相关温度、压力、流量、漏液的传感器,以及相关的电器控制器件。


CDU 根据布置方式不同,分为机架式(分布式)CDU、柜式(集中式)CDU、 平台式(集中式)CDU,对于大型或超大型 IDC 一般采用柜式 CDU 或平台式 CDU, 以减少设备维护量。


(六)工艺冷媒


工艺冷媒又称“冷却介质”、“冷却液”等,是液冷系统中用于实现热量交换的 冷却液体,在二次侧循环系统中流动,冷板式液冷常用的工质按照是否水基进行划 分。选择时要主要考量与二次侧液冷模组中所有浸润材料的相容性、可靠性、危害 性、成本优劣等。冷板液冷的工艺冷媒主要选择纯水液和配方液,纯水液主要为去 离子水,配方液主要为乙二醇或丙二醇溶液。对于配方液,截至 2023 年 2 月,华为、 曙光以 25%乙二醇溶液为主,浪潮、新华三以 25%丙二醇溶液为主,此外,工艺冷 媒需要添加抑菌剂和缓释剂,不同工艺冷媒之间不可以混用。


3.2.2、 浸没式液冷基础设施


(一)浸没腔体(TANK)


浸没腔体(TANK)是承载数据中心电子信息设备和冷却液,实现电子信息设备 冷却的容器。浸没式液冷 TANK 作用类比于风冷系统的机柜。冷却液通常采用下供 上回的方式将冷却液输送至 TANK 内以带走服务器产生的热量。Tank 底部宜采用多 孔板加填充块设计,需要注意保证进入各节点的液体流量均匀。填充块固定在 Tank 两侧和下部,形成 Tank 内液体流道,同时起到减少液体使用量的作用。


(二)液冷换热模块(CDM)


液冷换热模块简称“CDM”,用于二次侧气态冷却介质与一次侧冷源进行换热, 是对液冷 IT 设备提供冷量分配与智能管理的模块。CDM 是为解决相变浸没式液冷 服务器散热问题所推出的一体化散热模块,具有超低能耗、高制冷效率、低噪声、 高可靠性等特点。


(三)浸没式液冷冷却介质


浸没式液冷冷却介质与服务器直接接触,应具有良好的化学稳定性和良好的热 稳定性,同时应具备良好的绝缘性和电气特性,材料兼容性优,且安全、环保、无 毒。单相浸没式液冷冷却介质还应具备较高的沸点;相变浸没式液冷冷却介质还应 具备较低的沸点和较高的汽化潜热。碳氟化合物是满足以上条件的最佳材料,也是 单相和相变浸没式液冷核心技术之一。


3.3、 液冷 IT 设备


(一)机架式冷板液冷服务器


机架式液冷服务器在传统整机结构下将 CPU、GPU、DIMM、VR 等发热量较 大的部件散热从风冷升级到液冷,其余部位仍采用传统风冷散热,以提高服务器的 散热性能,并且降低风扇能耗及噪声,服务器整体改动较小,IT 设备维护较为简单。 从布局上与传统风冷架构类似,可做到根据散热需求模块化更好的方式,通过液冷 进一步提高热交换能力。目前,华为、曙光、中兴、新华三、浪潮、超聚变等服务 器厂商均已推出冷板式液冷服务器,生态较为成熟,支持厂家较多,现阶段冷板式 液冷无法解决服务器全部散热等问题,后续有望向风液融合或全液冷方向演进。 (1)对于传统 CPU 服务器,两个 CPU 冷板通过波纹管串联的方式连接在一起, 并分别安装在两颗 CPU 上,液体从 CPU1 冷板进入流经两个冷板内部散热结构从 CPU0 冷板流出,并带走两 CPU 的热量,达到散热效果。


(2)对于 AI 服务器,CPU 和 GPU 均采用冷板式液冷方案进行散热。两个 CPU 冷板通过波纹管串联的方式连接,并与 8 个 GPU 冷板并联,冷却液由总进液口进入 分液器,被分液器均匀分至 CPU 和 GPU 中,均匀流至每块冷板内部流道中,通过 导热和对流吸收 CPU 和 GPU 产生的热量,最后通过分液器和总出液口流至系统外。


(二)浸没式液冷服务器


浸没式液冷服务器完全浸没在冷却液中,不能有风扇等转动部件,包括系统风 扇以及 PSU 等部件上的风扇;还需重点考虑部件兼容性,确认部件与冷却液的兼容 情况;散热的设计也需要做出相应的优化,如将导风罩替换为填充块,机箱开孔优化等。浸没式液冷服务器主要存在冷却液物性要求高、服务器定制化程度高、与现 有基础设施体系不兼容等问题,生态还需进一步完善。其中,相变式液冷可满足高 发热原件对散热的极端需求,允许芯片超频运行,性能约可提升 10-30%,目前多应 用于超算领域。


(三)液冷交换机


交换机是实现服务器之间高速互联必不可少的设备之一。在风液混合冷板式液 冷服务器组网中,可配套冷板式液冷交换机或仍采用传统风冷式交换机;在浸没式 液冷服务器组网中,部分或全部交换机需配套浸没式液冷交换机,并搭配使用液冷 电源和液冷光模块。


4、 行业参与者众多,“技术、客户认证、运维”构成核心竞争 壁垒


4.1、液冷产业或将迎来高速增长期,众多公司积极布局


液冷产业链中公司包括 IT 设备商、温控设备商、互联网厂商等。据赛迪顾问发 布的《2023 中国液冷应用市场研究报告》,2022 年,我国液冷数据中心市场规模已 达 68.2 亿元,年均增速保持 25%,2023 年上半年市场规模已达 50.2 亿元,正进入快 速发展关键期。


液冷发展进入快车道,液冷服务器市场规模高速增长。据赛迪顾问发布的《2023 中国液冷应用市场研究报告》显示,2020-2022 年冷板路线保持 90%以上的市占率, 浸没和喷淋的市占率之和约为 10%。据 IDC 数据显示,2022 年中国服务器市场规模 为 273.4 亿美元,同比增长 9.1%;2022 年中国液冷服务器市场规模为 10.1 亿美元, 同比增长 189.9%,据我们测算液冷服务器渗透率约为 3.7%;2023 年上半年中国液 冷服务器市场规模达到 6.6 亿美元,同比增长 283.3%,IDC 预计 2023 年全年将达到 15.1 亿美元,实现高速增长,2022-2027 年中国液冷服务器市场年复合增长率将达到 54.7%,2027 年市场规模将达到 89 亿美元,液冷渗透率持续提升。 液冷服务器目前仍以冷板式为主,互联网行业为需求主力军。据 IDC 数据,2023 年上半年冷板式服务器出货量占 90%,当期液冷以冷板方案为主,主要是出于传统 数据中心对原有基础设施的改造成本和难度的考虑,以及当前冷板式方案成熟度较 高,商用基础较好。下游需求方面,2023 上半年互联网厂商是需求主力军,液冷服 务器上半年出货量中 54%是由互联网企业购置,并有望在未来几年中持续加大液冷 服务器的采购力度;政府、公共事业和教育占据次要市场份额;电信、金融、服务 等行业的部署量也有稳健提升。随着人工智能的高速发展和相互竞争,CPU+GPU 的 异构计算服务器由于散热需求强烈,也开始逐步采用液冷制冷方式,我们认为 AIGC 或将加速液冷数据中心的渗透率。从服务器厂商份额来看,2023 年上半年浪潮信息 市占率第一,其次为宁畅和超聚变,CR3 约为 70%左右。


我们认为,对于服务器内部,液冷系统部署关键是液冷零部件(冷板式:液冷 板、管路、QDC 等;浸没式:冷却液等)与服务器的适配,IT 设备商和温控设备商 需要进行产品适配及耦合,具有紧密合作关系;对于服务器外部,部分服务器厂商 联合温控设备商提供一体化解决方案参与液冷基础设施建设,与其他温控设备商有 一定竞争关系。


海外液冷服务器公司主要有戴尔、惠普、思科、超微电脑等,浸没式液冷市场 的主要公司有 GRC、LiquidStack、Midas 等;冷板式液冷市场主要公司有 CoolIT Systems、Asetek、Motivair 等,目前主要厂商在液冷技术方面还处于实验或初步应 用阶段,市场并未形成绝对龙头。 对于国内液冷服务器市场,浪潮、宁畅和超聚变市场份额暂时领先,紫光股份、 中兴通讯也相继入局发布液冷服务器,据 IDC 数据,2023 年上半年浪潮信息液冷服 务器市占率第一,其次为宁畅和超聚变。此外,紫光股份、锐捷网络也推出了配套 的液冷交换机产品。


4.2、行业壁垒:技术、客户认证、运维等综合能力的竞争


我们认为液冷行业存在较高技术壁垒、客户认证壁垒和运维壁垒。


(1)技术壁垒:液冷数据中心基础设施产品的研发和制造涉及冷却技术、制冷 系统设计及仿真技术、温湿度解耦控制算法等多项技术领域,覆盖多学科和多领域。 液冷设备配套商除了提供液冷配套产品外,还需要掌握液体压力、流量、温度等控 制算法,一旦设备出现液体冷却介质泄漏等情况,会对 IT 设备和环境带来安全风险, 并造成客户经济损失,因此我们认为液冷数据中心基础设施行业具有较高的技术门 槛。


(2)客户认证壁垒:出于安全性、可靠性、稳定性等考虑,企业客户在选择液 冷数据中心基础设施供应商时通常需要进行严格的资质验证。通常而言,企业客户, 尤其是金融、医药等机构出于数据安全、保密等要求,对液冷数据中心基础设施解 决方案供应商挑选非常严格,需要对企业产品质量水平、项目经验、技术研发能力 进行综合考察,因此认证过程复杂且耗时较长。此外,由于更换液冷数据中心基础 设施供应商会对产品的稳定性形成风险,客户在与液冷数据中心基础设施供应商建 立生产配套关系后,倾向于维持与现有技术供应商的合作,不会轻易更换主要供应 商。先进入者一旦建立起自身客户资源、形成先发优势,新进入企业将很难在短期 内争夺市场份额、改变行业现有格局,因此我们认为液冷数据中心基础设施行业具 有较高的客户认证门槛。


(3)运维壁垒:液冷不同于风冷,容错性较低,任何一个部件发生损坏或者需 要维修更换,或将对系统整体产生影响。液冷机房长时间的运行下,冷却介质可能 会发生化学变质,出现腐蚀管路、堵塞管路、微生物滋生等情况,最终影响系统散 热性能或导致漏液,造成客户损失。冷却介质循环管路、歧管、冷却塔和泵的运维 难度相对较大,需要定期检测,要求供应商具备较强的运维能力,具有一定运维门 槛。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

通信行业深度报告:AI热浪起,液冷迎来黄金时代.pdf

通信卫星行业专题:低轨卫星互联网启动,天地一体通信迈向6G.pdf

亨通光电研究报告:光通信稳步发展,海缆+电网业务具备较强成长性.pdf

交通信息化建设-智慧交通规划方案.pdf

2024智慧高速F5G全光通信网白皮书.pdf

通信基础设施行业低空经济专题报告:向上而生,打开新空间.pdf

计算机行业专题报告:AI浪潮之下,液冷投资机会全梳理.pdf

曙光数创研究报告:数据中心液冷领军者,算力需求持续强劲打开成长空间.pdf

海鸥股份研究报告:国内冷却塔领军者,有望受益于液冷及氢能红利.pdf

通信行业专题:AI算力下的液冷,从“可选”到“必选”之路.pdf

人工智能行业专题研究:温控液冷,AI加速打开增量空间.pdf

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

【开源证券】通信行业深度报告:AI热浪起,液冷迎来黄金时代.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00