——人工智能产业的“三驾马车”分别是数据、算法和算力。最近大家都比较关注GPT系列AI大模型的创新,业界称为计算领域的“iPhone时刻”。其背后主要依赖AI大集群算力基础设施,大模型的AI训练集群NPU算力规模达几千张卡,甚至上万张卡。算力已经成为人工智能、元宇宙的第一关键要素,在数字经济中扮演着越来越重要的角色。
——算力集群主要是3类,即高性能计算算力集群(HPC/超算计算中心)、人工智能计算算力集群(AI计算中心或智算中心)以及通用计算算力集群(云与大数据数据中心),过去这3类算力集群以烟囱化建设模式为主,未来将走向融合建设的模式。比如:HPC+AI可以极大的提升传统HPC的计算效率,短期天气预报就是一个融合AI、大数据和科学计算的典型实例。未来,新型数据中心将是提供多样性计算综合能力的算力集群,以满足千行百业智能化的需求。
——同时,未来数据中心的发展还要考虑不同地区能源结构的差异、同一地区不同行业的业务差异,提供更绿色的算力,并满足实时应用的需求。算力的互联互通和统一调度是实现“东数西算”的一项基本条件,更是数据中心算力发展的必由之路。在当前的应用场景中,带宽不足导致的延迟是算力互联无从避免的局限性。按照目前的架构,举例来说,如果要将4TB的原始数据从北京传输到无锡,即使使用目前最快的网络,并保证网络无故障的情况下,数据传输时间将高达5天。中国创新的提出了“算力网络”的概念,旨在通过网络将全国各个算力中心连接起来,形成一台庞大的“网络计算机”。一方面要提高算力输送效率,通过并网实现高带宽、低延迟的算力互联;另一方面,需要团结领域内各大企业,可以屏蔽异构基础设施的差异,通过统一编程框架和编译的资源管理与调度软件实现算力的互通和资源的统一调度和管理,稳步推进“东数西算”的发展与预后工作。实现全社会算力资源的使用最优、效率最高。
➢算力需求十年百倍增长,算力分布进一步极化
根据华为《智能世界2030》报告预测,2030年,人类将迎来YB数据时代:对比2020年,通用算力增长10倍、人工智能算力增长500倍。全球数据中心产业正进入新一轮快速发展期,我们预测,未来三年内,全球超大型数据中心数量将突破1000个,并将保持快速增长;同时,随着自动驾驶、智能制造、元宇宙等应用的普及,边缘数据中心将同步快速增长,根据第三方预测,2030年部署在企业内的边缘计算节点将接近1000万个。
➢算力的规模和效率成为国家和企业的核心竞争力
如同农业经济的核心竞争力是建立在从劳动力人口到大规模水利设施再到机械化持续提升生产效率的基础上一样,算力的规模和效率也已经成为发展数字经济的核心竞争力。当前全球正处在千行万业智能化转型的新阶段,“百模千态”的AI大模型成为发展焦点,据预测GPT5.0(GenerativePre-trainedTransformer)训练集群的算力需求将达到GPT3.0的200-400倍。几乎所有的基础科学和大工业都朝着多维度、高精度的大规模数据分析方向发展:如石油勘探领域深度偏移等场景下单位面积勘探区的算力需求将增长10倍以上。AI、区块链等技术支撑的行业智能化场景也将带来算力需求的爆炸式增长,从数字化球拍每一次挥动的感知、记录和处理,到普惠金融每一次微型交易的客户画像、信用评估,都需要高效算力的支持。未来各行业在算力领域的投资占比将快速增长,以银行业为例,根据有关预测2024年中国银行业技术投入总规模将超过4000亿元,其中AI与云计算是重点投资领域,二者占比超过总投入的一半。
➢AI驱动数据中心发生全景式革命
华为预测,到2030年全球AI计算算力将超过105ZFLOPS(FP16):AI计算算力成为数据中心发展的最大驱动力和决定性因素。未来5到10年通用大模型的发展有可能使AI对文字、音乐、绘画、语音、图像、视频等领域的理解力超过人类平均水平,并与互联网和智能设备深度融合,深度改变全社会的消费模式和行为。AI技术与生产率之间显著的“扩散滞后”效应逐渐减弱,通用大模型能力将嵌入生产力和生产工具、行业大模型和场景化AI等多路径融合,AI技术创新对商业价值的影响将变得更加广泛和不可预测。通用大模型多模态泛化下的训练算力需求将保持远超摩尔定律的陡峭增长趋势,需要数据中心在算力规模、架构、算法优化、跨网协同等领域持续创新和快速迭代。展望未来,AI的发展将加速平台型企业超级数据中心和国家级算力网络的建设。
➢数据中心的产业标签从高耗能转变为绿色发展使能器
数据中心总耗电量在ICT行业占比超80%,为保障数据中心行业的可持续发展,首先需要提升能源使用效率、实现绿色低碳。多个国家、国际组织发布数据中心相关政策,如美国政府通过DCOI数据中心优化倡议,要求新建数据中心PUE低于1.4,老旧改造数据中心PUE低于1.5。欧洲数据中心运营商和行业协会在《欧洲的气候中和数据中心公约》中宣布2030年实现数据中心碳中和。中国出台《全国一体化大数据中心协同创新体系算力枢纽实施方案》推动构建全国一体化大数据中心,启动“东数西算”工程,促进数据中心绿色可持续发展,加快节能低碳技术的研发应用,要求到2025年新建大型数据中心PUE低于1.3。未来,随着各国相关政策的陆续出台和技术的持续发展,越来越多的先进节能技术将更广泛地应用到数据中心,推动PUE的进一步下降,预计到2030年,PUE将进入1.0x时代。未来随着风光水等清洁能源占比的不断增加,通过数据中心微电网“源网荷储”的协同还可以进一步降低碳排放,实现数据中心的绿色零碳目标。其次除了自身降低碳排放之外,数据中心还可以为其他行业的智能化转型赋能,成为全社会降碳的使能器,据全球电子可持续性倡议组织(GeSI)预测,到2030年ICT技术通过使能其他行业,将帮助减少全球总碳排放的20%,是自身排放量的10倍。
➢超出物理数据中心边界,多流协同的数据中心普及化
一方面,规模化、中长期需求预测困难、技术迭代加速等成为所有骨干数据中心运营企业和领先数字化企业的共同挑战。数百万台服务器的云数据中心、数十万台服务器规模的行业数据中心将在2030年之前出现,ChatGPT等突发的巨型超高密度任务涌现,土地、能耗获得的不确定性等因素使得基于超大单体、以10年为周期的数据中心规划模式难以为继。未来分阶段、模块化、集群化、服务化,逻辑上统一,物理上分布的数据中心新建设模式将逐渐普及。另一方面高性能计算的需求也随之不断提升,影视渲染、效果图渲染等批量计算任务,基因测序、风机工况模拟等科学计算任务以及AI训练等可并行的计算任务,往往需要消耗大量的算力资源和运算时间。这类任务往往具有计算成本敏感、实时性不敏感、计算规模可变动的特点,针对这类需求可以通过实时传递价格信号,激励用户选择电力价格较低的时间段进行整体运算;也可以通过断点续训、可续渲染技术,在计算任务执行的过程中暂停乃至对并行规模进行改变,来平移和升降电力负荷。通过任务流、信息流、能量流的精准关联和多流协同,构建绿色低碳、算效领先的数据中心。