【浪潮信息】计算机行业:开放加速规范AI服务器设计指南

芯东西8月11日报道,昨天,在第五届OCPChinaDay(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》(下文简称《指南》)正式发布。


这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法,包括硬件设计参考、管理接口规范和性能测试标准,能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期,大幅节省研发投入。


AIGC时代到来,动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大,需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。


然而事实是,AI芯片的多元化发展为大模型寻找创新应用提供了机遇,但走向落地,当采用不同技术路线的AI芯片集成到AI计算系统时,企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配,这背后消耗的成本无法估量。


诚然,开放加速计算(OAI)自诞生起就锚定了AI计算基础设施的标准化,但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此,这一产业需要的是一个行之有效、落地有声的细化指南。


在OCPChinaDay期间,芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流,找到这则《指南》在AIGC时代下扮演的真实角色。


一、从技术突破到应用落地,海量算力背后的新解法


近日,关于GPU短缺、GPT-5可能需要3-5万张H100GPU的讨论在社交媒体疯传,AIGC时代的算力已成“兵家必争之地”,再加上其商业化落地、产业化应用提速,AI计算能力这块基石的重要性与日俱增。


因此,为了补上AI算力的缺口,AI芯片公司相继推出各类非标准PCIeCEM的新型态AI加速芯片,越来越多创新技术路径出现,使得AI计算芯片逐渐多元化。随之而来的一大问题就是,不同技术形态的AI加速芯片无法进行标准化快速适配,产业上下游生态面临割裂风险。


解决这一风险的答案可以追溯至2019年,彼时,OCPOAI(OpenAcceleratorInfrastructure)小组成立,这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应,并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立,在展示开放计算可行性的同时,为规避AI计算芯片多元化趋势背后的风险提供了有效解法。


不同厂商的AI加速芯片在结构、电气特性上存在显著差异,导致不同芯片需要定制化系统硬件平台,OAI小组对AI加速芯片形态进行了定义,通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台,一步步构筑起开放加速计算的生态体系,从而在AIGC时代算力需求狂飙的当下,能为企业提供可匹配其应用场景的AI算力产品方案。


OAI主要通过全球产业链协作的模式,实现产品、规范等共享的同时,推动基础设施创新,在缓解算力供应短缺的同时,进一步加速AIGC时代的技术落地。


参与其中的浪潮信息,在协同合作伙伴完成早期技术验证和经验积累的同时,也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。


因此,浪潮信息基于此前的技术积累发布了这一《指南》,《指南》的最大价值在于,一方面能帮芯片企业快速开发新形态AI芯片,节省开发周期、开发成本,并加速产品的升级和迭代;另一方面,也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。


正如浪潮信息服务器产品线总经理赵帅此前提到的,开放架构的出现就是让领先技术更快从一个行业下沉到千行百业。


二、四大设计原则+全栈设计方法,多元算力芯片落地适配的“说明书”


OAI小组的成立与生态建设为多元算力芯片落地适配搭起了一座桥,但如何让这座桥更坚固、更好走更为重要。


2019年OAI小组制定了一系列开放加速计算的规范,但这些规范在落地的过程中,AI芯片企业依然需要进行大量的定制化工作,多元算力发展面临落地部署慢、研发成本高的难题。因此,这些对开放计算突破AIGC时代算力瓶颈寄予厚望的参与者亟需一份更加细化、完善的“说明书”。


浪潮信息拟定的这一份《指南》就是这样的存在,其制定了AIGC时代AI服务器的设计理论和方法,以便企业能开发出符合开放加速规范的AI服务器,并快速找到能匹配应用场景的最佳AI算力产品方案。


▲浪潮信息发布《开放加速规范AI服务器设计指南》


总的来看,《指南》包括四大设计原则和全栈设计方法。


其中,四大设计原则主要围绕着应用导向、多元开放、绿色高效和统筹设计。张政解释道,这四大原则的设计基于的是其最终客户在产业发展、算力应用方面遇到的痛点。


应用导向指的是,企业在设计AI加速芯片或系统时,以提供“用得了”、“用得起”、“用得好”的解决方案为目标,尽可能避免过渡冗余设计或者追求性能带来的时间、空间、资源浪费;多元开放更注重对不同技术体系的兼容和适配,突破关键技术创新的同时,进一步壮大开放加速计算生态。


绿色高效主要聚焦于液冷散热、高效供配电、智能运维等技术的应用;统筹设计能帮助AI芯片企业在集成大模型分布式训练时,充分考量计算、网络、存储的需求特点。


随之而来的就是,面向AI芯片企业更加具体、全面、细化的设计方法,也就是《指南》中提到的开放加速计算系统全栈设计方法,围绕着多元协同设计、全面系统测试、性能测评调优进行了归纳总结。


具体而言,AIGC计算系统的部署形式是一体化高集成度算力集群,《指南》阐释了从节点到集群的软硬全栈参考设计,在系统厂商和芯片厂商的协作下减少企业的定制开发内容,进一步节省成本。


测试方面主要包含系统层面和应用层面。


全面系统测试中,浪潮信息沿用了一部分AI服务器的测试用例,同时面向OAM服务器,他们将自己此前在创新实践中遇到的问题,一并进行了细化放入《指南》之中,从而增强新研发设备的稳定性和可靠性。


也就是说,要解决在AI系统生产、部署、运行过程中,异构加速计算节点的高故障率的问题,想要保证系统的稳定性,其对应的测试条件及环节要更为严苛。基于此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理,以满足AI计算系统部署的要求。


在应用层面,AIGC领域加速计算系统软硬件具备强耦合性,对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验,也呈现在了《指南》中。


例如模型性能测试中,《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标,以及多机环境中重点评测的指标。


这样一来,AI芯片创企既能拥有成熟的系统平台,规避闭源生态风险,还能在这份说明书的基础上,缩短芯片开发落地适配的进程。


三、为AIGC拉满算力引擎,开放计算落地已成趋势


此外,《指南》里的四大设计原则之首就是应用导向,技术落地效果如何与应用成果密不可分,也是评判这一指南的重要因素之一。


目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。


其中,云端AI算力企业燧原科技打造了国内第一个OAM模组,是该公司2019年发布的云燧T11PoC,2021年发布云燧T21训练OAM模组,这些基于开放加速计算标准构建的高性能人工智能训练加速模组,能在性能、部署、覆盖、运维方面具有较大优势。


随后,去年3月,浪潮信息与其联手打造“钱塘江”智算中心方案,智算中心能支撑超千亿参数规模模型的高效、并行训练。目前,这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。


除此以外,还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7,集成8颗OAM高速互联的Gaudi2加速器……


无一例外,这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者。


当下,诸多应用成果、符合OAM标准的设备出现,都展示了开放加速计算技术的可行性,并以此辐射出完整的生态体系。


AI加速计算系统的规范体系正在逐步确立、完善,面向AIGC领域的设计指南也更加全面、细化,为AIGC浪潮下算力供需难题提供了有效的解决方案。


下一步AIGC时代会迸发出什么样的创新应用,通往通用人工智能时代还会出现哪些门槛我们尚且无从得知,但可以确定的是,开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径。


因此走向实际应用的过程中,AIGC应用亟需一套完整的开放加速计算设计指南,以此为桥梁,使得多元算力之道成为破解大模型训练算力难题的有效解法。


结语:补上算力缺口,让AIGC创新应用加速迸发


AIGC的发展需要大量的计算资源,因此对算力的需求将会迎来系统级变化。当下,其规模化应用的步伐已经加快,因此,如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线,都说明了其与AIGC时代这一难题的适配性。


作为开放加速计算的重要参与者,浪潮信息正铆足全力保障AIGC时代的多元算力供应,这背后有两重身份支撑,首先它是国内率先布局开放加速计算的玩家,同时它也是国内AI服务器龙头企业,在产品落地应用中积累了众多有效经验。


张政谈道,面向AIGC领域的规划,短期内,浪潮信息将继续在软硬件布局,硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台,软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度,目前,这一管理平台已经可以适配业内30多种算力芯片。

【浪潮信息】计算机行业:开放加速规范AI服务器设计指南

自OpenAI的ChatGPT发布以来,生成式AI技术获得了广泛关注,一系列开创性研究成果相继发布,引领了人工智能的新一轮创新浪潮。AI大模型是生成式AI的关键底座,得益于泛化能力强、长尾数据依赖性低以及下游模型使用效率高,大模型被认为具备了“通用人工智能AGI”的雏形。相比传统AI模型,大模型的训练使用了更庞大的数据,具有更巨量的模型参数和更发散的下游应用场景,对全社会生产力和生产效率的提升、传统产业转型升级具有重大的价值潜力。因此,全球范围内已经掀起了一场生成式AI革命,政策和资本驱动生成式AI技术加速商业化落地。


AI大模型发展需要庞大的AI算力支撑,大模型往往采用无标注、自监督的训练方法,使用海量数据做超大规模的模型训练,因而对于算力的需求和传统的模型训练相比也出现了3~4个数量级的提升。当前语言大模型的参数量已达千亿以上,训练数据集的规模也达到了TB级别。业界典型的自然语言大模型有GPT、LLAMA、PaLM、文心、悟道、源等。如果用“算力当量”(PetaFlops/s-day,PD),即每秒千万01亿次的计算机完整运行一天消耗的算力总量来表征大模型的算力需求,具有1750亿参数的GPT-3模型的训练算力需求为3640PetaFlop/s-day。参数量为2457亿的源1.0大模型训练算力消耗为4095PetaFlop/s-day。大模型的高效训练通常需要具备千卡以上高算力AI芯片构成的AI服务器集群支撑。在全球科技企业加大投入生成式AI研发和应用的大背景下,配置高算力AI芯片的AI服务器需求也不断高涨。


随着市场对AI计算力需求的不断攀升,全球已有上百家公司投入新型AI加速芯片的开发,AI计算芯片多元化趋势愈发显著。但因为各厂商在AI开发中采用了不同的技术路线,导致芯片的接口、互连、协议上互不兼容,而专有AI计算硬件系统开发周期长、研发成本高,严重阻碍了新型AI加速器的研发创新和应用推广。全球开放计算项目组织OCP发起开放加速规范OAI,但在推向产业落地的过程中,依然存在大量的定制化工作以及现有标准未能完全覆盖的领域,包括多元AI芯片适配、AI算力资源管理和调度、数据整合及加速、深度学习开发环境部署等多个方面


上一篇

【猎聘大数据研究院】2023年上半年金融行业人才趋势观察

2023-11-16
下一篇

【艾瑞咨询】视频会议用户洞察白皮书

2023-11-16