近年来,自动驾驶、元宇宙、人工智能等应用不断创新发展,数据规模、算法复杂度以及算力需求爆发式增长。各类加速处理器已成为算力基础设施的重要组件,基于CPU+xPU的异构计算系统逐渐成为各算力场景的主流架构。然而,随着异构计算系统的种类和数量越来越多,xPU性能与灵活性难以兼顾、各xPU间计算孤岛问题难以协同、调试和维护成本增高等问题愈发凸显 ,亟需从异构融合计算方向加强理论研究和实践探索。
以人工智能发展为例,Nature Electronics期刊在 2022年 4月的一篇文章显示:从 2018年开始,随着AI大模型应用的涌现,算力需求平均每2个月翻一倍;摩根士丹利估计2022年谷歌的 3.3万亿次搜索,平均成本约为每个 0.2美分 John Hennessy表示 基于大模型搜索的成本是标准关键词搜索的10倍。需求的变化和成本的约束,再加上NoC(Network on Chip)和 SiP(System in Package)等新芯片技术的赋能 必将推动算力基础架构的变革。计算架构已逐渐从目前各自为政、孤岛式的异构计算,走向异构融合计算。同时,以系统设计为中心,按照应用需求来设计、定义和规划计算架构,推动多层级技术的融合已成为当前的最佳可行方案。
狭义的异构融合计算,指的是多种不同类型、不同架构处理器组成的计算架构。广义的异构融合计算,是指通过将处理器、芯片、硬件设备、操作系统、编程框架、编程语言、网络通信协议、数据中心等不同层次、不同类型的计算技术进行整合优化,以实现多种异构计算资源的高效利用。
本白皮书旨在探讨异构融合计算技术的内在机制、应用场景和发展趋势,通过概述计算领域相关概念,回顾计算架构发展历程,分析了异构计算技术的发展现状及面临的主要问题,从硬件层面(芯片级、设备级)、软件层面(操作系统、编程框架)、系统层面分别提出了异构融合计算技术的探索方案及演进方向,引出了异构融合计算技术的发 展趋势,并介绍了异构融合计算领域相关的实践案例。同时,指出了异构融合计算发展面临的挑战:
一是,处理器架构的限制,可扩展性和灵活性难以满足,计算孤岛问题凸显;
二是,当前的编程框架、编程语言、及其他编译 /调试工具,不足以支撑高效的异构代码编写、优化和管理;
三是,系统集成和互操作性技术要求高,难以构建统一的系统视图以支持跨平台的开发和部署。