【中国移动】人工智能行业运营商AI先进存力白皮书:汇聚产业新动能,共创AI新时代
——人类社会正在跑步进入通用人工智能时代。从AlphaGo到ChatGPT,人工智能领域的里程碑事件不断涌现,GPT-4首次展现极强的语义理解能力、内容生成能力和持续对话能力,这是一个新时代来临的标志。产业界纷纷加强大模型相关领域的研究,并推出一些新产品和新应用,传统信息产业生态正在被重塑。运营商作为ICT基础设施建设的主力军,迎来AI发展的新机遇。
——从对内网络业务角度看,大模型将会加速运营商网络智能化升级。首先,利用人工智能的分析、策略优化与预测等能力来赋能网元、网络等业务系统,有助于提升电信网络的智能规建、智能运维、智能管控能力。其次,通过人工智能设计套餐,将人工智能嵌入用户流量管理中,有助于提升网络运营、市场营销、客户服务的效率。同时,借助大模型还可能对6G智简网络以及云网融合的研究提供帮助,促进6G技术迅猛发展。
——从对外政企业务角度看,大模型也将助力运营商赋能千行百业智能化升级。结合运营商的数据优势、算力优势、行业使能经验优势,运营商将成为数字经济智能化的关键一环。一方面,将运营商的大模型能力外溢至行业客户,面向政务、教育、医疗等推出行业大模型新应用,这也是当前运营商重点发力的方向。另一方面,结合运营商算力、网络等资源优势,为大模型创业者和研发机构提供智算服务,做AI淘金时代“卖铲人”。
1.1AI基本概念
人工智能是指通过计算机技术和算法模拟人类智能的一种技术。它可以让计算机像人一样思考和学习,从而实现自主决策的智能化行为。AI已在计算机视觉、智能语音、自然语言处理等应用领域迅速发展,开始像水、电、煤一样赋能于各个行业。AI主要分为分析式AI和生成式AI。
传统分析式AI主要用于分析式应用,即对输入内容进行分析和判断,生成输出分析结果,如推荐系统、图像识别、智能语音等。在传统的分析式AI时代,只能根据已有的数据进行学习和预测,无法处理新的、未知的情况。
生成式AI主要用于内容生成,即使用AI生成新内容,如文本、图片、音频、视频等。生成式AI在学习归纳已有数据的基础上,学习数据产生的模式,并创造数据中不存在的新样本,实现了从数据分析到内容创作的跨越式发展,打开了AI应用新市场,已在文字创作、代码生成、图像生成等多场景实现了应用落地。
1.2AI发展阶段
自人工智能科学诞生至今60多年的发展历史过程中,人工智能经历了三次发展高潮,分别是1956到1970年代,1980到1990年代和2000年代至今。1959年ArthurSamuel提出了机器学习,推动人工智能进入第一个发展高潮期。此后70年代末期出现了专家系统,标志着人工智能从理论研究走向实际应用。80年代到90年代随着美国和日本立项支持人工智能研究,人工智能进入第二个发展高潮期,期间人工智能相关的数学模型取得了一系列重大突破。1997年,IBM深蓝战胜了国际象棋世界冠军GarryKasparov,是一个里程碑意义的事件。这个时期的AI训练数据多为结构化数据,存储方式以本地盘存储形式为主。
当前人工智能处于第三个发展阶段,2006年加拿大Hinton教授提出了深度学习的概念,极大地发展了人工神经网络算法。随后以深度学习、强化学习为代表的算法研究的突破,算法模型持续优化,极大地提升了人工智能应用的准确性。这个时期的AI训练数据多为文本、图片、音频等单模态数据,存储方式为本地盘或存储池形式的外置存储。
近年来深度学习发展高潮迭起,Transformer大模型的问世推动深度学习模型参数量从几万跃升至数千亿甚至更大,模型层数从开始的个位数逐步发展到成百上千,原始数据集也达到PB级,为满足大模型对存储的性能和容量需求,外置存储进一步升级为“性能型存储+容量型存储”。
1.3我国AI大模型发展现状
自2020年起,我国的大模型在数量和技术水平上都有明显提升,涵盖了智能语音、计算机视觉、自然语言处理等多个领域,并在能源、金融、航天、制造、传媒、城市、社科以及影视等领域应用落地。
从大模型的布局体系来看,科技大厂在算力层、框架层、模型层、应用层进行了四位一体的全面布局。华为、百度均从芯片到应用进行自主研发的全面布局,如华为的“昇腾芯片+昇思框架+盘古大模型+行业应用”、百度的“昆仑芯+飞桨框架+文心大模型+行业应用”。垂直行业企业和科研院所,主要以大模型算法研发和细分领域应用为主。
从大模型参数量看,科技大厂和头部科研机构已上线的大模型参数量普遍在千亿级以上,如阿里通义千问大模型参数在10万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上,上海人工智能实验室书生浦语大模型参数量在千亿级别。
1.4中国移动AI战略布局
中国移动在2013年开始人工智能领域战略布局,现已形成从算法、平台、到规模化应用的产业级智能化服务能力。其九天平台已具备在计算机视觉、自然语言处理、智能语音、网络智能化等多领域的AI能力,跻身央企“AI国家队”。
中国移动已发布九天海算政务大模型和九天客服大模型。依托九天海算政务大模型,政务服务系统将具备强大的政务事项理解能力、多维度的信息关联能力、面向复杂事项和复杂流程的多元交互能力。九天客服大模型既可根据用户提供的自然语言描述,解析用户问题并提供答案,又可以与人工客服协作,为人工客服提示回复建议,形成“大模型—人工坐席—用户”的三方沟通场,极大提升人工客服的工作效率。
AI技术也已经在中国移动的多个业务领域实现规模化应用,助力管理、服务等多方面能力提升。例如智能客服月交互量从5000万提升至2.1亿,准确率达92%;反诈骗系统月度拦截电话量超过1400万,准确率高达98%;声纹识别防欺诈防骚扰电话准确率已达98%。
1.5中国联通AI战略布局
中国联通的AI应用战略包括两部分。一是对内提供智能化运营,如5G+AI智能运营平台,利用AI提供网络故障定界问题能力。二是对外提供一站式创造服务,如一站式AIGC(ArtificialIntelligenceGeneratedContent,人工智能生成内容)创造工厂。
中国联通已经发布鸿湖图文大模型1.0,其具备以文生图、以图生图、视频剪辑等功能。随着移动互联网的快速发展,用户对于个性化、原创性的内容需求也越来越高,传统的图像、视频生成方式无法满足用户的需求,鸿湖图文大模型的推出填补了这一空白。通过该模型,运营商可以为用户提供丰富、有趣的图文内容,进一步提升其增值业务的竞争力和用户体验。
此外,联通云7.0面向HPC/AI场景推出文件存储系统,目标是做AI时代的良田沃土。相对传统存储显著进步的地方有三点,一是更高的性能,包括高吞吐量以及部分计算场景下要求非常低的时延,以减少计算集群等待时间,让平台持续高效的运转;二是可扩展,AI时代下,存储的性能可扩展、容量可扩展成为承接巨量数据、高增速、高性能计算要求下的硬性要求;三是多接口,包括POSIX、S3、ISCSI等协议接口。
一、AI存储是运营商发力大模型的基础
当前我国三大运营商均已发布各自的AI战略、AI平台、AI大模型。运营商在全面拥抱AI新机遇时,会充分发挥其既有的数据优势、资源优势、行业使能经验优势,全力打造领先的AI基础设施,依托算网融合的能力,让AI服务无所不达。面向大模型应用的AI基础设施除了对算力有极高的要求外,对数据存储的能力也提出了更高的要求。存储为大模型提供海量数据存储支撑和高效训练推理支撑,同时又为安全可靠的大模型服务保驾护航,是运营商发展好大模型最重要的基石之一。
二、运营商丰富的AI应用对传统IT基础设施带来了全面的挑战
运营商依据AI业务流(数据获取、数据预处理、模型训练、推理应用)独立建设存储设施后,设备多、版本多、冗余数据多、数据管理复杂等问题不断累积,进而出现了数据容量、数据传输、数据管理、数据安全、数据节能等维度的AI存储难题。一是数据容量的灵活性和开放性不足;二是数据传输的跨域调度和高效流动能力不强;三是数据全生命周期的管理不完善;四是存储平台的供应链安全不自主;五是低效数据处理和无效数据迁移能耗开销大。
三、AI先进存储是构建领先AI基础设施的核心条件之一
作为数据的载体,AI先进存储是构建领先AI基础设施的核心条件之一,其至少应该具备以下能力,一是支持大容量的敏捷扩展,包括PB级容量的敏捷扩展和大小I/O混合负载自适应能力;二是支持数据开放共享,满足AI业务不同阶段数据管理、数据流动的需求,加强数据服务的开放性和互联互享能力;三是支持数据的高可用,满足更强的数据服务可用性要求,保障全生命周期业务;四是支持数据的隐私安全,满足数据资产和数据隐私的平衡要求,加强全生命周期隐私管理;五是支持存储的高效节能,通过提升数据处理效率以达成节能。