【中国信通院】云计算行业:行业大模型标准体系及能力架构研究报告
随着人工智能技术的快速发展,行业大模型已成为推动产业升级的重要驱动力。为了规范和引领行业大模型的健康、可持续发展,有必要构建行业大模型的标准体系,以科学评价大模型技术能力和应用效果。
行业大模型开启产业升级的“黄金时代”
目前,国内外公司纷纷发布大模型,涉及通用大模型、行业大模型、垂直大模型与专属大模型,一些超强模型服务背后是千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域的一大步,能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等,催生出新的场景和产业模式,快速推动产业智能化应用落地。
算法层评估
目前基础大模型和微调算法众多,算法层评估主要根据业务需求和算力资源的限制,确定最适合业务场景的大模型和精调算法。
在基础大模型选择方面,首先,行业用户应参照业务需求,根据需要处理的数据类型,选择基础的语言大模型、视觉大模型或语音大模型等;其次,根据需要完成的任务,选择对应任务版本大模型,例如,需要完成客服任务,应该选择已经在对话数据集上微调过的基础大模型;随后,根据部署的硬件资源要求,选择大模型的参数版本。
在精调算法选择方面,结合算力和时间要求,可以选择不同的精调算法。在评估精调算法时,可以采用少量的样本数据先行进行评估,以保证精调的效果。以大语言模型精调为例,当前可采用的精调算法包括有监督的参数精调(SFT)或参数高效精调(Parameter-EfficientFine-Tuning,PEFT)
数据层评估
行业用户应根据业务的实际情况以及期望目标,明确数据规模数据质量和数据安全隐私等问题,从而完成数据层的评估。
在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。行业用户正式归档或是正式业务系统标注留存的数据,通常质量较高。
在数据安全和隐私保护方面,行业用户需要评估数据是否包含个人信息、敏感信息等,必要时需要对原始数据进行脱敏处理。
在数据格式方面,需确定具体数据格式包括哪些。如文本数据、音频数据或是其他格式类型。无监督数据,即原始数据,数据的格式可以是网页数据、PDF、WORD、PPT或是语音类;有监督数据,即经过标注的数据,数据格式可以为json或Query格式。
工程层评估
在构建行业大模型时,行业用户可以选择配套工具或第三方平台提升模型构建效率。因此,需要根据需求目标和构建成本对工程工具和平台等进行选择。行业用户需要评估模型训练所需的算法模型平台,确定平台适配性和训练流程。通常模型训练平台具有从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持能力。
明确场景目标
明确行业大模型实际应用场景及模型评价目标。例如金融领域,覆盖的业务场景可以包括风险控制、客服顾问、投资行研等。不同的业务场景,对于模型的评价目标会有不同。在风控场景,模型的评价目标主要为风险预警精确率、召回率、F1值等;在客服顾问场景,模型的评价目标主要为平均响应时间、客户满意度等;在投资行研场景,模型的评价目标主要为数据准确性、成本效益等。与金融领域类似,在文旅领域,覆盖的业务场景可以包括行程定制、文案策划、讲解互动等。
模型选择
明确模型选型。根据大模型的基础应用领域,大模型可分为NLP大模型、CV大模型、多模态大模型等。行业客户应根据大模型的基础应用领域,确定所选择的模型。
NLP大模型主要用于自然语言处理,可以在客户服务、智能助手、问答文稿生成等领域,理解问题和需求,提供准确的解答和建议。如果行业用户的场景目标为智能客服领域,模型应选择NLP大模型。在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型,如LLaMA、ChatGLM等。
CV大模型主要用于机器视觉,CV大模型可以在图像分类、目标检测、图像分割、视频修复等领域,完成相应任务。CV大模型的构建通常基于卷积神经网络、循环神经网络和注意力机制等,通常基于预训练模型,输出目标特征,并结合特征聚合模块,增强模型的全局图像感知能力,支持文字粒度、文本框粒度、整图粒度的特征表示,支持信息的抽取和识别。如果行业用户的场景目标为图像识别、视频修复,模型应选择CV大模型,并在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型。
多模态大模型主要用于跨模态场景,其相较于NLP类大模型,融合了文字、图像、三维物体、声音等多维度的处理能力,可以有更丰富的应用场景。多模态大模型通过多模态语义理解、跨模态推理、多模态生成等技术进行构建,以实现跨模态的信息表达和交互,实现高精度、细粒度的模态融合。如果行业用户的场景目标为跨模态场景,如文生图、语音生成文案等,可选择多模态大模型,并根据训练资源情况,选择所处行业优化适配的行业基础大模型。多模态大模型的训练,通常对数据和算力方面的要求较高,所需的数据量和多样的数据类型较大,在训练和推理阶段消耗的资源较高。
行业大模型精调与优化部署
行业大模型精调与优化部署包括模型精调、模型评估、模型重训优化、模型联调部署、模型应用运营等阶段。
模型训练共建
模型训练共建,对选定模型进行训练。模型训练中的核心要点是快速找到模型的最佳算法及对应的超参数。超参数的选择方法通常包括手动搜索、自动搜索等。
行业大模型的训练过程,需要通过大规模的行业无监督数据进行自监督训练和有监督数据进行有监督的调优得到。在行业大模型的预训练过程中,可以通过增加有监督精调的数据,在预训练阶段就学习到更多的知识。
模型训练应采用分布式并行训练技术,在训练过程中使用GPU集群(多机多卡)来提升训练速度。并行训练,包括数据并行、模型并行的训练模式,数据并行是指在多个设备上拷贝一份完整的模型参数,输入不同的数据参与计算,同步梯度,并行处理完成数据的训练:模型并行是指在多个设备上切分模型参数到各个GPU,每个设备输入相同数据,同步参数,并行处理完成训练。