【TE智库】中国通用大模型内容生成及安全性能力评测

烽火研报•2023年11月21日•阅读 55

随着技术的不断进步和创新，以及数据规模的不断扩大，以文心一言为代表的中国本土通用大模型的能力正在显著提升，综合能力的行业平均水平已经与ChatGPT3.5不相上下

在基础服务能力、交互响应能力、理解创作能力方面，国产通用大模型都能够表现出相当的水平，且不弱与GPT3.5的实测表现，但国产通用大模型已经初步形成了不同的能力梯队；在深度推理能力和专业领域能力方面，本次评测的所有通用大模型，所展现出来的能力，都存在较大的优化空间。

大模型生成的内容包括各种形式的信息，包括文本、图片、视频等，其中可能包含敏感信息、隐私信息或具有误导性的信息。通过安全性管理和评测，可以确保生成的内容符合用户需求和期望，保护用户的利益

2023，AI“百模大战”炽热滚烫，大模型作为人工智能发展的突破口，已经成为了各路厂商都在抢先布局的高点。各路优质大模型厂商的新产品横空出世；各类基础服务能力、交互响应能力、理解创作能力群星闪耀。

截至今年，中国大模型已经成绩斐然，在全球已发布认知大模型之中，中国已有79个大模型，与美国共同占据全球80%的大模型数量。

然而伴随着技术的革新和产品的创新，变量也随之而来，并且催生出了新的安全敞口与攻击手段。大模型的长期发展，还需要将技术关进“合规”的笼子里，引导人工智能技术持续向善、健康发展。

本篇《中国通用大模型内容生成及安全性能力评测》报告，TE智库规划了6大维度、27个细化的指标项，作为对通用大模型进行评测的基础标准。除了对大模型从基础服务能力、交互相应能力、理解创

作能力、深度推理能力、专业领域能力展开能力测评以外，还对大模型的安全体系能力展开测评，向市场输出本土通用大模型的综合测评结果，展现中国大模型不俗实力。