【TE智库】中国通用大模型内容生成及安全性能力评测
随着技术的不断进步和创新,以及数据规模的不断扩大,以文心一言为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下
在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模型都能够表现出相当的水平,且不弱与GPT3.5的实测表现,但国产通用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领域能力方面,本次评测的所有通用大模型,所展现出来的能力,都存在较大的优化空间。
大模型生成的内容包括各种形式的信息,包括文本、图片、视频等,其中可能包含敏感信息、隐私信息或具有误导性的信息。通过安全性管理和评测,可以确保生成的内容符合用户需求和期望,保护用户的利益
2023,AI“百模大战”炽热滚烫,大模型作为人工智能发展的突破口,已经成为了各路厂商都在抢先布局的高点。各路优质大模型厂商的新产品横空出世;各类基础服务能力、交互响应能力、理解创作能力群星闪耀。
截至今年,中国大模型已经成绩斐然,在全球已发布认知大模型之中,中国已有79个大模型,与美国共同占据全球80%的大模型数量。
然而伴随着技术的革新和产品的创新,变量也随之而来,并且催生出了新的安全敞口与攻击手段。大模型的长期发展,还需要将技术关进“合规”的笼子里,引导人工智能技术持续向善、健康发展。
本篇《中国通用大模型内容生成及安全性能力评测》报告,TE智库规划了6大维度、27个细化的指标项,作为对通用大模型进行评测的基础标准。除了对大模型从基础服务能力、交互相应能力、理解创
作能力、深度推理能力、专业领域能力展开能力测评以外,还对大模型的安全体系能力展开测评,向市场输出本土通用大模型的综合测评结果,展现中国大模型不俗实力。