【新华社研究院】2023人工智能大模型体验报告3.

烽火研报•2023年11月23日•阅读 199

随着人工智能技术的不断发展，越来越多的科技企业开始推出自有大模型产品。这些大模型在人工智能领域的应用已经成为AI大规模落地的拐点，为经济发展、社会进步和全球治理等方面带来重大影响。

报告显示，当前大模型生态图谱已经初具规模，大模型驱动因素及其价值也日益凸显。作为推进数字经济发展的核心底层技术之一，大模型在未来将扮演关键角色。

本次大模型测评规则包括基础能力、智能测试、情能测试和工作提效四个指数。整体来看，大模型综合指数中，顶尖厂商的综合得分较高，且大多数企业的得分都不错，说明大模型产品整体上达到了一定的水平。

在测评结果中，基础能力指数主要评估了大模型的数据处理能力和计算速度，而智能测试和情能测试指数则考察了大模型的自然语言理解、情感分析等功能。工作提效指数则主要关注大模型在智能客服、智能搜索、智能推荐等领域的应用。

随着大模型技术的日益成熟，越来越多的企业开始将其应用于商业领域，取得了不俗的成果。同时，大模型在医疗、金融、交通等行业的应用也正在逐渐拓展。当然，随之带来的数据隐私、算法公平性等问题也日益引起广泛关注，需要业界共同努力解决。

大模型产品市场竞争激烈，技术不断进步

从1.0版本到3.0版本的测评过程中，参与厂商的分数变化反映了大模型产品竞争的激烈和技术的进步，可以明显观察到一些广商在持续进步，而一些新的厂商也在逐渐崭露头角。

在1.0版本中(5月测评)，ChatGPT系列占据领先位置，其中ChatGPT4表现最佳，紧随其后的是hatPT3.5百度文心一言位于整体第三位置，展现出了较强的实力。这一阶段的科大讯飞星火和阿里通义千问也进入了整体前五，国内前三，表现不俗。

到了2.0版本(8月测评)专注于国内市场，科大讯飞星火实现了跨越式发展，整体表现亮眼。百度文心一言、商汤商量与智谱CHATGLM也取得优异的成绩。同时，360智脑和昆仑万维天工也进入了前五，这些变化展示了厂商之间的激烈竞争和技术进步的速度。

到了3.0版本(11月测评)，科大讯飞星火依旧保持领先，商汤商量紧随其后，稳定发挥。值得一提的是，澜舟科技孟子取得了显著进步字节跳动豆包作为新面孔，在这次评估中崭露头角。纵观这三个版本的发展，可以看出一些规律。首先是竞争日益激烈，厂商之间的得分变动频繁，这体现了大模型产品市场的活跃和竞争激烈程度，其次，技术进步明显，从1.0到3.0版本，各个厂商的产品在性能和功能上都有显著提升。最后，新面孔的涌现也展示了这个行业的活力和吸引力，新的厂商不断加入竞争，推动了大模型产品的发展。

参考报告：2023人工智能大模型体验报告3..pdf

【新华社研究院】2023人工智能大模型体验报告3.

最新报告

热门报告