【新华社研究院】2023人工智能大模型体验报告3.
随着人工智能技术的不断发展,越来越多的科技企业开始推出自有大模型产品。这些大模型在人工智能领域的应用已经成为AI大规模落地的拐点,为经济发展、社会进步和全球治理等方面带来重大影响。
报告显示,当前大模型生态图谱已经初具规模,大模型驱动因素及其价值也日益凸显。作为推进数字经济发展的核心底层技术之一,大模型在未来将扮演关键角色。
本次大模型测评规则包括基础能力、智能测试、情能测试和工作提效四个指数。整体来看,大模型综合指数中,顶尖厂商的综合得分较高,且大多数企业的得分都不错,说明大模型产品整体上达到了一定的水平。
在测评结果中,基础能力指数主要评估了大模型的数据处理能力和计算速度,而智能测试和情能测试指数则考察了大模型的自然语言理解、情感分析等功能。工作提效指数则主要关注大模型在智能客服、智能搜索、智能推荐等领域的应用。
随着大模型技术的日益成熟,越来越多的企业开始将其应用于商业领域,取得了不俗的成果。同时,大模型在医疗、金融、交通等行业的应用也正在逐渐拓展。当然,随之带来的数据隐私、算法公平性等问题也日益引起广泛关注,需要业界共同努力解决。
大模型产品市场竞争激烈,技术不断进步
从1.0版本到3.0版本的测评过程中,参与厂商的分数变化反映了大模型产品竞争的激烈和技术的进步,可以明显观察到一些广商在持续进步,而一些新的厂商也在逐渐崭露头角。
在1.0版本中(5月测评),ChatGPT系列占据领先位置,其中ChatGPT4表现最佳,紧随其后的是hatPT3.5百度文心一言位于整体第三位置,展现出了较强的实力。这一阶段的科大讯飞星火和阿里通义千问也进入了整体前五,国内前三,表现不俗。
到了2.0版本(8月测评)专注于国内市场,科大讯飞星火实现了跨越式发展,整体表现亮眼。百度文心一言、商汤商量与智谱CHATGLM也取得优异的成绩。同时,360智脑和昆仑万维天工也进入了前五,这些变化展示了厂商之间的激烈竞争和技术进步的速度。
到了3.0版本(11月测评),科大讯飞星火依旧保持领先,商汤商量紧随其后,稳定发挥。值得一提的是,澜舟科技孟子取得了显著进步字节跳动豆包作为新面孔,在这次评估中崭露头角。纵观这三个版本的发展,可以看出一些规律。首先是竞争日益激烈,厂商之间的得分变动频繁,这体现了大模型产品市场的活跃和竞争激烈程度,其次,技术进步明显,从1.0到3.0版本,各个厂商的产品在性能和功能上都有显著提升。最后,新面孔的涌现也展示了这个行业的活力和吸引力,新的厂商不断加入竞争,推动了大模型产品的发展。