今天分享的是人工智能系列深度研究报告:《 哈尔滨工业大学ChatGPT调研报告 》。
大规模预训练语言模型的技术发展历程
大规模预训练语言模型(简称大模型)作为 ChatGPT 的知识表示及存 储基础,对系统效果表现至关重要,接下来对大模型的技术发展历程加以简 要介绍。
2018 年,OpenAI 提出了第一代 GPT(Generative Pretrained Transformer)模型[1],将自然语言处理带入 “预训练” 时代。然而,GPT 模型并没 有引起人们的关注,反倒是谷歌随即提出的 BERT(Bidirectional Encoder Representations from Transformers)模型[2]产生了更大的轰动。不过,OpenAI 继续沿着初代 GPT 的技术思路,陆续发布了 GPT-2[3] 和 GPT 模型 GPT-3[4]。
尤其是 GPT-3 模型,含有 1,750 亿超大规模参数,并且提出 “提示语” (Prompt)的概念,只要提供具体任务的提示语,即便不对模型进行调整也可 完成该任务,如:输入 “我太喜欢 ChatGPT 了,这句话的情感是 __”,那 么 GPT-3 就能够直接输出结果 “褒义”。如果在输入中再给一个或几个示例, 那么任务完成的效果会更好,这也被称为语境学习(In-context Learning)。 更详细的技术细节推荐阅读相关的综述文章[5-8]。
不过,通过对 GPT-3 模型能力的仔细评估发现,大模型并不能真正克 服深度学习模型鲁棒性差、可解释性弱、推理能力缺失的问题,在深层次语 义理解和生成上与人类认知水平还相去甚远。直到 ChatGPT 的问世,才彻 底改变了人们对于大模型的认知。
ChatGPT 技术发展历程
2022 年 11 月 30 日,OpenAI 推出全新的对话式通用人工智能工具—— ChatGPT。据报道,在其推出短短几天内,注册用户超过 100 万,2 个月活 跃用户数已达 1 个亿,引爆全网热议,成为历史上增长最快的消费者应用程 序,掀起了人工智能领域的技术巨浪。
ChatGPT 之所以有这么多活跃用户,是因为它可以通过学习和理解人 类语言,以对话的形式与人类进行交流,交互形式更为自然和精准,极大地 改变了普通大众对于聊天机器人的认知,完成了从“人工智障”到“有趣”的印象转变。除了聊天,ChatGPT 还能够根据用户提出的要求,进行机器 翻译、文案撰写、代码撰写等工作。ChatGPT 拉响了大模型构建的红色警 报,学界和企业界纷纷迅速跟进启动研制自己的大模型。
继 OpenAI 推出 ChatGPT 后,与之合作密切的微软迅速上线了基于 ChatGPT 类技术的 New Bing,并计划将 ChatGPT 集成到 Office 办公套 件中。谷歌也迅速行动推出了类似的 Bard 与之抗衡。除此之外,苹果、亚 马逊、Meta(原 Facebook)等企业也均表示要积极布局 ChatGPT 类技术。 国内也有多家企业和机构明确表态正在进行类 ChatGPT 模型研发。百度表 示正在基于文心大模型进行文心一言的开发,阿里巴巴表示其类 ChatGPT 产品正在研发之中,华为、腾讯表示其在大模型领域均已有相关的布局,网 易表示其已经投入到类 ChatGPT 技术在教育场景的落地研发,京东表示将 推出产业版 ChatGPT,科大讯飞表示将在数月后进行产品级发布,国内高 校复旦大学则推出了类 ChatGPT 的 MOSS 模型。
除了国内外学界和企业界在迅速跟进以外,我国国家层面也对 ChatGPT 有所关注。2023 年 2 月 24 日,科技部部长王志刚表示:“ChatGPT 在 自然语言理解、自然语言处理等方面有进步的地方,同时在算法、数据、算 力上进行了有效结合。”科技部高新技术司司长陈家昌在回应 ChatGPT 相 关提问时也表示,ChatGPT 最近形成了一种现象级的应用,表现出很高的 人机交互水平,表现出自然语言的大模型已经具备了面向通用人工智能的一 些特征,在众多行业领域有着广泛的应用潜力。
ChatGPT 是现象级应用,标志着语言大模型已经具备了一些通用人工 智能特征,在众多行业领域有着广泛的应用潜力。”这标志着在未来,ChatGPT 相关技术有可能会成为国家战略支持的重点。
从技术角度讲,ChatGPT 是一个聚焦于对话生成的大语言模型,其能 够根据用户的文本描述,结合历史对话,产生相应的智能回复。其中 GPT 是英文 Generative Pretrained Transformer 的缩写。GPT 通过学习大量网 络已有文本数据(如 Wikipedia,reddit 对话),获得了像人类一样流畅对话 的能力。虽然 GPT 可以生成流畅的回复,但是有时候生成的回复并不符合 人类的预期,OpenAI 认为符合人类预期的回复应该具有真实性、无害性和 有用性。为了使生成的回复具有以上特征,OpenAI 在 2022 年初发表的工 作“Training language models to follow instructions with human feedback” 中提到引入人工反馈机制,并使用近端策略梯度算法(PPO)对大模型进行训练。这种基于人工反馈的训练模式能够很大程度上减小大模型生成回复与 人类回复之间的偏差,也使得 ChatGPT 具有良好的表现。