一、2023 人工智能领域的里程碑,全球 AI 技术的飞速进步与治理挑战并进
2022 年底,AIGC 热潮在全球范围内兴起,人工智能的板块行情开始出现。2023 年可以说是人工智能板块行情 的元年,也是 LLM(大语言模型)的元年。OpenAI 通过 GPT-3.5 系列大型语音模型微调而成的全新对话式 AI 模型 ChatGPT 正式发布,人工智能板块开始掀起热潮。Meta 推出了新型 AI 语言模型 LLaMA-13B,OpenAI 发 布了 GPT-4 并不断降低成本,百度推出了文心一言;应用方面微软推出了基于 GPT-4 的 Microsoft 365 Copilot, 很大程度上改变了办公应用的生产力,算力方面,大厂英伟达的 GPU 不断迭代,标志着计算硬件的进步,GPU 的供不应求导致英伟达业绩的持续超预期。监管方面,各地政府也是迅速调整,意大利对 ChatGPT 的临时禁令 及其后的重新启用凸显了对 AI 治理的迫切需求,欧洲的 AI 立法和中国的监管措施反映了全球对标准化 AI 治理 的转变。这一年,AI 开发者们逐渐认识到,人工智能不仅仅是一个概念或远景,而是一场正在发生的、深刻影响 各行各业生产力的历史性技术革命。
二、全球大模型风起云涌,中国 AI 行业正在崛起
全球大型语言模型的行业发展进入加速期,2023 年开启大模型之战。从 2020 年 Open AI 的 GPT-3 到 2023 年 的 GPT-4,我们看到了该领域创新速度之快。不同公司、科研机构所研发的模型争奇斗艳,表明了这个行业的竞 争性和多样性,OpenAI 的 ChatGPT、谷歌的 Gemini 以及百度的 ERNIE 等都是这个领域的重要模型。AI 技术 日益大众化使得更广泛的用户能够接触到这些强大便捷的工具,AI 研究与现实世界应用的融合也日益明显,众 多公司将这些模型整合到消费者和企业产品中,推动了技术的发展及其实际应用价值。
海外大模型行业率先起航,OpenAI 引领行业发展。国外大模型起步较早,谷歌于 2017 年研发出 transformer 架 构,成为大模型行业的基石。2022 年 11 月,OpenAI 推出的 ChatGPT 更是用户数快速增长,月活迅速破亿, 让 AI 大模型走入大众视野,大模型算力和参数量不断迭代升级。目前 Open AI 扮演着开创者的角色,其他大模 型厂商快速追赶。自推出 chatGPT 以来,Open AI 不断革新,11 月 7 日,OpenAI 首次开发者大会发布了最 新模型 GPT-4 Turbo,可以定制个人版本 ChatGPT 的平台和 GPT Store,开发者还能与 OpenAI 进行收入分成。 谷歌作为深度学习的领导者,推出语言模型 PaLM2 和 Gemini 大模型。除 HellaSwag 数据集外,Gemini 其它基 准测试领先 GPT-4。开源社区和开源模型也是大模型发展的重要力量。Meta 于 2023 年 7 月发布了免费商用版 开源大模型 LLaMA2,同时 Meta 将与微软合作, Llama 2 将在 Azure 和 Windows 上登录。我们认为目前多 模态大模型仍是主要发展趋势,后续预计各家厂商将聚焦于 AI 大模型走向规模化应用。
人工智能大模型正掀起新一轮科技发展热潮,重塑生产方式、优化产业结构、提升生产效率的赋能效应日益显 现,通用人工智能的序幕已经拉开。随着 ChatGPT 在全球范围内获得显著的成功和关注,中国的主要科技公司 (如阿里巴巴、百度、腾讯、华为)、兴起的创业公司(如质谱华章、百川智能、Minimax)、以及在人工智能 领域已建立声誉的企业(如科大讯飞、商汤科技),连同学术界和研究机构(如智源研究院、清华复旦等大学) 也开始积极投入大模型的开发。根据赛迪顾问数据,截至 2023 年 7 月底,国外大模型发布数量累计达 138 个; 23 年 1-7 月国产大模型增长迅速,发布大模型 64 个。当前,国内这些大型模型还处在探索和成长的初级阶段, 它们在性能和用户友好度方面还有待市场的进一步验证。我们预计在中国,大规模模型市场的竞争布局要完全成 形还需要时间,但考虑到互联网巨头们在人工智能领域的深厚积累,他们可能在这场竞赛中占据先机。
国内产学研用等各方积极布局、大力投身大模型研发应用。百度 CEO 李彦宏指出,截至 2023 年 10 月底国内已 经发布 238 个大模型,通过国家网信办备案的大模型超过 20 个,大模型已进入规模落地应用阶段。据赛迪研究 院数据,2023 年我国大语言模型市场规模将达到 132.3 亿元,增长率达 110%。在 2023 年 12 月 22 日举行的 全国信息技术标准化技术委员会人工智能分委会全体会议上,“大模型标准符合性测试”结果公布,百度文心一 言、腾讯混元大模型、360 智脑、阿里云通义千问四家大模型率先通过测试。 从竞争动态和国际趋势,中国的大模型行业很可能会展现出与全球市场相似的模式。首先,具备强大的技术力量、 资金支持、人才储备和应用场景的大企业,可能会在通用大模型领域占据主导地位。与此同时,中小企业面临着自己的挑战和机遇,他们可以依靠自身在特定细分市场和数据处理方面的优势,成为专注于垂直特定领域的关键 参与者。另外,由于模型训练和用户调用对计算资源的庞大需求,考虑到成本效益和资源可获取性,这些公司可 能会更倾向于与云服务提供商建立合作关系。
三、生成式 AI 应用及展望
AI 大模型高速迭代,多模态 AI 应用持续探索迭代。相比于纯文本大语言模型,多模态模型也有自己的基座模型、 预训练模型以及带有涌现能力的模型,如在基础模型 CLIP、DALLE 的基础上也已衍生出类似 Flamingo、PaLME 等视觉多模态语言模型,通用大语言模型在高速迭代中。从 AI 应用类型来看,目前大语言模型应用不只局限 于 NLP 文本生成,多模态大模型已经可以处理来自不同模态(如视频、图像、语音、文本等)的多种信息,如 自然语言处理、多模态推理、计算机视觉和音频处理等,实现模态之间的转换和统一。各行业也正期待着在多模 态大模型方向上能有类似“ChatGPT 时刻”的出现。
生成式 AI 在文本和图像生成领域持续演进。文本、图像生成领域一直是生成式 AI 发展的重要方向,在扩散模型 成为目前主流之前,GAN(Generative Adversarial Networks)技术一直是比较流行的生成模型之一,英伟达和 微软在早期均有所探索,如英伟达的 StyleGAN 系列。后面随着技术的迭代发展,OpenAI 陆续推出了 DALL-E 的三个版本,也诞生了 Stable Diffusion 系列、Midjourney 等爆款文生图领域相关产品,而 DALL-E3 目前的生 成效果较好,其原生构建在 ChatGPT 基础上,用 ChatGPT 来构建、拓展和优化 Prompt,在生成画面的丰富度、 细节、清晰度等方面表现较为优秀,人们对文图大模型领域的探索一直在进行。
文生图应用迭代效果优秀,DALL·E-3 和 Midjourney V6 的图像细节和光影效果突出。2023 年 9 月,OpenAI 推出最新得文生图模型 DALL·E-3,在语义理解、颗粒处理、图像质量等方面,比之前发布的 DALL·E-2 实现大 幅度提升,可生成写实、二次元、平面、创意、朋克、3D 等多种类型,图片质量、丰富度和准确度相较竞争对 手某些维度更优,在语意、细节理解上表现更好。除了较好得生图效果之外, DALL・E 3 的最大特点是与 ChatGPT 集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。能更好地理解上下 文,并且处理较长的 prompt 效果会更好,将 prompt 中的措辞都尽可能表现出来。同时在安全性方面,OpenAI 在 DALL・E3 上投入了大量工作,包括制定强有力的安全措施,以防止创建「有害」的图像。
另一款海外较流行的文生图应用 Midjourney 已于近期更新了 V6 版本,更新后的版本图像更加真实、细腻、光影 细节明显。总结来说,V6 共有 5 大升级:更精确且更长的提示响应、改进了连贯性和模型知识、图像生成和混 合(remix)得到了优化、新增了基础文字绘制功、upscale(放大器)功能得到增强,具有’subtle’和’creative’两 种模式,分辨率提升两倍。
文生视频应用迭代进展超预期,Runway 和 Pika 产品引领行业革新。在文生视频领域的进展远比想象中迅速: Runway 先后发布 Gen1、Gen2,推出的 Motion Brush 则在可靠性上向前了一步,Stability AI 也在近期发布了 首个 Text-to-Video 模型 Stable Video Diffusion。
2023 年 7 月,Pika Labs 在 Discord 推出服务器,并在几个月时间内收获了 50 万用户,逐渐成为可以同 Runway 同台竞技的黑马公司。11 月底,Pika Labs 正式推出了最新一代视频生成模型 Pika 1.0。Pika 1.0 不仅对视频生 成质量进行了提升,还支持 3D 动画、动漫或电影等多种风格视频。Pika Labs 目前已经累计完成 3 轮、共 5500 万美元融资,最新估值为 2.5 亿美元。Nat Friedman、 Daniel Gross 和 Lightspeed 分别领投了 Pika 的 PreSeed、Seed 和 A 轮融资,此外,众多硅谷明星投资人、AI 领域重要公司 CEO 或核心成员也参与了投资。Pika 1.0 亮点功能具体包括:1)文本生成视频/图像生成视频; 2)面向上传视频进行风格转换;3)扩展视频画布; 4)原有视频内容通过 AI 更改:如更换服装颜色、添加角色、添加道具等;5)延长视频:使用 AI 扩展现有视频 剪辑的长度几秒钟,但延长视频的一致性目前存在问题待改进,且随着延长时间的增加,目前总体视频效果有所 降低。
文生 3D 应用产业化难度略高,仍在探索阶段。RODIN 模型是由微软研究院提出的一种文字生成 3D 模型,首次实现了在 3D 训练数据上利用生成扩散模型自动生成 3D 数字化身;其核心功能在于,只需一张图片甚至一句文 字描述,即可秒级生成 3D 化身。尽管目前 RODIN 仍属于试验性产品,生成结果仅限于半身人像,微软表示未 来将不断扩展技术能力和适用场景。相较于过去的 3D 生成应用,RODIN 模型融合了 NeRF 及英伟达 EG3D 等 工作,能够生成更丰富的 3D 细节,提高了精细度。 在游戏行业,降本增效是关键,而低成本可定制化的 3D 建模技术或成为一个热点。RODIN 模型的核心能力在 于输入文字或图片,即可直接生成 3D 的人物模型,并且支持后续修改装扮和形象,契合游戏行业对人物模型的 需求。相较于过去的 3D 生成应用,这种技术具有更高的精细度,能够提供更具个性化的定制化体验。在 RODIN 被提出后,2023 年 5 月,OpenAI 也发布了文字生成 3D 模型 Shap.E,并在 Github 上开源;这一模型已经能够 生成 3D 资产,为文本生成 3D 领域的发展增添了新的动力。
后续展望:多模态应用能力圈有望不断拓展。GPT-4V 的输入支持纯文本、单个图像-文本对、交错图像-文本对 三种情况,遵循文字说明、视觉指向和视觉参考提示、视觉+文本等多种提示技术,可以逐渐达到多种能力,例 如:识别不同种类的东西、理解图像中人与物体之间的空间关系、确定位置、计算数量;以及对场景文本、表格 图表的推理能力、多语言文本识别描述、代码能力、多模态尝试理解和推理能力等。 在与多模态系统的人机交互中,指向特定空间位置是一项基本能力,例如进行基于视觉的对话,GPT-4V 可以很 好地理解直接画在图像上的视觉指针。同时,微软研究人员也探索了 GPT-4V 在时间和视频理解上的应用,探索 时序预测、时序排序、时序定位、时序推理和基础时序理解等能力有助于衡量模型在一系列静态图像中理解事件 顺序、预测未来事件发生和分析随时间变化的活动的能力。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
AI行业2024年度策略报告: 百尺竿头须进步,十方世界是全身.pdf
业务视角的中国企业AI+学习发展报告,燃动智火.pdf
2024年生成式AI行业调查报告.pdf
传媒行业专题报告:AI+IP,AI多模态下的卖水人.pdf
华勤技术研究报告:智能硬件ODM全球龙头,AI赋能多品类共生成长.pdf
AI手机行业深度报告:AI手机,AI产业革命的决定性力量.pdf