【国信证券】AIGC系列专题之月度回顾：多模态大模型与应用快速迭代，主题驱动板块投资热度回升.pdf

行业研究

2024-02-21

51页

4MB

国信证券

1. 总览：AI带动近期市场表现，Chatbot用户活跃表现良好

海外：英伟达、META等标的涨幅较好

美股AI近期表现较好，英伟达、META、C3等涨幅较大。近一个月，英伟达、META、C3涨幅较大，分别为22.1%、23.4%、15.8%，亚马逊、IBM也有接近10%的涨幅。

海外Chatbot访问量稳中有升，国内Chatbot访问量增长迅猛

海外Chatbot访问量稳中有升。ChatGPT今年1月访问量1609百万次，环比提升4%，Character.AI 1月访问量181百万次，环比提升1%。此外，Pi、Poe、Perplexity等访问量环比稳中有升。近期国内Chatbot访问量增长迅猛。文心一言今年1月访问量1498万次，相比2023年10月增长95%；阿里通义千问访问量今年1月访问量达640万次，近一个月以来增长223%。此外，Kimi、抖音豆包近期访问量增长较快。

海内外AI进展迅速，带动国内人工智能板块反弹

近期海内外科技进展迅速，带动国内人工智能反弹。Wind人工智能指数年初至今涨幅12.1%，主要由于春节期间OpenAI发布Sora、谷歌发布Gemini1.5，大模型特别是文生视频进展超出预期；同时伴随股价上涨、交易量也大幅回升。

从个股维度来看，涨幅较大的为万兴科技（+6.8%）、昆仑万维（+2.9%）、科大讯飞（+0.3%）、江南化工（+0.3%）等；跌幅较大的为思创医惠、劲拓股份、读客文化等。

从个股维度来看，涨幅较大的为中视传媒（+59.0%）、神州泰岳（+2.9%）、科大讯飞（+0.3%）、江南化工（+0.3%）等；跌幅较大的为龙韵股份、文投控股、电声股份、佳云科技等。

2. 大模型及算法：多模态成为行业热点

海外：OpenAI发布Sora、谷歌发布Gemini1.5

OpenAI发布文生视频模型Sora，可以根据文本生成复杂场景下1分钟的视频

2月15日，OpenAI发布Sora模型，可以根据用户输入的文本描述，生成一段视频内容，视频时长可达1分钟且视觉质量较高。对于任何需要制作视频的艺术家、电影制片人或学生来说，这都带来了无限可能。Sora 可以创建包含多人、特定运动类型和详细背景的复杂场景。它能生成准确反映用户提示的视频。例如，Sora 可以制作时尚女性走在霓虹闪烁的东京街头的视频、雪地里的巨型长毛象视频，甚至是太空人冒险的电影预告片。

谷歌Gemini1.5上线，大模型“视野”被史诗级地拓宽

2月15日，谷歌DeepMind首席科学家Jeff Dean，以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini1.5系列的诞生。其中，最高可支持10,000K token超长上下文的Gemini 1.5 Pro，也是谷歌最强的MoE大模型。1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库，或是超过700,000个单词。这意味着大模型的“视野”被史诗级地拓宽，新大模型可以深入理解海量信息、横跨不同的媒介、高效处理更长的代码、分析和掌握复杂的代码库、长篇复杂文档的推理。

海外：Meta AI 视频模型密集更新

Meta GenAI 团队推出 FlowVid，支持快速合成、修改视频并保持一致性

来自得克萨斯大学奥斯汀分校的 Meta GenAI 团队成员，提出了一个能够保持一致性的V2V（视频到视频）合成框架——FlowVid。仅需1.5分钟，就能生成一段4秒，每秒30帧、分辨率为512x512的视频。同时，FlowVid 能够无缝与现有 I2I 模型配合，支持多种修改方式，包括风格化、物体替换和局部编辑。

Meta GenAI 团队推出 Fairy，可轻松替换视频人物、改变风格

1月8日报道，Meta 的 GenAI 团队推出了视频到视频综合模型“Fairy”，该模型比现有模型更快，时间上更一致。研究团队展示了Fairy 在几个应用中的表现，包括角色/物体替换，风格化和长形式视频生成。Fairy 使用交叉帧关注机制，确保时间上的一致性和高保真度合成。该模型可以在仅 14 秒内生成大小为 512 x384 像素、120 帧（30 fps 下的 4 秒）的视频，比以前的模型至少快44倍。但该模型目前在处理如雨、火灾或闪电等动态环境效果方面存在问题，这些效果要么无法很好地融入整个场景，要么会产生视觉错误。

海外：OpenAI推出GPT Store和Vision Pro版ChatGPT

OpenAI推出Vision Pro版ChatGPT 。5日讯，OpenAI近日在X平台发文宣布，ChatGPT已正式登陆苹果Vision Pro，用户可以在visionOS App Store下载应用。据悉，这款应用在visionOS的显示效果与iPad版本差别不大，并没有为visionOS提供额外的风格效果。

OpenAI 推出在线商店 GPT Store 和新付费产品 ChatGPT Team 。1 月 11 日凌晨，OpenAI 宣布正式向 ChatGPT Plus、开发团队和企业用户推出 GPT Store，自发布 GPTs 两个月以来，用户已经创建了超过 300 万个 ChatGPT 自定义版本。GPT Store 汇集了用户为各种任务创建的 ChatGPT 的自定义版本，例如可以教孩子数学的聊天机器人，以及编程导师、读书指南等。OpenAI 还为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”：套餐内每位用户按年计费时，为每月 25 美元；按月计费则为每月 30 美元。与 Enterprise 用户一样，Team 的套餐也配备数据隐私保护功能。据悉，OpenAI 已经为 ChatGPT 提供了两个付费计划，一个是面向个人用户的 ChatGPT Plus，另一个是面向大型企业的ChatGPT Enterprise。

国内：AI 大模型持续推进

面壁智能联合清华发布大模型智能体 GitAgent 。1 月 15 日报道，面壁智能联合清华大学自然语言处理实验室发布了 GitAgent，这是一种可以自主扩展工具箱的大模型智能体应用框架。通过 GitAgent，大模型智能体可以从 GitHub 上扩展工具集合，以应对复杂任务需求。GitAgent 的工具箱扩充过程包括搜索、配置、应用和存储四个阶段。在搜索阶段，GitAgent 会在 GitHub 上搜索适合用户需求的仓库，并判断仓库是否能用来解决问题。在配置阶段，GitAgent 会根据仓库的 README 文件执行配置命令，还可以通过学习人类经验来解决问题。在应用阶段，GitAgent 使用配置好的仓库来解决用户需求，如果仓库没有清晰的使用入口，GitAgent 还可以通过学习人类经验来解决问题。在存储阶段，GitAgent 将配置好的仓库及其执行环境存储下来，以便未来使用。

智谱 AI 推出新一代基座大模型 GLM-4 。1 月 16 日，智谱 AI 发布新一代基座大模型 GLM-4。据智谱 AI CEO 张鹏介绍，GLM-4 的整体性能相比上一代大幅提升，逼近GPT-4。具体表现上，GLM-4 可以支持 128 k 的上下文窗口长度，单次提示词可以处理的文本可以达到 300 页。同时在多模态能力方面，文生图和多模态理解都得到了增强。除此之外，GLM-4 还提升了智能体能力，可以根据用户意图，进行自动理解和规划复杂指令，也能自由调用网页浏览器。据了解，此次 GLM-4 的发布及上线，是智谱 AI 大模型研发上的一则关键突破。

国内：多模态大模型陆续发布

深度求索推出首个国产开源MoE大模型。深度求索团队最新开源160亿参数专家模型DeepSeek MoE，表现完全不输给密集的Llama 2-7B模型，计算量却仅有40%。这个模型堪称19边形战士，特别是在数学和代码能力商对Llama形成了碾压。除了性能上表现优异，DeepSeek MoE主打的就是节约计算量。

SD 社区图生视频插件 I2V-Adapter 发布。1 月 14 日报道，近期，由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video DiffusionModels》发布，该研究引入了一个创新的图像到视频转换方法，提出了一种轻量级适配器模块，即 I2V-Adapter，它能够在不需要改变现有文本到视频生成（T2V）模型原始结构和预训练参数的情况下，将静态图像转换成动态视频。相比于现有方法，I2V-Adapter大幅减少了可训练参数（最低可达22M，为主流方案例如 Stable Video Diffusion [1] 的1%），同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验，研究者证明了I2V-Adapter在生成高质量视频内容方面的有效性，为 I2V 领域的创意应用开辟了新的可能性。

3. B端应用：营销/视频/图片等领域持续推进

海外：AI 视频创作工具不断升级

Pika 推出视频画面扩充功能。文生视频软件 Pika 官方近日宣布推出视频画面扩充功能，用户输入文字生成图像后，若需要一些额外的画面，可以点击ExpandCanvas功能按钮扩展画面。同时，Pika 还支持调整视频风格，点击编辑按钮，输入用户想要的风格提示，就可以轻松切换视频的风格。

Runway 更新 Multi-Motion Brush 运动笔刷功能。 1 月 18 日报道，Runway 更新了 Multi-Motion Brush 运动笔刷功能。这是 Gen-2 Motion Brush 的一个新版本，目前处于早期测试阶段。用户可以在输入图像中选择多达 5 个不同的主题或区域，来分别控制它们的运动。这一更新为用户提供了更多的创作可能性，让他们可以更加灵活地控制图像中不同部分的动态效果。

4.C端应用：从购物到娱乐、教育，场景不断丰富

海外：微软推出Copilot Pro并上线ChatGPT GPTs功能

微软推出 Copilot Pro 订阅。 1 月 16 日消息，微软为其 Copilot 助手推出了新的高级订阅服务 Copilot Pro，并将其适用范围扩展到更多设备和应用。据悉，Copilot Pro 订阅每用户每月收费 20 美元，支持 Windows PC、Web、App 使用，而且“即将登陆手机”。目前，Copilot 已经推出了Android 和 iOS 版本，微软表示将于下个月推出适用于这两个平台的 Microsoft 365 应用。微软执行副总裁兼消费者首席营销官表示，那些选择加入 Copilot Pro 的用户还将首批获得 OpenAI 最新模型，从今天开始，订阅用户也可以在高峰时段使用GPT-4 Turbo以获得更快的速度和性能。此外，Designer（以前称为 Bing Image Creator）的生图功能将更快，同时“每天增加至100 次，并为用户带来更高的画质及更多图像格式”。

微软 Copilot 上线 ChatGPT GPTs 功能。微软已经邀请部分Copilot用户，体验由ChatGPT提供的诸多GPT功能。这些GPT功能并非Copilot Pro用户的专属功能，目前已陆续向普通用户开放。Copilot GPT不需要微软账户或Edge浏览器。根据媒体测试，可以在Chrome浏览器上，不登录微软账号的情况下访问GPT功能。目前Copilot GPT提供的功能模块比较有限，只有健身、设计或烹饪等基础GPT。

海外：生成式 AI 产品密集发布

亚马逊正推出一款面向购物者的生成式 AI 工具。1 月 17 日报道，亚马逊正推出一款面向购物者的生成式 AI 工具，能够回答有关特定商品的问题。该功能主要是通过从产品评论和列表处收集信息并进行汇总，目前仅限于一种产品的询问，并不能够比较产品或寻找替代品。亚马逊将继续对这款工具进行测试。

TikTok 内测 AI 生成歌曲功能。TikTok 内测 AI 生成歌曲功能：用户只需输入歌词文本，可自选曲风：1 月 19 日报道，TikTok 目前正在测试一项新功能，借助大语言模型 Bloom 的能力，使用 AI 来生成歌曲。具体来看，用户可在上传内容时提供歌词文本，随后 TikTok 会引导用户使用“AISong”功能为文本添加声音，用户还可以自选曲风。目前，该功能仍未向所有用户开放，但它似乎还存在人声跑调等问题。报道称，TikTok用户Kristi Leilani 尝试用 TikTok 生成了一段由“小甜甜”Britney Spears“演唱”的歌曲，但听上去有些走音。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）