【国信证券】AIGC系列专题之月度回顾:多模态大模型与应用快速迭代,主题驱动板块投资热度回升.pdf

2024-02-21
51页
4MB

1. 总览:AI带动近期市场表现,Chatbot用户活跃表现良好


海外:英伟达、META等标的涨幅较好


美股AI近期表现较好,英伟达、META、C3等涨幅较大。近一个月,英伟达、META、C3涨幅较大,分别为22.1%、23.4%、15.8%,亚马逊、IBM也有接近10%的涨幅。


海外Chatbot访问量稳中有升,国内Chatbot访问量增长迅猛


海外Chatbot访问量稳中有升。ChatGPT今年1月访问量1609百万次,环比提升4%,Character.AI 1月访问量181百万次,环比提升1%。此外,Pi、Poe、Perplexity等访问量环比稳中有升。 近期国内Chatbot访问量增长迅猛。文心一言今年1月访问量1498万次,相比2023年10月增长95%;阿里通义千问访问量今年1月访问量达640万次,近一个月以来增长223%。此外,Kimi、抖音豆包近期访问量增长较快。


海内外AI进展迅速,带动国内人工智能板块反弹


近期海内外科技进展迅速,带动国内人工智能反弹。Wind人工智能指数年初至今涨幅12.1%,主要由于春节期间OpenAI发布Sora、谷歌发布Gemini1.5,大模型特别是文生视频进展超出预期;同时伴随股价上涨、交易量也大幅回升。


从个股维度来看,涨幅较大的为万兴科技(+6.8%)、昆仑万维(+2.9%) 、科大讯飞(+0.3%)、江南化工(+0.3%)等;跌幅较大的为思创医惠、劲拓股份、读客文化等。


从个股维度来看,涨幅较大的为中视传媒(+59.0%)、神州泰岳(+2.9%) 、科大讯飞(+0.3%)、江南化工(+0.3%)等;跌幅较大的为龙韵股份、文投控股、电声股份、佳云科技等。


2. 大模型及算法:多模态成为行业热点


海外:OpenAI发布Sora、谷歌发布Gemini1.5


OpenAI发布文生视频模型Sora,可以根据文本生成复杂场景下1分钟的视频


2月15日,OpenAI发布Sora模型,可以根据用户输入的文本描述,生成一段视频内容,视频时长可达1分钟且视觉质量较高。对于任何需要制作视频的艺术家、电影制片人或学生来说,这都带来了无限可能。Sora 可以创建包含多人、特定运动类型和详细背景的复杂场景。它能生成准确反映用户提示的视频。例如,Sora 可以制作时尚女性走在霓虹闪烁的东京街头的视频、雪地里的巨型长毛象视频,甚至是太空人冒险的电影预告片。


谷歌Gemini1.5上线,大模型“视野”被史诗级地拓宽


2月15日,谷歌DeepMind首席科学家Jeff Dean,以及联创兼CEO的Demis Hassabis激动地宣布了最新一代多模态大模型——Gemini1.5系列的诞生。其中,最高可支持10,000K token超长上下文的Gemini 1.5 Pro,也是谷歌最强的MoE大模型。1.5 Pro能够一次性处理海量信息——比如1小时的视频、11小时的音频、超过30,000行的代码库,或是超过700,000个单词。这意味着大模型的“视野”被史诗级地拓宽,新大模型可以深入理解海量信息、横跨不同的媒介、高效处理更长的代码、分析和掌握复杂的代码库、长篇复杂文档的推理。


海外:Meta AI 视频模型密集更新


Meta GenAI 团队推出 FlowVid,支持快速合成、修改视频并保持一致性


来自得克萨斯大学奥斯汀分校的 Meta GenAI 团队成员,提出了一个能够保持一致性的V2V(视频到视频)合成框架——FlowVid。仅需1.5分钟,就能生成一段4秒,每秒30帧、分辨率为512x512的视频。同时,FlowVid 能够无缝与现有 I2I 模型配合,支持多种修改方式,包括风格化、物体替换和局部编辑。


Meta GenAI 团队推出 Fairy,可轻松替换视频人物、改变风格


1月8日报道,Meta 的 GenAI 团队推出了视频到视频综合模型“Fairy”,该模型比现有模型更快,时间上更一致。研究团队展示了Fairy 在几个应用中的表现,包括角色/物体替换,风格化和长形式视频生成。Fairy 使用交叉帧关注机制,确保时间上的一致性和高保真度合成。该模型可以在仅 14 秒内生成大小为 512 x384 像素、120 帧(30 fps 下的 4 秒)的视频,比以前的模型至少快44倍。但该模型目前在处理如雨、火灾或闪电等动态环境效果方面存在问题,这些效果要么无法很好地融入整个场景,要么会产生视觉错误。


海外:OpenAI推出GPT Store和Vision Pro版ChatGPT


OpenAI推出Vision Pro版ChatGPT 。5日讯,OpenAI近日在X平台发文宣布,ChatGPT已正式登陆苹果Vision Pro,用户可以在visionOS App Store下载应用。据悉,这款应用在visionOS的显示效果与iPad版本差别不大,并没有为visionOS提供额外的风格效果。


OpenAI 推出在线商店 GPT Store 和新付费产品 ChatGPT Team 。1 月 11 日凌晨,OpenAI 宣布正式向 ChatGPT Plus、开发团队和企业用户推出 GPT Store,自发布 GPTs 两个月以来,用户已经创建了超过 300 万个 ChatGPT 自定义版本。GPT Store 汇集了用户为各种任务创建的 ChatGPT 的自定义版本,例如可以教孩子数学的聊天机器人,以及编程导师、读书指南等。OpenAI 还为团队规模较小的企业用户推出了新的付费套餐“ChatGPT Team”:套餐内每位用户按年计费时,为每月 25 美元;按月计费则为每月 30 美元。与 Enterprise 用户一样,Team 的套餐也配备数据隐私保护功能。据悉,OpenAI 已经为 ChatGPT 提供了两个付费计划,一个是面向个人用户的 ChatGPT Plus,另一个是面向大型企业的ChatGPT Enterprise。


国内:AI 大模型持续推进


面壁智能联合清华发布大模型智能体 GitAgent 。1 月 15 日报道,面壁智能联合清华大学自然语言处理实验室发布了 GitAgent,这是一种可以自主扩展工具箱的大模型智能体应用框架。通过 GitAgent,大模型智能体可以从 GitHub 上扩展工具集合,以应对复杂任务需求。GitAgent 的工具箱扩充过程包括搜索、配置、应用和存储四个阶段。在搜索阶段,GitAgent 会在 GitHub 上搜索适合用户需求的仓库,并判断仓库是否能用来解决问题。在配置阶段,GitAgent 会根据仓库的 README 文件执行配置命令,还可以通过学习人类经验来解决问题。在应用阶段,GitAgent 使用配置好的仓库来解决用户需求,如果仓库没有清晰的使用入口,GitAgent 还可以通过学习人类经验来解决问题。在存储阶段,GitAgent 将配置好的仓库及其执行环境存储下来,以便未来使用。


智谱 AI 推出新一代基座大模型 GLM-4 。1 月 16 日,智谱 AI 发布新一代基座大模型 GLM-4。据智谱 AI CEO 张鹏介绍,GLM-4 的整体性能相比上一代大幅提升,逼近GPT-4。具体表现上,GLM-4 可以支持 128 k 的上下文窗口长度,单次提示词可以处理的文本可以达到 300 页。同时在多模态能力方面,文生图和多模态理解都得到了增强。除此之外,GLM-4 还提升了智能体能力,可以根据用户意图,进行自动理解和规划复杂指令,也能自由调用网页浏览器。据了解,此次 GLM-4 的发布及上线,是智谱 AI 大模型研发上的一则关键突破。


国内:多模态大模型陆续发布


深度求索推出首个国产开源MoE大模型。 深度求索团队最新开源160亿参数专家模型DeepSeek MoE,表现完全不输给密集的Llama 2-7B模型,计算量却仅有40%。这个模型堪称19边形战士,特别是在数学和代码能力商对Llama形成了碾压。除了性能上表现优异,DeepSeek MoE主打的就是节约计算量。


SD 社区图生视频插件 I2V-Adapter 发布 。1 月 14 日报道,近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video DiffusionModels》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。相比于现有方法,I2V-Adapter大幅减少了可训练参数(最低可达22M,为主流方案例如 Stable Video Diffusion [1] 的1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验,研究者证明了I2V-Adapter在生成高质量视频内容方面的有效性,为 I2V 领域的创意应用开辟了新的可能性。


3. B端应用:营销/视频/图片等领域持续推进


海外:AI 视频创作工具不断升级


Pika 推出视频画面扩充功能。 文生视频软件 Pika 官方近日宣布推出视频画面扩充功能,用户输入文字生成图像后,若需要一些额外的画面,可以点击ExpandCanvas功能按钮扩展画面。同时,Pika 还支持调整视频风格,点击编辑按钮,输入用户想要的风格提示,就可以轻松切换视频的风格。


Runway 更新 Multi-Motion Brush 运动笔刷功能。 1 月 18 日报道,Runway 更新了 Multi-Motion Brush 运动笔刷功能。这是 Gen-2 Motion Brush 的一个新版本,目前处于早期测试阶段。用户可以在输入图像中选择多达 5 个不同的主题或区域,来分别控制它们的运动。这一更新为用户提供了更多的创作可能性,让他们可以更加灵活地控制图像中不同部分的动态效果。


4.C端应用:从购物到娱乐、教育,场景不断丰富


海外:微软推出Copilot Pro并上线ChatGPT GPTs功能


微软推出 Copilot Pro 订阅。 1 月 16 日消息,微软为其 Copilot 助手推出了新的高级订阅服务 Copilot Pro,并将其适用范围扩展到更多设备和应用。据悉,Copilot Pro 订阅每用户每月收费 20 美元,支持 Windows PC、Web、App 使用,而且“即将登陆手机”。目前,Copilot 已经推出了Android 和 iOS 版本,微软表示将于下个月推出适用于这两个平台的 Microsoft 365 应用。微软执行副总裁兼消费者首席营销官表示,那些选择加入 Copilot Pro 的用户还将首批获得 OpenAI 最新模型,从今天开始,订阅用户也可以在高峰时段使用GPT-4 Turbo以获得更快的速度和性能。此外,Designer(以前称为 Bing Image Creator)的生图功能将更快,同时“每天增加至100 次,并为用户带来更高的画质及更多图像格式”。


微软 Copilot 上线 ChatGPT GPTs 功能 。微软已经邀请部分Copilot用户,体验由ChatGPT提供的诸多GPT功能。这些GPT功能并非Copilot Pro用户的专属功能,目前已陆续向普通用户开放。Copilot GPT不需要微软账户或Edge浏览器。根据媒体测试,可以在Chrome浏览器上,不登录微软账号的情况下访问GPT功能。目前Copilot GPT提供的功能模块比较有限,只有健身、设计或烹饪等基础GPT。


海外:生成式 AI 产品密集发布


亚马逊正推出一款面向购物者的生成式 AI 工具 。1 月 17 日报道,亚马逊正推出一款面向购物者的生成式 AI 工具,能够回答有关特定商品的问题。该功能主要是通过从产品评论和列表处收集信息并进行汇总,目前仅限于一种产品的询问,并不能够比较产品或寻找替代品。亚马逊将继续对这款工具进行测试。


TikTok 内测 AI 生成歌曲功能 。TikTok 内测 AI 生成歌曲功能:用户只需输入歌词文本,可自选曲风:1 月 19 日报道,TikTok 目前正在测试一项新功能,借助大语言模型 Bloom 的能力,使用 AI 来生成歌曲。具体来看,用户可在上传内容时提供歌词文本,随后 TikTok 会引导用户使用“AISong”功能为文本添加声音,用户还可以自选曲风。目前,该功能仍未向所有用户开放,但它似乎还存在人声跑调等问题。报道称,TikTok用户Kristi Leilani 尝试用 TikTok 生成了一段由“小甜甜”Britney Spears“演唱”的歌曲,但听上去有些走音。


报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

AIGC系列专题之月度回顾:多模态大模型与应用快速迭代,主题驱动板块投资热度回升.pdf

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

【国信证券】AIGC系列专题之月度回顾:多模态大模型与应用快速迭代,主题驱动板块投资热度回升.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00