【西南证券】OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升.pdf

2024-02-28
37页
4MB

1 从Sora看文生视频模型的技术路径


发展现状:多模态发展已成共识,视觉生成热潮逐步兴起


从模态发展情况来看:AI大模型的生成和理解能力从单模态向多模态发展已成社会共识。当前,大 语言模型在文本端的应用趋于成熟,图像和视频生成技术快速发展,AI视觉浪潮正加速到来。


从市场催化节奏来看:受文本端杀手级应用ChatGPT(于22年11月推出)和图像生成代表应用 Midjourney V5(于23年3月推出)的影响,文本端和图像生成应用已于2023年迎来市场催化。 2024年2月16日,OpenAI发布Sora文生视频,引发市场对视频生成领域的高度关注。未来,随着 模型的持续迭代和相关应用的涌现,视频生成领域有望在24年迎来热潮。


发展现状:文本端技术路径收敛于LLM,视觉生成领域仍在探索


从技术路径收敛情况来看:1)文本生成方面,在OpenAI GPT系列模型的引领下,大语言模型 (LLM—large language model)已成为当前文本端的确定性路径。2)多模态方面,图像和视 频生成的技术路径均未收敛。图像和视频生成主要包括两大路径:扩散模型(Diffusion Model) 和自回归模型(Autoregressive Model),其中,扩散模型是当前主流,而基于transformer架构 的自回归模型具备较大潜力,扩散模型也逐步呈现结合Transformer的发展趋势。


路径对比:扩散模型占据主流,自回归模型潜力可期


扩散模型:成为文生图和文生视频领域主流技术路径的核心原因  Available:基于扩散的Stable Diffusion模型选择开源,使广大开发者能够在此基础上运用和优化扩散模型,其公开可用的特性 使之成为图像和视频生成领域的主流基础模型;


自回归模型:在视觉生成领域具备较大发展潜力的主要原因  Scalable:基于transformer的自回 归模型相较于扩散模型更适合、更容易做规模扩展(scale up)。目前,扩散模型的参数规模通常 在billion(十亿)级别,而自回归模型得益于transformer架构,参数具备更大的扩展潜力,图像 和视频领域的自回归模型有望借鉴transformer在文本领域LLM的经验,通过对不同模态进行跨模 态、规模化的建模,实现“大力出奇迹”。


扩散模型:发展历程


扩散模型持续迭代,助力应用崛起。2020年,DDPM的提出标志着基础扩散模型的出现;21年5月 OpenAI发表论文《Diffusion Models Beat GANs on Image Synthesis》,标志扩散模型打败 GAN;2023年,以Midjourney、Adobe Firefly等应用涌现,图像生成领域热度高涨。


扩散模型:两次关键迭代


扩散模型第一次关键迭代:在像素空间(Pixel Space)之外引入潜在空间(Latent Space)。扩散模 型最初是基于像素空间的Pixel Diffusion,需要处理高分辨率图像等高维(high dimensional)数 据,导致模型的处理速度较慢。2021年12月,论文《High-Resolution Image Synthesis with Latent Diffusion Models》发表,在扩散模型中引入潜在空间,标志着扩散模型第一次关键迭代。


Latent Diffusion相较于Pixel Diffusion的改进:Latent Diffusion的基本思想是首先将高维数据 降维至feature,再在feature上进行diffusion,完成后将特征空间最后投射至图像空间。因此, Latent Diffusion通过将数据处理成低维(low dimensional)数据(图像的latent space比pixel space更小),且更加关注数据的重要语义位,能够更好地在“降低复杂度”和“保留细节度”之 间进行平衡,最终使模型的计算效率更高。


自回归模型:基本原理


自回归模型(Autoregressive Models)基本原理:在数学模型和算法中,自回归模型的核心思 想是基于同一变量的历史值预测未来值。自回归作为一种时间序列模型,通过使用以前时间步长 (previous time steps)的观测值作为回归方程的输入,来预测下一个时间步长(next time step)的值。


自回归模型具备单向性特征,即前向性或后向性。在自回归语言模型中,通过利用上(下)文词, 估计文本语料库的概率分布,预测下(上)一个词,适用于自然语言的生成式任务,如摘要、翻译 和抽象问答,并在长文本生成方面取得较大成功。


自回归模型:代表模型


自回归文生图代表模型——Parti:2022年6月22日,谷歌发表论文《Scaling Autoregressive Models for Content-Rich Text-to-Image Generation》,并推出Parti模型(Pathways Autoregressive Text-to-Image model)。该模型受LLM启发,将文本到图片的生成视为序列到序列的 建模问题,使用Encoder+Decoder的Transformer架构对文本进行编码以及生成图像Token序列, 并将参数量扩展到20B,以获得更好的图像-文本一致性、提升图像生成质量。


自回归文生视频代表模型——VideoPoet:2023年12月21日,谷歌发表论文《VideoPoet: A Large Language Model for Zero-Shot Video Generation》,并推出VideoPoet模型。该模型强 调LLM在视频生成领域依然可以发挥重要作用,能够在动作生成上能够保持较好的一致性、在大范 围移动状态下能够保持较好的连贯性,并实现多任务的一站式处理。


未来趋势:transformer优势凸显,模型构建有望呈现多种方式


Transformer扩展能力突出,扩散模型与其持续结合。当前,为构建性能更优、效率更高的图像和 视频生成模型,已出现多种结合Diffusion Model和Transformer架构的文生视频模型。例如,谷歌 于2023年12月发布与李飞飞老师和其学生合作的文生视频模型——W.A.L.T、OpenAI于2024年2 月发布的文生视频模型——Sora。扩散模型通过引入Transformer架构,发挥其扩展(scaling)能 力,且transformer已在语言建模、计算机视觉和图像生成等多个领域展示其显著的扩展能力,未 来同样有望在视频生成上发挥更大作用。随着技术研究的不断深入,各家可能会利用每个架构最擅 长的部分,呈现多种方式构建模型,扩散模型和transformer架构有望持续结合。


2 从Sora看文生视频模型的最新能力


团队背景:研发实力突出,优秀人才聚集


研发团队年轻,优秀人才聚集。根据OpenAI Sora技术报告,本篇报告作者共13位。其中,Aditya Ramesh、Tim Brooks和Bill Peebles是团队的核心成员,Aditya作为图像生成模型DALL-E的提出 者,主导2021年至2023年DALL-E模型的三次迭代,相关领域研究深入,且团队成员优秀,包括众 多年轻人才,较高的人才密度是打造优质模型的基础。


时间进程:AGI技术积淀已久,视觉生成领域加速推进


前期工作积累深厚,研发进程加速推进。Sora模型的诞生离不开GPT和DALL·E系列模型的积淀, GPT语言模型从2018年开始迭代,第一代DALL·E文生图模型于2021年1月正式发布论文,优质基座 模型和文本-图像配对的优质数据集奠定前期基础,Sora模型最终于2024年2月16日对外宣布。


强大的理解能力:领会并细化提示词,学习及模拟物理世界


争议:Sora是否能够理解事物在物理世界中的存在方式? Sora在一定程度上展示出其可能具备理解物理现象和物理规律的能力。根据OpenAI官网的展示视 频,两艘海盗船在咖啡的波浪中起伏,咖啡的流动、船只周围的泡沫都十分自然,可以看出,尽管 该场景实际上不存在于现实世界,但Sora依然可以根据流体力学等物理规则实现Prompt的要求。 Nvidia高级研究科学家Jim Fan观点:Sora很可能是一个基于数据驱动的物理引擎,是对许多世界 的真实或幻想的模拟,并且模拟渲染直观的物理、推理和基础。Sora必须学习一些隐式形式的文本 到3D的转换、光线追踪渲染和物理规则,以便尽可能准确地对视频像素进行建模。 Transformer架构下的Scaling law对理解物理现象和规则有望持续有效。当模型变大、数据量更 多、视觉场景的分辨率越来越高,Sora所理解的规则的颗粒度将会越来越细,对物理现象和规律的 把控越来越精准,并支持更长上下文的学习,使视频在更长的时间维度下做到一致与合理。


优秀的生成能力:视频长度优势明显,连贯性及可控性提升


为什么Sora能够生成的长达60s的视频?


Patch的表达方式(前提)+ transformer时空信息的处理能力(带来时序概念)+ transformer 的scaling扩展能力(能力)。Sora将视觉数据统一转化为patch的表示方法,在transformer架构 下,patch和patch之间的相关性既包含空间上的相关性,也包含时间上的相关性,而transformer 可以更好地处理视频中各个关键帧像素信息的相关性。因此,在更多的patch下,Sora模型可以把 一个更长的视频完整地表达出来,而transformer的scale up的能力也更加make sense。


3 从Sora看文生视频模型的影响


算力端:参数扩展提升训练算力消耗,应用落地拉动推理算力增长


训练端:模型参数仍有扩展空间,训练算力消耗有望提升。从目前市场上的文生视频模型来看,参 数大小一般处于1B~20B之间,相较于千亿甚至万亿参数级别的大语言模型而言,模型仍有扩展空 间,随着模型持续scaling,训练算力消耗有望持续提升。


推理端:未来应用落地可期,推理算力需求持续增长。扩散模型包括大量的去噪步骤,扩散步骤带 来的算力消耗相较于大语言所需的推理算力需求更高。此外,在视频生成的过程中,视频需要转换 成帧,再转换成patch,因此,随着应用的落地,推理侧所产生的视频帧和patches量将持续增长, 从而带动算力需求,且视频越长、清晰度越高、对物理世界的理解越好,算力消耗越大。


应用端:文生视频模型拓宽应用广度,前期有望以助手角色落地


大模型向多模态方向持续发展,AI应用的广度进一步拓宽。目前,OpenAI已向部分视觉艺术家、 设计师和电影制作人提供访问权限,以获取专业的反馈。根据OpenAI内测方向也代表了文生视频 模型应用的重点领域,我们认为以Sora为代表的视频生成模型有望给广告业、设计业、电影业、短 视频行业、游戏行业带来变化。


视频生成模型前期将扮演创作工具的角色,对文娱行业等进行赋能。当前,以Sora为代表的视频生 成模型距离精确控制尚有一定差距,受制于精确控制的能力,Sora未来的落地形式更可能偏向于 ChatGPT等文本端工具,以助手的角色赋能文娱等领域,从中短期来看,视频生成模型将更多的作 为创作工具对相关行业进行赋能。


报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

OpenAISora专题报告:Transformer扩展优势凸显,视频理解与生成能力提升.pdf

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

计算机行业GenAI系列深度之32:Sora之后,AI视频产业链投资机会.pdf

卡莱特研究报告:聚焦LED视频图像显示控制,海内外加速布局成长可期.pdf

诺瓦星云研究报告:视频图像显控龙头,点亮MLED璀璨星云.pdf

2024AIGC视频生成行业:走向AI创生时代,视频生成的技术演进、范式重塑与商业化路径探索.pdf

AI如何改变视频和内容制作报告.pdf

【西南证券】OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00