2024年自动驾驶行业报告:Sora技术引领未来趋势
1、Sora横空出世,世界模拟器惊艳世人
AI生成视频从2023年以来呈现快速增长态势,但模型性能一度遇到瓶颈。根据A16Z的统计,AI视频生成模型在2023年四季度呈现井喷式增长。然而在如火如荼的模型发布热潮中,模型本身的进步却难言迅速,大多视频生成模型都遇到了类似的瓶颈:实现较好控制性难度高——即如何让模型精准按照语言的描述控制视频中发生的场景。实现时间一致性难度大——如何让角色、对象和背景在帧之间保持一致,而不会变成其他的东西或者扭曲不易实现,这也直接决定模型生成视频的时长。因此我们通常看到的生成式视频,通常会快速切换画面,并且内容天马行空,这正是为了规避模型弊端采取的举措。
1.1、Sora横空出世,引燃市场热情
Sora凭借惊艳的视频生成效果和分钟级的时长引领市场。前述视频生成模型所遇到的问题在Sora诞生后出现根本改变。2023年2月16日凌晨,OpenAI发布了文生视频大模型Sora,能够根据用户提供的文本描述生成长达60秒的视频,同时视频精准反应提示词内容,复杂且逼真,效果惊艳,引燃市场热情。
对比其他的视频生成工具,Sora的性能优异呈现出碾压式的优势:(1)视频时长:可生成时长长达1分钟的视频,并且品质优异,内容稳定;(2)场景复杂内容逼真:Sora可生成包含多个角色、特定运动类型以及主题精确背景细节复杂的场景,视频效果逼真。(3)语言理解能力优异:Sora能够深入理解提示词并且精准、忠实的表达。(4)灵活度高:Sora可随意生成不同时长、长宽比、分辨率的视频。以最热门的Pika和RunwayML以及StableVideo和Sora做比较,可发现相同的提示词下,Sora生成的视频不仅时长远超其他,效果也优于同时期其他产品。
Sora在进行视频生成任务时,生成的视频一定程度上能够遵循现实世界的物理规律,这使得其模拟现实世界中的人物、动物、环境等,拥有了更广阔的想象空间。(1)空间一致性:Sora能够生成带有动态摄像头的运动视频,随着摄像头的移动和旋转,人物和场景元素在三维空间中始终保持一致的运动规律。(2)时间一致性:在Sora生成的长视频中,元素之间通常能够保持较好的时空一致性,如即使动物被遮挡,或离开画面,在后续的视频中仍然能被较好的呈现。(3)因果一致性:Sora生成的视频可呈现一定的因果关系。比如画家可在画布上留下笔触,人吃汉堡也能在汉堡上留下痕迹。Sora还能够模拟人工过程,如视频游戏,可用基本策略控制《我的世界》,无需特殊的微调,在Sora中提示“我的世界”即可实现。
Sora也呈现出一定的局限性,对物理规律的遵循没有那么严格。在某些场景下无法准确还原物理交互过程,如无法完美的模拟水杯打碎液体飞溅的场景,有些视频中物体会凭空起飞等,表明Sora仍然具有较大的提升空间。
1.2、Diffusion构成Sora基座,不断进步羽翼渐丰
1.2.1、扩散模型逐渐成为AI视觉生成的主流方案
生成式模型在人工智能领域由来已久,近年随着大模型的兴起,生成式模型逐步占到了舞台中央。生成式模型类型丰富,常见的有生成对抗网络(GAN,Generative Adversarial Networks)、变分自编码器(VAE,Variational Autoencoders)、扩散模型(Diffusion)、Transformer等。早年,GAN和VAE模型占据生成式模型市场的主流,GAN的生成效果尚可但收敛难训练困难,而VAE虽然易于训练,但生成效果一般,常常出现样本失真等问题,并不具备大规模使用的基础。Diffusion生成效果优异样本多样性好,相对更容易收敛,逐步引发市场关注,当然方案本身也存在样本生成速度慢、对算力消耗大等问题,近年亦涌现出基于掩码的自回归视频生成算法,总体而言,在生成式模型领域,算法不断演进,性能亦不断提升。
Diffusion模型历经发展逐步确立地位。扩散模型最初在2015年被提出,2020年伯克利大学发布DDPM的论文,标志着架构上扩散模型逐步迈向成熟,其后不断有新的机构将扩散模型不断完善,OpenAI也加入行列之中,发表了“ImprovedDiffusion”、“Classifier Guidance”、“Classifier Free Guidance”等模型,2021年OpenAI发表文章《Diffusion models beat GAN on image Synthesis》表明扩散模型的性能已经超越其他模型方案。
2022年DALLE-2横空出世,通过利用扩散模型和海量数据,该模型呈现出前所未有的理解和创造能力,将扩散模型彻底引入公众视野。此后不到一个月时间谷歌发布文生图模型Imagen、Stability AI公司发布Stable Diffusion的基石模型Laion-5B、系列的基于扩散模型的生成式模型不断出现,持续掀起市场热潮,扩散模型逐步衍生出潜在扩散模型(LDM)、Diffusion Transformer等架构,后期包括Sora等文生视频的模型以及部分文生3D的模型均以扩散模型作为基础,确立了Diffusion模型在视觉生成领域的地位。
1.2.2、扩散模型依靠噪声的添加和祛除实现图像生成
“加噪声”,“祛噪声”形成扩散模型基本原理。扩散模型最初受到了热力学扩散定理模型的启发,像墨水滴入清水中一样,通过前向加噪声训练,反向去噪声推理,经过多个步骤渐进式实现视觉内容的生成。具体而言,为了让扩散过程可以逆转,会训练一个神经网络称为噪声预测器(Noise Predictor)。在训练过程中,建立一个噪声预测器神经网络,选择一张照片,加入文字条件,并逐步骤加入噪声使图像变得嘈杂,最终生成纯噪声图片。这一过程中噪声预测器将学习到中间加入了多少次噪声以及每次加入的是何种噪声。在推理过程中,将训练步骤反向操作,让噪声预测器预测并生成当前步骤下图片中的噪声,从前一步噪声图片中减去该步骤下噪声预测器预测的噪声,图像即变得更加清晰,经过多次迭代即可还原出对应的图片。
1.2.3、StableDiffusion推动模型迈向更广泛受众
潜在扩散模型提升计算效率,增强算法能力,助力扩散模型更广泛推开。前述提到的扩散模型,是在像素空间运行,模型对于算力的消耗巨大,为了解决这一问题,诞生了潜在扩散模型(LDM、稳定扩散模型,Stable Diffusion)。其先通过编码器将图像压缩到一个称作潜在空间的区域中,这时扩散模型将面向潜在空间中的张量来进行添加噪声和祛除噪声的过程,进而大幅减少计算量,之后再将生成的张量通过解码器还原成为图像即可。
这样的算法帮助Stable Diffusion能够在个人电脑上运行,同时这样的方式也被诸多后续的文生图乃至文生视频的算法所采用包括OpenAI的DALLE-3、甚至Sora等。潜在空间(Latent Space)即为抽象的多维空间,能够展示出数据在抽象层面的一些有意义特征和共性,模型通过这些共性的特征可以实现对数据的识别、归类、处理等任务。以人感知世界为例,识别“椅子”时通常会观察其是否包含四只腿和靠背,而颜色、材质则会被忽略,近似的我们将椅子的概念在大脑中压缩成为“带有四个腿、靠背的物体”。
1.2.4、Transformer作为主干的扩散模型DiT,规模优势凸显
Diffusion进一步进化,与Transformer结合,Diffusion Transformer横空出世。扩散模型中的噪声预测器是决定模型生成质量的关键,在扩散模型的奠基性文章DDPM中,作者采用U-net作为噪声预测器的基础网络,U-net为卷积神经网络(CNN)的一种,具有简洁、语义连贯性强等特点,输入和输出的维度相同,天然适合扩散模型,但在和文本融合的过程中U-net会遇到一定的问题。在2022年,伯克利大学的William Peebles和纽约大学的谢赛宁,发表了论文《Scalable Diffusion Models with Transformers》,在扩散模型中采用Transformer替代了传统的U-net,通过实验证明这样的架构体现出明显的规模效应,其运算速度更快、并且生成的图像效果更佳。
具体而言,模型首先采用类似Stable Diffusion的架构,将图像通过解码器(Encoder)压缩至潜在空间,之后参考ViT(Vision Transformer,视觉Transformer,用Transformer来实现图像分类等任务),将图像压缩并分割(Patchify)成为小的序列(Tokens)。之后送入基于Transformer构建的扩散模型中,这里作者设计了四种不同类型架构。最后将生成的序列编码进行解码,输出相应噪声,实现图像生成。DiT的多模态能力提升,视频效果优异,规模效应增强。
相比CNN,Transformer在图像处理领域拥有更好的性能表现,同时更加擅长处理多模态的任务,而这一特点也被Transformer带到了Diffusion Transformer中,DiT拥有更好的多模态信息处理能力和视频生成效果。除此之外,模型显示出显著的规模效应:更大的计算量会显示出明显更优的计算效果。更小的Patch Size(意味着更大的计算量)和更大的参数量都带来更好的图像生成效果。这表明DiT是一个非常适合于通过规模来提升显示效果的模型。
1.2.5、视频生成历经发展,Diffusion模型逐步占据主要市场
Diffusion和Transformer结合在视频生成领域崭露头角。文生视频和文生图拥有着千丝万缕的联系,按照传统,视频本身可以拆分为不同帧的图像,因此文生视频算法的发展通常会伴随文生图算法的演绎路径。早期文生视频领域多采用GAN或VAE架构,如VGAN、VQGAN、DVDGAN等,这一时期生成的视频分辨率低、效果差。随后受到文本GPT3和大规模预训练Transformer架构的启发,很多玩家开始开发基于Transformer架构的文生视频工具如VideoGPT、NUWA等。
最后伴随扩散模型的广泛应用,人们开始逐步将其应用在视频生成领域,伴随着文生图工具的井喷,文生视频行业在2023年也迎来了蓬勃发展的状态。而在2024年,Sora的横空出世更是将文生视频的水平推升到新的高度。后续推出的OpenSora采用了类似DiT架构,清华大学和生数科技推出的Vidu采用了自研的Diffusion和Transformer融合的U-ViT架构,均实现了惊艳的视频生成效果。
1.3、Sora——践行Scalinglaw+强大工程化能力下的产物
Sora是扩散模型和Transformer以及视频压缩网络的综合体。我们可以大致推断Sora模型的技术架构。Sora的主干网络是一个DiffusionTransformer模型,在训练过程中采用了特殊设计的编码器将图像和视频信息进行编码,之后将视频数据压缩为隐变量,输入DiffusionTransformer模型中对模型进行训练。推理的过程中,将自然语言(文字)或者图像乃至视频作为提示词输入到模型中,通过扩散模型输出相应的去噪之后的隐变量并通过解码器将信息解码成为视频,即可输出品质优越的视频结果。
对于大模型来说,除了足够的算力之外,算法结构、数据处理亦是非常重要的环节。相比传统的视频生成模型,Sora模型在数据、算法等几个方面呈现出明显的特点:
数据处理:视频分割和压缩方式、丰富的数据集、强大的自动标注很关键(1)采用特殊的编码方式对视频进行模块化,构建适合于视频生成模型训练的时空模块(SpaceTime Patchs)。大语言模型通常将文本信息转变成Token输入模型进行训练,而在训练视频生成模型时,如何将整段视频经过压缩、转换之后,恰当的分解成小的片段(Patchs)交给扩散模型训练很关键,这一定程度上将决定模型能从输入的视频信息中学到什么。Patch早年在ViT模型中即有体现,在采用Transformer处理图像问题时,会将图像进行分块,进而提升模型处理效率。
在视频领域,Sora技术文档中引用的论文《ViViT: A Video Vision Transformer》介绍了几类视频切分方式:第一种是均匀帧采样,即将每一帧图片进行切分,最后将这些不同帧切分出来的模块一起送入Transformer;另一种方法则将T时间内视频分块,形成管状的模块,模块中同时包含时序和空间信息,这样有效捕捉视频的动态性。我们推断Sora采用了第二种视频数据切分方式。而这样的训练方式或许能够让模型获得更好的帧间关系处理能力。
(2)通过原有文生图等能力,构建高质量的视频文本数据集和文本生成提示词。在构建Sora的过程中,OpenAI训练了专门的模型对视频进行描述,实现对模型内容的标注。在将文本和视频关联起来的过程中,模型是否能够从训练数据中习得“准确的文字描述”对模型性能会产生关键影响。OpenAI采用类似DALLE的技术训练自动标注模型来对所有视频生成文字字幕,这有助于提升视频质量。同时在推理过程中,Sora还利用GPT将剪短的用户提示扩充为较长且非常详细的提示词输入模型,进而让所生成的视频能够忠实的反应客户提示词。
(3)Sora采用了特殊的数据处理形式,能够保证视频以原有尺寸进行训练。通常情况下的图像和视频生成方法在训练模型时会将视频调整大小、剪裁到标准尺寸。OpenAI则通过特殊的数据处理方法,可以允许视频数据以原始尺寸进行训练。这使得Sora能够以灵活的分辨率生成视频,同时能够改善生成视频的构图。研究人员根据Sora技术报告引用的文献推测,OpenAI采用了论文《Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution》中的“patch n' pack”的数据处理方式,来实现对多种分辨率/持续时间/宽高比的视频的适应。
4)特殊的数据集。Sora的训练采用了独特的数据集,有研究人员提出,Sora模型可能采用了游戏引擎的数据来进行训练,到底OpenAI采用了什么样的数据集来训练模型仍然是未知数。以往的经验来看,比如此前的研究发现对大语言模型进行代码训练,会显著提高模型的逻辑性。不同的数据集对模型的性能也会有较大影响。
算法层面:引入DiT算法大幅增强可扩展性(1)Sora采用了DiT(Diffusion Transformer)算法,将传统Diffusion模型中的类卷积神经网络U-net替换成为Transformer模型,这一方案在2022年被伯克利大学的William Peebles和纽约大学的谢赛宁提出,并发表在论文《Scalable Diffusion Models with Transformers》中,而William Peebles也是Sora的主要作者之一。主干网络替换为Transformer拥有明显优势,其一,Transformer目前已经被应用于各类多模态数据的处理,因此本身Transformer更适合处理多样化的视频生成任务;其二,Transformer天然具备捕捉长程或者不规则时间依赖性的能力,在处理长时间维度之间的信息时具有性能有时;最后Transformer的规模效应远远好于其他模型,能够充分发挥规模化的优势。(2)OpenAI的开发者可能在模型训练中增添了某些自回归任务,以让模型能够更好地学习帧与帧之间的关系。
OpenAI强大的算力基础亦给与模型强力支持。在其技术报告中显示,当算力提升时,模型的推理效果也显著提高。Sora的出现是OpenAI强大工程化能力的综合体现,尽管OpenAI并非所有算法的原创,但无论数据集、数据预处理、算法架构上OpenAI都进行了诸多探索,寻找出一套行之有效的方案,结合自身强大的算力基础,将Scalinglaw推升到极致,最终诞生现象级的产品。
2、世界模型——自动驾驶的下一站
世界模型——预测未来的“梦境”。对于世界模型,最早可以追溯到20世纪四五十年代的心理学研究,认为任何动物可以依靠世界模型预测世界的下一个状态。谷歌在2018年发表了影响深远的论文《World Models》,对世界模型做出了如下描述:人类通常会以有限的感官所能感知到的事物为基础,在内心建立一个世界模型,我们所有的行为都基于这个内部的模型来展开。这样的模型不仅能够预测未来,而且能够根据我们当前的运动行为来预测未来的感官数据,我们能够基于这种预测迅速采取行动。以棒球为列,棒球运动员只有毫秒级的击球时间,甚至比视觉信号从眼球传到大脑还短,因此运动员根本无法在挥棒过程中调整和规划路线,之所以能够提前控制肌肉以正确的方式挥出球棒并击中棒球,得益于他们大脑中的“预测模型”,这个能够预测未来世界状态,在我们大脑中凭空演示一遍的“梦境”,就被称为世界模型。之后这篇论文里还构建了一套世界模型的体系,并通过游戏实验发现,如果让模型在“梦境”中预测未来会发生的事情,那么模型的游戏技能将明显提升。
世界模型也是对物理世界“常识”的理解。另外一个被经常提到的是人工智能三巨头之一的YannLecun的“WorldModel”。在YannLecun的著名论文《A Path Towards Autonomous Machine Intelligence》中提到,青少年可以在20小时练习中学会开车,而人工智在大量的训练中仍然无法实现良好的自动驾驶,因此动物和人对世界的理解能力远超当前人工智能和机器学习系统。人类和动物快速学习能力是基于对于世界的基础认识和常识。在人类最初出生的几天,几周,几个月就会学习了大量关于世界如何运转的基本知识,如左右眼有视差,物体不会凭空产生、消失、变形或传送,有些物体的轨迹可预测(如无生命的物体)、有些物体的行为方式有些不好预测(如风沙、水、风中的树叶等),在此基础之上,又会形成一些如稳定性、重力、惯性等概念。后续抽象的概念正式基于这样简单的概念建立。有了这些世界的知识(常识),动物或者人类就可以快速学习新事物,对合理与否进行判断。当然“具备常识”可以被认为是一种实现的路径,基于对世界更深入的理解,最终更好的“预测未来”。
世界模型的构建——感知、记忆、控制模块齐备。在谷歌和DeepMind的论文中,提出了一个简单的世界模型构建的方法,包含视觉感知组件(Vision Model,V)、记忆组件(Memory RNN,R)、和控制组件(Controller,C),几个部分。其中重点在于视觉感知和记忆组件。视觉感知模块采用变分自编码器(VAE)学习一个抽象的、压缩的表示来描述每一帧的图像输入,这一点与人类相似,人类在观察事物的时候也会对其进行处理,将抽象的信息如物体之间的相对关系、位置等总结出来,而不是观察其绝对尺寸形状等;记忆组件将历史信息进行关联和压缩,并对下一个状态的信息进行预测,当然也会受到自身行为带来的外部环境变化的反馈所影响;世界模型主要由“感知”和“记忆”模块构成;控制组件负责确定所要采取的行动。经过试验发现,世界模型能够以远超其他方法的分数完成赛车游戏。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)