【华西证券】Sora划时代：算力应用再加速.pdf

2024-02-19

35页

4MB

01 3 Sora：划时代的文生视频大模型

Sora——划时代文生视频大模型

Sora是由OpenAI发布的文生视频大模型，此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词，生成60s的连贯视频，远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够依据客户的文本提示，将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型，其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像，甚至包括生成长达一分钟的高清视频。

打造虚拟世界模拟器。Sora采用了Transformer架构，该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora，也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模，是构建模拟物理世界通用模拟器的非常有希望的方向。

视频压缩网络：Sora研究员专门训练了一个网络，专门负责降低视觉数据的维度。这个网络接收原始视频作为输入，并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练，并最终生成视频。此外，研究员还设计了一个解码器模型，它可以将生成的潜在表示重新映射回像素空间，从而生成可视的视频或图像。

时空包：当给定一个压缩后的输入视频时，从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，研究员只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。

模型能力行业领先

Sora生成的视频具有多样化表现。在原始视频图像数据直接训练：过去，图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸，如4秒、256x256分辨率的视频。但Sora打破了这一常规，它直接在原始大小的数据上进行训练，从而带来了诸多优势。采样更灵活：Sora具备出色的采样能力，无论是宽屏1920x1080p视频、垂直1080x1920视频，还是介于两者之间的任何视频尺寸，它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是，即使在生成全分辨率内容之前，Sora也能以较小的尺寸迅速创建内容原型。而所有这一切，都得益于使用相同的模型。

改进构图与框架：实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。为了验证这一点，将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现，在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧，充分展现了其在视频生成领域的卓越性能。

视频时间线的灵活扩展：Sora不仅能生成视频，还能将视频沿时间线向前或向后扩展。从同一个视频片段开始，向时间线的过去延伸。尽管开头各不相同，但最终都汇聚于同一个结尾。而通过这种方法，就能将视频向两个方向延伸，创造出一个无缝的循环视频。

较长视频的连贯性和对象持久性：视频生成领域面对的一个重要挑战就是，在生成的较长视频中保持时空连贯性和一致性。Sora，虽然不总是，但经常能够有效地为短期和长期物体间的依赖关系建模。例如，在生成的视频中，人物、动物和物体即使在被遮挡或离开画面后，仍能被准确地保存和呈现。同样地，Sora能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观的一致性。

模型能力行业领先

Sora依旧有局限性，但未来可期。尽管Sora在模拟能力方面已经取得了显著的进展，但它目前仍然存在许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，如玻璃破碎等。此外，在某些交互场景中，比如吃东西时，Sora并不能总是产生正确的对象状态变化，包括在长时间样本中发展的不一致性或某些对象不受控的出现等。我们相信随着技术的不断进步和创新，Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来，期待看到更加先进的视频生成技术，能够更准确地模拟现实世界中的各种现象和行为，并为人们带来更加逼真、自然的视觉体验。

02 多模态下游应用百花齐放

多模态+视频创作：提升创作者效率

Lumiere ：Lumiere的核心功能之一是其支持文本到视频和图像到视频的转换能力。这得益于其采用的时空 U-Net (STUNet) 架构，这一架构的设计重点在于提高 AI 生成视频中运动的真实感。Lumiere能够在单个过程中生成完整的视频序列，而非简单组合静态帧。这种技术能够同时处理视频的空间（即视频中的对象）和时间（即视频中的运动）方面，为用户带来更加自然和流畅的运动感知体验。

Bilibili：在生成式人工智能领域，大语言模型展现出不俗的实力，无论是撰写文章、编写代码、还是开放式问答，都展现出无限的潜力。基于大语言模型强大的理解能力，通过将视频字幕处理成格式化的文本，输入给模型，让它结合上下文语境，挑选出最精彩的部分。通过提示工程（Prompt Engineering），大语言模型在视频高能点的选取上也有很高的准确度。哔哩哔哩还在积极探索相关技术在其他业务形态下的应用场景，如：视频章节拆分与直播带货大纲来提高创作者效率。

多模态+自动驾驶：彻底改变人车交互

LimSim++: 一个自动驾驶中部署多模态LLMs的闭环平台。LimSim++提供了一个包含道路拓扑、动态交通流、导航、交通控制和其他基本信息的闭环系统。提示是（M）LLM支持的智体系统基础，它包含通过图像或文本描述呈现的实时场景信息。LLM支持的智体系统具有信息处理、工具使用、策略制定和自我评估等功能。

V2VFormer++：首个多模态V2V框架。对于每辆车，采用具有特定模态backbone的双流网络在 BEV 平面中进行相机-LiDAR 特征提取（使用稀疏交叉注意 SCA 模块进行相机-视图变换），并设计动态通道融合（DCF）以实现精细 - 粒度像素点聚合。给定多模态BEV图，进行数据压缩和共享以生成一组在自车-坐标处的特征图Fcav。随后，提出了全局-局部transformer协同策略，用于相邻 CAV 之间的通道语义探索和空间相关建模。最后，将多车辆融合图 Fjoint 输入到预测头中以进行目标分类和定位回归。

多模态+广告（电商）：创造多样化营销卖点

利用AI技术进一步提升数字人的多样性，比如人脸替换、背景替换、口音语音替换去适配我们的prompt，最后脚本、数字人唇形替换、背景替换、人脸替换，视频压制之后，就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即可做好一个数字人，极大地提升了广告主做数字人的能力。

大模型还可以帮助商业实现营销海报的生成和商品背景的替换。通过大数据的训练之后，客户还希望有一些特别个性化的东西，未来还需要加入一些微调的方式。

多模态+医疗：为临床医疗任务提供更为智能、高效的解决方案

RadFM 具有巨大的临床应用意义：支持三维数据：在实际临床环境中，CT 和 MRI 被广泛使用，大多数疾病的诊断在很大程度上依赖于它们。RadFM 的模型设计能够处理真实的临床成像数据。多图像输入：诊断通常需要输入来自各种模态的多影像作为输入，有时甚至需要历史放射图像，因此支持多图像输入 RadFM 能够很好的满足此类临床需求。交错数据格式：在临床实践中，图像分析通常需要了解患者的病史或背景。交错数据格式允许用户自由输入额外的图像背景信息，确保模型能结合多源信息完成复杂的临床决策任务。

多模态+安防：AI+安防加速演变

算法精确度和效果提升：例如，在视频监控场景中这些技术可以通过对图像和声音的分析，实现目标行为识别和异常检测等功能。多模态算法融合应用：在安防领域，多模态技术可以将图像、语音和文本等数据进行融合，从而实现更全面和准确的情报分析和预警。 AI算法从边缘智能向中心智能的倾斜：安防AI算法最开始是以中心智能算法处理为主，后来开始兴起边缘智能设备，把算法集成到终端；随着大模型的推广，中心智能的必要性将增加，AI的智能算法中心将起到新的核心作用。算法自适应学习：在安防领域，这种技术可以通过对历史数据的分析和学习，实现对未知事件的快速响应和处理。智能决策支持：在安防领域，这种技术可以通过对事件的分类和预测，实现智能化的决策支持和应急响应。个性化服务：在安防领域，这种技术可以为不同的客户提供特定的安全方案和风险评估。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）