01 3 Sora:划时代的文生视频大模型
Sora——划时代文生视频大模型
Sora是由OpenAI发布的文生视频大模型,此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词,生成60s的连贯视频,远超行业 目前大概只有平均“4s”的视频生成长度。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想 象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图 像,甚至包括生成长达一分钟的高清视频。
打造虚拟世界模拟器。Sora采用了Transformer架构,该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora, 也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。
视频压缩网络:Sora研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在 表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在 表示重新映射回像素空间,从而生成可视的视频或图像。
时空包:当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本 质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比 的视频和图像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。
模型能力行业领先
Sora生成的视频具有多样化表现。 在原始视频图像数据直接训练:过去,图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸,如4秒、256x256分辨率的 视频。但Sora打破了这一常规,它直接在原始大小的数据上进行训练,从而带来了诸多优势。 采样更灵活:Sora具备出色的采样能力,无论是宽屏1920x1080p视频、垂直1080x1920视频,还是介于两者之间的任何视频尺寸,它都能 轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是,即使在生成全分辨率内容之前,Sora也能 以较小的尺寸迅速创建内容原型。而所有这一切,都得益于使用相同的模型。
改进构图与框架:实验结果显示,在视频的原始纵横比上进行训练,能够显著提升构图和框架的质量。为了验证这一点,将Sora与一个将所 有训练视频裁剪为方形的模型版本进行了比较。结果发现,在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现 出更加完美的帧,充分展现了其在视频生成领域的卓越性能。
视频时间线的灵活扩展:Sora不仅能生成视频,还能将视频沿时间线向前或向后扩展。从同一个视频片段开始,向时间线的过去延伸。尽管 开头各不相同,但最终都汇聚于同一个结尾。而通过这种方法,就能将视频向两个方向延伸,创造出一个无缝的循环视频。
较长视频的连贯性和对象持久性:视频生成领域面对的一个重要挑战就是,在生成的较长视频中保持时空连贯性和一致性。Sora,虽然不总 是,但经常能够有效地为短期和长期物体间的依赖关系建模。例如,在生成的视频中,人物、动物和物体即使在被遮挡或离开画面后,仍能 被准确地保存和呈现。同样地,Sora能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观的一致性。
模型能力行业领先
Sora依旧有局限性,但未来可期。 尽管Sora在模拟能力方面已经取得了显著的进展,但它目前仍然存在许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程, 如玻璃破碎等。此外,在某些交互场景中,比如吃东西时,Sora并不能总是产生正确的对象状态变化,包括在长时间样本中发展的不一致性 或某些对象不受控的出现等。 我们相信随着技术的不断进步和创新,Sora所展现出的能力预示着视频模型持续扩展的巨大潜力。未来,期待看到更加先进的视频生成技术, 能够更准确地模拟现实世界中的各种现象和行为,并为人们带来更加逼真、自然的视觉体验。
02 多模态下游应用百花齐放
多模态+视频创作:提升创作者效率
Lumiere :Lumiere的核心功能之一是其支持文本到视频和图像到视频的转换能力。这得益于其采用的时空 U-Net (STUNet) 架构,这一架 构的设计重点在于提高 AI 生成视频中运动的真实感。Lumiere能够在单个过程中生成完整的视频序列,而非简单组合静态帧。这种技术能 够同时处理视频的空间(即视频中的对象)和时间(即视频中的运动)方面,为用户带来更加自然和流畅的运动感知体验。
Bilibili:在生成式人工智能领域,大语言模型展现出不俗的实力,无论是撰写文章、编写代码、还是开放式问答,都展现出无限的潜力。基 于大语言模型强大的理解能力,通过将视频字幕处理成格式化的文本,输入给模型,让它结合上下文语境,挑选出最精彩的部分。通过提示 工程(Prompt Engineering),大语言模型在视频高能点的选取上也有很高的准确度。哔哩哔哩还在积极探索相关技术在其他业务形态下 的应用场景,如:视频章节拆分与直播带货大纲来提高创作者效率。
多模态+自动驾驶:彻底改变人车交互
LimSim++: 一个自动驾驶中部署多模态LLMs的闭环平台。LimSim++提供了一个包含道路拓扑、动态交通流、导航、交通控制和其他基本 信息的闭环系统。提示是(M)LLM支持的智体系统基础,它包含通过图像或文本描述呈现的实时场景信息。LLM支持的智体系统具有信息 处理、工具使用、策略制定和自我评估等功能。
V2VFormer++:首个多模态V2V框架。 对于每辆车,采用具有特定模态backbone的双流网络在 BEV 平面中进行相机-LiDAR 特征提取 (使用稀疏交叉注意 SCA 模块进行相机-视图变换),并设计动态通道融合(DCF)以实现精细 - 粒度像素点聚合。 给定多模态BEV图,进 行数据压缩和共享以生成一组在自车-坐标处的特征图Fcav。 随后,提出了全局-局部transformer协同策略,用于相邻 CAV 之间的通道语 义探索和空间相关建模。 最后,将多车辆融合图 Fjoint 输入到预测头中以进行目标分类和定位回归。
多模态+广告(电商):创造多样化营销卖点
利用AI技术进一步提升数字人的多样性,比如人脸替换、背景替换、口音语音替换去适配我们的prompt,最后脚本、数字人唇形替换、背 景替换、人脸替换,视频压制之后,就可以得到一个口播视频。客户得以利用数字人的方式去介绍产品对应的一些营销卖点。这样3分钟即 可做好一个数字人,极大地提升了广告主做数字人的能力。
大模型还可以帮助商业实现营销海报的生成和商品背景的替换。通过大数据的训练之后,客户还希望有一些特别个性化的东西,未来还需要 加入一些微调的方式。
多模态+医疗:为临床医疗任务提供更为智能、高效的解决方案
RadFM 具有巨大的临床应用意义: 支持三维数据:在实际临床环境中,CT 和 MRI 被广泛使用,大多数疾病的诊断在很大程度上依赖于它们。RadFM 的模型设计能够处理真 实的临床成像数据。 多图像输入:诊断通常需要输入来自各种模态的多影像作为输入,有时甚至需要历史放射图像,因此支持多图像输入 RadFM 能够很好的满 足此类临床需求。 交错数据格式:在临床实践中,图像分析通常需要了解患者的病史或背景。交错数据格式允许用户自由输入额外的图像背景信息,确保模型 能结合多源信息完成复杂的临床决策任务。
多模态+安防:AI+安防加速演变
算法精确度和效果提升:例如,在视频监控场景中这些技术可以通过对图像和声音的分析,实现目标行为识别和异常检测等功能。 多模态算法融合应用:在安防领域,多模态技术可以将图像、语音和文本等数据进行融合,从而实现更全面和准确的情报分析和预警。 AI算法从边缘智能向中心智能的倾斜:安防AI算法最开始是以中心智能算法处理为主,后来开始兴起边缘智能设备,把算法集成到终端;随 着大模型的推广,中心智能的必要性将增加,AI的智能算法中心将起到新的核心作用。 算法自适应学习:在安防领域,这种技术可以通过对历史数据的分析和学习,实现对未知事件的快速响应和处理。 智能决策支持:在安防领域,这种技术可以通过对事件的分类和预测,实现智能化的决策支持和应急响应。 个性化服务:在安防领域,这种技术可以为不同的客户提供特定的安全方案和风险评估。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
人工智能行业专题报告:Sora划时代,算力应用再加速.pdf
人工智能行业专题报告:AI+产业链从技术底座到应用全解析.pdf
数字经济专题:人工智能与数字经济驱动医药产业升级.pdf
中国人工智能系列白皮书-大模型技术(2023版).pdf
AI 大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕.pdf
数字经济专题:人工智能行业应用如火如荼,数字经济算力基建再接再砺.pdf