【信达证券】互联网行业:AI时代的3D内容生产工具.pdf

2024-03-20
22页
3MB

一、短期 AI+3D 产业催化汇总


英伟达 CEO: NVIDIA 3D 平台 Omniverse Cloud 将可以连接到苹果公司混合头显 Vision Pro。在英伟达的 GTC AI 大会上,公司 CEO 黄仁勋宣布了一项重要的技术进展:NVIDIA 的 3D 平台 Omniverse Cloud,这一平台将 能够与苹果公司的新型混合现实头显 Vision Pro 实现连接。这一举措将使得企业能够将基于 3D 应用的交互式通 用场景描述(OpenUSD)直接串流至 Apple Vision Pro,利用英伟达最新的 Omniverse Clouds API 和 Graphics Delivery Network(GDN)来高效传输数据,确保用户能够体验到高保真度的视觉效果。


3D 素材赋能 Sora 等文生视频工具深度学习。Open AI 在 2 月发布的 Sora,是一款具备卓越视频生成能力的扩 散模型。Sora 采用 Transformer 架构并利用 3D 模型素材进行训练,在文生视频领域表现出色。在生成视频方 面,Sora 能够从类似静态噪声的视频开始,逐步去除噪声,直至形成清晰的视频画面。此外,Sora 还能一次性 生成完整的视频,或延长已生成的视频。这种能力得益于模型能够同时预览多个帧,确保即使视频中的主体暂时 离开视线,也能保持其一致性。在 Transformer 架构加持下,Sora 通过使用 3D 模型素材进行训练,能够生成更 真实、更精确的视频内容。


Stability AI 公司发布全新的 AI 生成 3D 大模型 TripoSR,效果惊艳。Stability AI 与 Tripo AI 合作推出 TripoSR, 能够在短短一秒内,凭单个图像即可生成高质量 3D 模型。TripoSR 的独特之处在于,它即便在低推理预算条件 下(甚至在没有 GPU 的情况下)也能顺畅运行,使得这项技术对于广泛的用户和应用场景而言都既易于获取又 实用。此外,TripoSR 的模型权重和源代码已按照 MIT 许可证开放下载,用户可将 TripoSR 用于商业化项目、 个人使用和学术研究。Stability AI 和 Tripo AI 致力于打造的这种新型图像转 3D 模型,旨在满足娱乐、游戏、 工业设计和建筑等专业领域对详细 3D 对象可视化日益增长的需求,并提供一种响应迅速的输出解决方案。


二、DUSt3R


DUSt3R(Dense and Unconstrained Stereo 3D Reconstruction)是一种由芬兰阿尔托大学与 Naver 欧洲实验 室联合研发的先进 3D 重建框架。该框架的设计初衷在于简化和优化从拍摄的图像集合中重建三维场景的过程, 免除了对相机校准或视点位置信息的预先要求。


DUSt3R 技术储备丰厚,助力 AI 深度学习 3D 重建。DUSt3R 采用点图技术(Pointmaps)作为其核心表示机制, 该技术通过密集的 2D 场景提供了 3D 点的详尽信息。点图为图像中的每一个像素配备了对应的 3D 点,从而建 立了图像像素与 3D 场景点之间的直接联系。除此之外,DUSt3R 还采用了 Chat GPT 和 Sora 同款的 Transformer 网络架构。基于标准的 Transformer 编码器和解码器,DUSt3R 构建了其网络架构,这使得该模型能够利用预训 练的强大模型,在无需显式几何约束的情况下从输入图像中提取丰富的几何和外观信息。 DUSt3R 支持端到端训练模式,允许直接从成对图像中学习到点图,无需复杂的多步骤处理流程,如特征匹配、 三角测量等。对于多于两张图像的处理,DUSt3R 提出了一种全局对齐策略,该策略可以将所有成对点图整合到 一个共同的参考框架中,这对于多视图 3D 重建具有重要意义。DUSt3R 能够在训练过程中同时学习多个相关任 务,如深度估计、相机参数估计、像素对应关系等,通过这种多任务学习策略,模型能够更全面地掌握场景的几 何结构。


DUSt3R 应用效果出色,工业应用未来可期。DUSt3R 能在短时间内从输入图片中重建出高精度的 3D 模型,适 用于实时应用和快速原型制作,从而实现快速精确的三维重建。与传统三维重建技术相比,DUSt3R 不需要任何 相机校准或视点姿势的先验信息,无需相机校准的灵活性大大简化了使用流程。除此之外,DUSt3R 能够统一处 理单目和双目情况,为用户提供了更多选择和灵活性。除了三维模型,DUSt3R 还能生成深度图、置信度图和点 云图等,为后续的分析和应用提供了丰富的数据支持。通过在多个 3D 视觉任务上设立新的最佳实践,包括单眼 和多视图深度估计以及相对姿态估计等,DUSt3R 进一步推动未来 AI 生成 3D 模型应用的发展。


三、谷歌:DreamFusion


2021 年末,谷歌与加州大学伯克利分校联合推出了 DreamFusion 项目,旨在实现从二维扩散文本到三维生成 的技术。该项目结合了谷歌研究院和 UC Berkeley 研究人员的力量,融合了大型 AI 图像模型 Imagen 和神经 辐射场(NeRF)技术,以推进 3D 功能的发展。


DreamFusion 依靠 SDS 和 NeRF 技术赋能,突破 3D 模型训练样本数量问题。DreamFusion 通过采用创新的 得分蒸馏采样(SDS)方法和 NeRF 相似的渲染引擎,能够将高质量的二维图像扩散模型转化为三维领域。该 技术不依赖于三维或多视图的训练数据,仅通过预先训练的二维扩散模型进行三维合成,展示了其在三维生成 领域的独特优势和灵活性。SDS 作为 DreamFusion 的关键创新之一,通过优化损失函数从扩散模型中生成样 本,允许在任意参数空间内(例如三维空间)进行样本优化,使得 DreamFusion 不需要依赖于 3D 训练数据, 也无需对原有的图像扩散模型进行修改,证明了预训练的图像扩散模型在作为先验知识时的有效性。


DreamFusion 生成的 3D 模型几何表现优异,但在分辨率和纹理表现上尚具有进步空间。DreamFusion 生成的三维模型不仅拥有高质量的法线、表面几何和深度,还能通过朗伯尔阴影模型进行再照明,使得模型能从多角 度观看,并且能够在不同照明条件下重新点亮,甚至可以被合成到其他三维环境中。这一系列特点标志着 DreamFusion 在推进三维内容生成和增强虚拟现实体验方面的重要步骤。尽管 DreamFusion 在 3D 模型生成 方面取得了显著进展,但它也存在一些局限性,包括无法生成高分辨率的 3D 几何体或纹理,以及基于 MipNeRF 360 的场景渲染模型的可扩展性不佳。


四、英伟达:GET3D 和 Magic3D


2022 年 9 月,英伟达发布了 GET3D 工具,以帮助元宇宙内容创建者更快地生成大量不同的 3D 物体,并为自 动生成带贴图的 3D 模型打开了新的可能性。该工具使用 2D 图像训练,能够生成具有高保真纹理和复杂几何细 节的三维图形。GET3D 生成的 3D 对象格式与主流图形软件应用相同,用户能够轻松地导入到 3D 渲染器和游 戏引擎中进行后续编辑。


GET3D 通过两个潜码生成 3D 符号距离场(SDF)和纹理场。使用 DMTet 从 SDF 提取 3D 表面网格,并在表面 点查询纹理场以获取颜色。除此之外,GET3D 通过定义在 2D 图像上的对抗性损失进行训练,使用基于光栅化 的可微分渲染器来获取 RGB 图像和轮廓。在判断方面,模型使用了两个 2D 鉴别器,分别对 RGB 图像和轮廓 进行真假分类,整个模型可以端到端训练。GET3D 独特之处在于仅需一块 GPU 就能产出模型,为影视制作、 游戏开发和元宇宙建设等领域提供了便利。此外,GET3D 旨在解决以往 3D 生成模型存在的问题,并生成具有 丰富几何细节和纹理的 3D 模型,可直接在下游 3D 软件中使用。


2023 年 2 月,英伟达推出了文生 3D 模型 Magic3D。Magic3D 能够在 40 分钟内创建一个带有彩色纹理的 3D 网 格模型,如“一只坐在睡莲上的蓝色箭毒蛙”。通过高分辨率的文生 3D 模型和较快的生成速度,Magic3D 为游 戏和元宇宙世界的开发者提供了快速制作大量 3D 模型的能力。


Magic 3D 采用了一个粗到细的两阶段优化框架,以实现快速且高质量的文本到 3D 内容创造。在第一阶段,我 们利用一个低分辨率的扩散先验获取一个粗略模型,并通过哈希网格和稀疏加速结构来加速这一过程。在第二 阶段,Magic 3D 使用从粗略神经表征初始化的带纹理的网格模型,通过利用一个高效的可微分渲染器与高分辨 率潜在扩散模型进行交互,以进行优化,即:Magic 3D 先创建粗糙的低分辨率模型,然后优化为更高分辨率, 同时利用文本转图像模型生成 2D 图像,并优化为 NeRF 体积数据。


Magic 3D 对比谷歌的 DreamFusion,Magic3D 速度提升了两倍。除了速度优势外,Magic3D 还能根据提示词 编辑已创建的 3D 模型,用户可以通过修改基础提示词和低分辨率的 3D 模型来改变生成的模型。


五、OpenAI:Shap-E


2023 年 5 月 6 日,OpenAI 发布了文或图生 3D 的 Shap-E 模型,并在 Github 上开源,它能同时生成两种类型 的 3D 表示形式:纹理网格(textured meshes)和神经辐射场(NeRF),使得生成的 3D 模型既可以多样化渲 染也可导入到其他 3D 应用程序中。Shap-E 的相关模型权重、推理代码和样本已经向公众开放,这使得开发者 和研究人员可以更深入地探索和利用这一模型,同时开源代码也为社区提供了一个共同改进和扩展 Shap-E 功能 的平台。


Shap-E 的工作原理分为编码阶段和生成阶段。在编码阶段,Shap-E 通过一个深度神经网络编码器将 3D 资产映 射到隐式函数的参数,该编码器接受一个 3D 资产(如点云或体素)作为输入,并输出隐式函数的参数向量。在 生成阶段,它使用一个条件扩散模型来生成这些参数,这种模型基于扩散过程,能够接受文本提示或图像等条件 作为输入,并输出隐式函数的参数向量。这种两阶段方法使得 Shap-E 能直接生成纹理网格和神经辐射场,从而 创造出具有细腻纹理和复杂形状的高质量 3D 资产。 Shap-E 在生成速度和准确性上具有优势,能快速创建准确的 3D 模型,从而节省设计师和工程师的时间和资源。 它的成本效益显著,通过自动化 3D 建模过程,有潜力降低劳动成本并简化工作流程。此外,Shap-E 可以创建 具有精细纹理和精美形状的 3D 模型,支持在 CPU 或 GPU 上运行,并且易于通过 Jupyter Notebook 使用。它 还可以基于文本提示生成 PLY 文件,使得用户能够为虚拟现实、增强现实和 3D 打印应用创建 3D 模型。ShapE 在游戏开发、动画制作、虚拟现实和 3D 打印等多个领域都展现出广泛的应用前景。根据目前 Shap-E 的演示 效果,其在模型精度和细节呈现上的表现有待提高。


六、阿里巴巴:Object Drawer


2021 年阿里巴巴发布了业界首个基于神经渲染的自研商品三维建模产品 Object Drawer,并已在手机天猫 APP 上规模化应用。Object Drawer 技术可重建多个商品模型,实现低成本的商品 3D 建模。它能够对商品环拍照片 进行 3D 建模,高保真还原纹理细节,无需人工修模,大幅降低建模成本。此外,模型的训练时间大幅缩短(NeRF 的 10000 倍),模型大小也显著减小(20MB 以内),同时保证任意视角下商品 3D 模型达到实拍照片的展示效 果。


Object Drawer 基于 NeRF 技术发展而来,NeRF 能从多视角图像中重建场景,通过神经网络隐式表示场景的几 何和光照信息。Object Drawer 通过优化网络结构、探索几何先验和预存部分信息,显著提升了推理和训练速度。 除此之外,Object Drawer 改进了视角鲁棒性效果,能够在大视角差异下快速推理出高分辨率图像,支持实时高 清可交互的三维模型展示。用户通过手机环绕目标商品拍摄视频,即可自动重建 3D 模型,解决了光照迁移和纹 理细节还原的问题,使场景渲染更逼真,输出的 3D 粗模亦可导入 CAD 等图形工具。


Object Drawer 已面向部分淘宝和天猫商家开放,用于商品建模,有效降低了 3D 建模的成本和时间,提高了建 模的效率和质量。该技术在家居家装、电子商务等行业具有广泛的应用前景。同时,阿里巴巴宣布 Object Drawer 向学术界和普通用户开放,鼓励广大开发者和科研人员交流体验,促进技术的进一步发展和应用。


七、商汤科技:格物、琼宇


2023 年 7 月 7 日,商汤科技在 2023 世界人工智能大会上发布了两款 3D 内容生成平台:格物和琼宇。“格物 SenseThings 2.0”专注于小物体的重建和交互,而“琼宇 SenseSpace 2.0”则专注于大空间的三维重建。这两 个平台都基于神经辐射场技术(NeRF),能够实现空间和物体的高精度复刻与交互,适用于从小型物品到城市 级大空间的多种 3D 重建需求。


格物平台专注于小物体的 3D 内容生成,能够实现各类物体,包括高反光和镜面物体如珠宝首饰、小家电和金属 物件等的超细节复刻还原。这种精确的还原能力使其适用于商业广告、商品营销、数字孪生管理等领域,提供卓 越的复刻效果,并能与线上商城结合,全方位展现商品特性。其技术优势在于,无需改变物品状况下的精确还原, 生成的 3D 内容可再编辑和创作,实现 3D 内容生成的全链路。 琼宇平台则是专注于大空间 3D 内容生成,具备城市级大尺度空间重建生成能力,能够复刻和还原超真实感的场 景。其应用场景广泛,包括城市及园区的数字孪生、影视创作、文旅、电商等,支持自由漫游和实时交互编辑, 能够完成城市级大尺度空间的重建。技术上,琼宇拥有厘米级重建精度和实时渲染与互动能力,通过多源数据融 合和超精细化算法,在短时间内完成大规模空间的重建。


商汤科技的格物和琼宇平台展现了其在 3D 内容生成和数字孪生技术方面的领先地位,满足了不同行业对于可交 互 3D 实景内容的需求。依托于商汤科技的大模型体系“日日新 SenseNova”,这些 AI 生成 3D 模型平台得到 了强大的技术支持,推动了 AI 领域的持续创新和发展。


八、普利斯顿大学:Infinigen AI


Infinigen AI 由普林斯顿大学研究人员开发并在 CVPR 会议上发表,是一个基于开源建模软件 Blender 的程序化 生成器。它能通过随机数学规则生成一系列自然界的“植物、动物”场景,并通过输入提示词自定义地形,添加 各种自然现象如“云、雨、雪、雷暴、天火”等。Infinigen AI 的发布为计算机视觉领域提供了强大的工具,尤其 是在数据生成和场景模拟方面,开辟了新的研究和应用可能性。


技术上,Infinigen AI 是一个基于程序化方法的生成器,完全通过随机化的数学规则来创造内容,包括不同形状和 材料,从宏观结构到微观细节,能够创造多样的变化。用户可以通过覆盖随机参数的默认值来完全控制资产的生 成。Infinigen 提供了多样化对象和场景的生成器,包括植物、动物、地形和自然现象,如火、云、雨、雪等。当 前对自然界的关注是基于哺乳动物视觉在自然世界中演化的观察。研发团队预计在 Infinigen 的未来开发中整合 资源,以让 Infinigen 生成更多的环境和对象来涵盖视觉世界的万物。Infinigen 专为计算机视觉研究优化,尤其 是 3D 视觉,不使用凹凸/法线贴图、全透明或其他虚假几何细节技术。Infinigen 生成的所有细节都是真实的,确 保了精确的 3D 地面真实性。 尽管 Infinigen AI 在生成高质量逼真 3D 场景方面表现出色,其效率仍有待提高。尽管如此,Infinigen AI 的潜在 应用范围非常广泛,包括游戏开发、电影制作、虚拟现实、增强现实及计算机视觉研究等领域,其程序化生成方 法和开源特性促进了相关技术的进一步发展。Infinigen 还能自动为多种计算机视觉任务生成高质量注释,包括光 流、3D 场景流、深度、表面法线、全景分割、遮挡边界等。因为用户可以完全访问渲染过程,这些注释易于自 定义。


九、Adobe:DMV3D


Adobe 研究院与澳大利亚国立大学和斯坦福大学的研究人员合作,共同开发了 DMV3D(Diffusion Model for Volumetric 3D),一个基于 transformer 的 3D 大型重建模型,能在单个 A100 GPU 上仅需 30 秒生成高保真 3D 图像。这 DMV3D 标志着 3D 内容生成领域的重要突破,尤其是在应用程序如 VR、AR、机器人技术和游戏等领 域,大大减少了人工成本。


DMV3D 的技术核心在于它是一个单阶段的扩散模型,将 3D NeRF 重建和渲染集成到其降噪器中,以端到端的 方式进行训练,无需直接 3D 监督。这种方法避免了单独训练用于潜在空间扩散的 3D NeRF 编码器和繁琐的对 每个对象进行优化的方法。在推理过程中,DMV3D 在输入视点渲染去噪后的图像,并将它们与噪声结合,以获 得下一个去噪步骤的较少噪声的输入。在多视图图像完全去噪后,模型提供了一个干净的三平面 NeRF,使得 3D 生成成为可能。除此以外,DMV3D 基于 Transformer 构建,利用大型 Transformer 模型快速生成高保真 3D 图 像,能够基于单个图像或文本输入生成 3D NeRF,显著缩短了 3D 对象的创建时间。


尽管 Adobe-DMV3D 在高效率生成高保真 3D 图像方面表现出色,为 3D 视觉和图形领域带来了新的视角和可 能性,它也面临一些挑战,特别是在数据集规模小、维数高、非结构化等条件下。截至目前,DMV3D 的实际 应用潜力和性能优化仍然是研究和开发的关键方向。


十、Epic Games:MetaHuman


Epic Games 推出的 MetaHuman 是一款 AI 驱动的 3D 人类模型生成工具,旨在为游戏开发、电影、动画以及 其他 3D 视觉效果密集型应用提供高度逼真的 3D 人类角色。MetaHuman Creator 作为一个云端应用,使用户 能在几分钟内创建复杂的 3D 人类角色,大大减少了传统 3D 建模所需的时间和资源。该工具支持高度的定制 化,包括性别、种族、年龄等特征,并且生成的角色可以直接导入到 Unreal Engine 中,也可导出为其他 3D 软件支持的格式。


技术原理上,MetaHuman Creator 是一个基于云的 Web 应用程序,通过高端服务器完成所有计算工作并通过 流式传输到用户设备上。它允许高度自定义,包括面部特征、肤色、化妆品、头发等,并集成了 MetaHuman Identity 功能,使用户能够解算 MetaHuman DNA 数据并在编辑器中生成预览模型。与虚幻引擎 5 紧密集成, 支持在不同平台上保持性能和效果的平衡,并提供详细的 LOD(Level of Detail)信息。 MetaHuman Creator 不仅提供了快速创建和高度逼真的 3D 人类角色的能力,还通过其用户友好的界面和丰富 的定制选项,简化了 3D 人物创作的复杂性。其云端服务消除了对高端本地硬件的需求,为用户提供了极大的 便利。然而,作为一个高度先进的工具,它可能需要用户有一定的学习曲线来充分利用其所有功能。此外, Epic Games 提供了大量教程、指南以及详细的文档和支持,帮助用户解决使用过程中遇到的问题,同时建立 了一个社区,促进了用户之间的交流和学习。


十一、Unity:Muse、Sentis、Meshy(插件)和 Unity6


Unity 作为全球领先的实时 3D 开发平台,不仅在游戏开发领域占据重要地位,还在 AI 和 3D 内容生成领域进行 了积极的探索和创新。它推出了多款与 AI 结合的工具,旨在帮助开发者更高效地创建 3D 内容和提升游戏体 验。这些工具包括 Unity Muse、Unity Sentis、Meshy 以及即将到来的 Unity 6 版本,展现了 Unity 在融合 AI 技术以提升 3D 内容创作和游戏互动性方面的创新努力。 Unity Muse 是一个集成在 Unity 开发环境中的生成式 AI 工具,它使用自然语言处理(NLP)技术帮助开发 者生成 3D 模型、纹理和动画。通过一个用户友好的聊天机器人界面,开发者可以输入指令来获取资源、生成 代码,以及创建 2D 和 3D 纹理。Muse 还计划支持角色动画生成和角色行为定义,使开发者能通过自然语言 描述来生成角色的行为代码和触发条件。它的早期测试版本已向开发者开放,提供了一种全新的、以自然语言 为基础的交互方式来创建 3D 内容。


Unity Sentis 是 Unity 推出的工具,它允许开发者将通用的 ONNX 格式 AI 模型接入 Unity Runtime,从而 使游戏能够利用 AI 模型来实现文字转语音、智能 NPC 等功能,增强游戏的互动性和智能性。Sentis 为游戏 和应用提供了一种简便的方式,使其能够集成最新的 AI 技术,提升用户体验。


Meshy 是 可以在 Unity 中使用的 AI 插件,它提供了多种 AI 功能,如 AI Texturing(Beta)、Text to 3D (Beta)和 Image to 3D(Alpha)。这些功能允许用户通过文本描述、2D 图像或直接文本输入来生成 3D 模型和纹理。Meshy 的生成速度快,支持 PBR 贴图,并提供了 Unity 插件,使得在 Unity 内部直接使用这 些 AI 功能成为可能。Meshy 为开发者提供了一种高效且直观的方式,以实现从文本或图像到 3D 内容的快 速转换。


Unity 6 是 Unity 的下一个长期更新版本,预计将搭载多项全新产品能力,包括更高性能的渲染、灯光与延展 功能。Unity 6 还计划推出一个全新的 WebGPU 图形后端,使得 Unity 游戏能够在各类浏览器中原生运行。 这意味着 Unity 6 将为开发者提供更广泛的平台支持,同时带来性能和图形渲染的显著提升,为创造更丰富、 更互动的 3D 体验和 AI 应用提供了强大的保障。


通过这些工具,Unity 在 AI 生成 3D 内容方面的探索和创新为开发者提供了更加强大和灵活的创作工具,为 未来 3D 数字资产发展和 AI 生 3D 技术进步提供了基础。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

AI时代的3D内容生产工具.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

2024年AI营销应用解析报告.pdf

人工智能专题报告:人形机器人步入软件定义和AI驱动时代.pdf

如何理解新质生产力.pdf

装配生产线制造执行系统MES.pptx

生产运营管理内容分析.pptx

新质生产力专题报告:四新启航,掘金新质资产.pdf

服装生产工艺与设备-准备裁剪工程.pptx

【信达证券】互联网行业:AI时代的3D内容生产工具.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00