【中泰证券】人工智能的下一站：文生3D.pdf

2024-03-04

35页

2MB

多模态成为共识，3D将是下一个重点突破方向

文生文（Text to Text）

文生文（Text to Text）是AIGC行业最先实现的功能，也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。目前，文生文模型中被应用较多的是OpenAI的GPT系列大模型。 ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer 架构对序列数据中的长距离依赖进行建模，同时OpenAI使用了来自互联网的大量文本数据，包括书籍、文章和网站，来对GPT模型进行无监督学习训练。目前，GPT系列已被用于广泛的自然语言处理任务，包括语言翻译、文本补全和文本生成。

文生代码（Text to Code）

ChatGPT的出现，不仅让人机对话更为连贯、自然、有条理，且ChatGPT本身即具备丰富的代码知识积累，可根据人类语言提示自动生成代码，也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。

不过， ChatGPT的诞生并不专门针对代码，并且可能无法无缝集成到用户的工作流程中。除ChatGPT外，目前市面上已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHub Copilot、Codex等。

GitHub Copilot：Github与OpenAI共同开发的AI驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者整个函数的建议，以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具，它能理解自然语言，也能理解代码本身的上下文。Copilot 在 GitHub 上可用的公共存储库上接受过训练，能够处理各种编程语言和框架。

Codex：OpenAI公司推出的 GPT-3 的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行 Fine-Tune而训练出的专门用于代码生成与文档生成的模型。Codex 能够帮助程序员自动补全代码、直接生成代码、自动补充测试样例，并支持多种编程语言。

文生图像（Text to Image）

2022 年前，文生图的模型以生成性对抗网络（GANs）为主。但因为在实践中存在明显不足，甚至还不如用 Photoshop 等工具直接创作，无法用于商业化。

从2021年OpenAI提出DALL·E模型和CLIP（Contrastive Language-lmage Pre-training，对比图文预训练）开始，各大公司开始不断推出新的文生图模型，从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8 月Stable Diffusion正式面世引领AIGC的行业发展，其作为一个迅速火出圈的AI技术，以极快的速度吸引了大量关注。同时，这也奠定了Diffusion 模型在文本生成图像领域的核心方法地位。

文生视频（Text to Video）

相较文生图像，受制于文生视频技术难度、计算难度、数据要求、多领域融合技术挑战等因素，文生视频领域的进展则较为缓慢。直到2023年2月Runway发布首个AI编辑模型Gen-1，文生视频领域才迎来属于自己的iPhone时刻，自此之后一年内，文生视频技术飞速发展，生成的视频从时长、连续性、视频质量、视频合理性均有大幅提升。

文生视频的iPhone时刻：Runway先后发布Gen-1、Gen-2。1）2023年2月，之前参与开发Stable Diffusion最初版本的Runway提出了首个AI编辑模型Gen-1，Gen-1可以在原视频的基础上，编辑出用户想要的视频。2）2023年3月， Runway很快又推出了Gen-2的内测版本，并于6月份正式对外发布。Gen-2刚开始发布时还只能生成4秒钟的视频，每个用户的免费试用额度为105秒，到了8月份，生成视频的最大长度便从4s提升到了18s；9月，新增导演模式，可以控制镜头的位置和移动速度。3）2023年11月3日，Runway的Gen-2发布里程碑式更新，支持4K超逼真的清晰度作品，并于11月21日上线“涂哪动哪”的运动笔刷新功能。

AI+3D：前景广阔，仍面临诸多技术挑战

何为3D建模

什么是3D建模：3D建模指的是使用软件来创建三维对象或形状的数学表示形式的过程。3D建模技术和3D模型广泛应用于医疗、传媒娱乐、建筑工程、科学研究等多个行业领域。

3D建模的两种技术方式

曲面建模和多边形建模是3D建模两大流行的建模方式。曲面建模使用数学语言精确描述各种曲面形体，用于工业制造行业；多边形建模使用网格单元拟合集合体，多用于娱乐影视行业。

曲面建模，也叫做NURBS建模，是一种基于几何基本体和绘制曲线的3D建模方式，其建模底层逻辑是用数学语言精确描述各种曲面形体。曲面建模的模型产品是由曲线构建曲面组合而来，由于曲线具有平滑和最小特性，使得曲面建模对于构建各种有机 3D 形状十分有用。使用曲面建模能够制作出任何形状的、精度非常高的三维模型，这一优势使得ISO颁布的STEP中把NURBS作为定义工业产品几何形状的唯一数学方法。曲面建模常用于参数化的造型设计中，用于支持高精度的数字化制造产业，但其高精度的特点也使得曲面建模算法复杂，难度较高，模型计算时间较长。

3D建模市场现状与预测

2021年，中国3D建模软件市场空间达到103.4亿元，娱乐是当前市场增长主要推动力。未来，随着元宇宙等新概念赋能，市场空间将持续扩张，预计到2026年，市场规模将达到195.7亿元。在中国，3D建模软件当前主要用于工业行业、建筑行业、动漫影视行业和游戏行业。2022年中国3D建模软件市场中，游戏市场应用占比34.3%位列第一， 3DCAD 和BIM分别以31.3%、30.5%位列二三位。

当前海外AI+3D探索进展

非工业场景、生成式AI+3D建模的两大路线

从实现路径上，生成式3D可以粗略划分为“原生3D”和“2D升维”两种不同技术路线。核心区别在于是直接文字到 3D，还是先到2D图像再进一步通过扩散模型或者NeRF生成3D。两种路径的选择对于模型的生成质量、速度和丰富性有决定性的影响。

AI+3D之于工业场景：衍生式设计（生成式设计/创成式设计）

和非工业场景有所区别的是，由于工业生产制造场景对准确度、精度的要求较高，目前AI赋能3D建模在工业制造领域主要集中于研发设计阶段，且目前仍以辅助式手段的角色存在。在工业生产制造领域内，AI+3D主要以衍生式设计（又称生成式设计/创成式设计）的形式存在。

PTC：Creo的创成式设计功能

PTC的Creo产品集成了创成式设计及与其密切相关的拓扑优化工具。Creo 创成式设计利用云的强大功能优化产品设计。同时探索众多创新设计选项，并自动突出显示选项。创成式设计可在 Creo 设计环境中提供高质量、低成本、可制造的设计。借助 Creo 创成式设计，在更短的时间内交付最佳设计。

Creo把创成式设计分为两个版本，单机可用的称为创成式拓扑优化（Generative Topology Optimization ，GTO），另外一种通过云，称为创成式设计扩展（Generative Design Extension，GDX）。GDX利用云的力量同时生成多个设计，自动识别出最佳选项以供用户审核。在GDX中生成的设计可以返回Creo进行进一步细化和分析。某种程度上， GDX强化了GTO的功能，以进一步节省时间和材料成本、减少浪费并最终生成具有更高性能的设计。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）