多模态成为共识,3D将是下一个重点突破方向
文生文(Text to Text)
文生文(Text to Text)是AIGC行业最先实现的功能,也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。 目前,文生文模型中被应用较多的是OpenAI的GPT系列大模型。 ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer 架构对序列数据中的长距 离依赖进行建模,同时OpenAI使用了来自互联网的大量文本数据,包括书籍、文章和网站,来对GPT模型进行无监督 学习训练。目前,GPT系列已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。
文生代码(Text to Code)
ChatGPT的出现,不仅让人机对话更为连贯、自然、有条理,且ChatGPT本身即具备丰富的代码知识积累,可根据人 类语言提示自动生成代码,也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。
不过, ChatGPT的诞生并不专门针对代码,并且可能无法无缝集成到用户的工作流程中。除ChatGPT外,目前市面上 已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHub Copilot、Codex等。
GitHub Copilot:Github与OpenAI共同开发的AI驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者 整个函数的建议,以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具,它能理解自 然语言,也能理解代码本身的上下文。Copilot 在 GitHub 上可用的公共存储库上接受过训练,能够处理各种编程语言 和框架。
Codex:OpenAI公司推出的 GPT-3 的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行 Fine-Tune而 训练出的专门用于代码生成与文档生成的模型。Codex 能够帮助程序员自动补全代码、直接生成代码、自动补充测试 样例,并支持多种编程语言。
文生图像(Text to Image)
2022 年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,甚至还不如用 Photoshop 等工具直接创作,无法用于商业化。
从2021年OpenAI提出DALL·E模型和CLIP(Contrastive Language-lmage Pre-training,对比图文预训练)开始,各大 公司开始不断推出新的文生图模型,从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8 月Stable Diffusion正式面世引领AIGC的行业发展,其作为一个迅速火出圈的AI技术,以极快的速度吸引了大量关注。 同时,这也奠定了Diffusion 模型在文本生成图像领域的核心方法地位。
文生视频(Text to Video)
相较文生图像,受制于文生视频技术难度、计算难度、数据要求、多领域融合技术挑战等因素,文生视频领域的进展 则较为缓慢。直到2023年2月Runway发布首个AI编辑模型Gen-1,文生视频领域才迎来属于自己的iPhone时刻,自此 之后一年内,文生视频技术飞速发展,生成的视频从时长、连续性、视频质量、视频合理性均有大幅提升。
文生视频的iPhone时刻:Runway先后发布Gen-1、Gen-2。1)2023年2月,之前参与开发Stable Diffusion最初版本 的Runway提出了首个AI编辑模型Gen-1,Gen-1可以在原视频的基础上,编辑出用户想要的视频。2)2023年3月, Runway很快又推出了Gen-2的内测版本,并于6月份正式对外发布。Gen-2刚开始发布时还只能生成4秒钟的视频,每 个用户的免费试用额度为105秒,到了8月份,生成视频的最大长度便从4s提升到了18s;9月,新增导演模式,可以控 制镜头的位置和移动速度。3)2023年11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品, 并于11月21日上线“涂哪动哪”的运动笔刷新功能。
AI+3D:前景广阔,仍面临诸多技术挑战
何为3D建模
什么是3D建模:3D建模指的是使用软件来创建三维对象或形状的数学表示形式的过程。3D建模技术和3D模型广泛应 用于医疗、传媒娱乐、建筑工程、科学研究等多个行业领域。
3D建模的两种技术方式
曲面建模和多边形建模是3D建模两大流行的建模方式。曲面建模使用数学语言精确描述各种曲面形体,用于工业制造 行业;多边形建模使用网格单元拟合集合体,多用于娱乐影视行业。
曲面建模,也叫做NURBS建模,是一种基于几何基本体 和绘制曲线的3D建模方式,其建模底层逻辑是用数学语 言精确描述各种曲面形体。曲面建模的模型产品是由曲线构建曲面组合而来,由于 曲线具有平滑和最小特性,使得曲面建模对于构建各种 有机 3D 形状十分有用。使用曲面建模能够制作出任何 形状的、精度非常高的三维模型,这一优势使得ISO颁布 的STEP中把NURBS作为定义工业产品几何形状的唯一 数学方法。曲面建模常用于参数化的造型设计中,用于支持高精度 的数字化制造产业,但其高精度的特点也使得曲面建模 算法复杂,难度较高,模型计算时间较长。
3D建模市场现状与预测
2021年,中国3D建模软件市场空间达到103.4亿元,娱乐是当前市场增长主要推动力。未来,随着元宇宙等新概念赋 能,市场空间将持续扩张,预计到2026年,市场规模将达到195.7亿元。 在中国,3D建模软件当前主要用于工业行业、建筑行业、动漫影视行业和游戏行业。2022年中国3D建模软件市场中, 游戏市场应用占比34.3%位列第一, 3DCAD 和BIM分别以31.3%、30.5%位列二三位。
当前海外AI+3D探索进展
非工业场景、生成式AI+3D建模的两大路线
从实现路径上,生成式3D可以粗略划分为“原生3D”和“2D升维”两种不同技术路线。核心区别在于是直接文字到 3D,还是先到2D图像再进一步通过扩散模型或者NeRF生成3D。两种路径的选择对于模型的生成质量、速度和丰富 性有决定性的影响。
AI+3D之于工业场景:衍生式设计(生成式设计/创成式设计)
和非工业场景有所区别的是,由于工业生产制造场景对准确度、精度的要求较高,目前AI赋能3D建模在工业制造领域 主要集中于研发设计阶段,且目前仍以辅助式手段的角色存在。在工业生产制造领域内,AI+3D主要以衍生式设计 (又称生成式设计/创成式设计)的形式存在。
PTC:Creo的创成式设计功能
PTC的Creo产品集成了创成式设计及与其密切相关的拓扑优化工具。Creo 创成式设计利用云的强大功能优化产品设计。 同时探索众多创新设计选项,并自动突出显示选项。创成式设计可在 Creo 设计环境中提供高质量、低成本、可制造的 设计。借助 Creo 创成式设计,在更短的时间内交付最佳设计。
Creo把创成式设计分为两个版本,单机可用的称为创成式拓扑优化(Generative Topology Optimization ,GTO), 另外一种通过云,称为创成式设计扩展(Generative Design Extension,GDX)。GDX利用云的力量同时生成多个 设计,自动识别出最佳选项以供用户审核。在GDX中生成的设计可以返回Creo进行进一步细化和分析。某种程度上, GDX强化了GTO的功能,以进一步节省时间和材料成本、减少浪费并最终生成具有更高性能的设计。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
人工智能行业的下一站:文生3D.pdf
人工智能行业专题报告:AI+产业链从技术底座到应用全解析.pdf
数字经济专题:人工智能与数字经济驱动医药产业升级.pdf
中国人工智能系列白皮书-大模型技术(2023版).pdf
AI 大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕.pdf
数字经济专题:人工智能行业应用如火如荼,数字经济算力基建再接再砺.pdf