一、多模态的五感共鸣,AI 技术跨界协奏
人工智能的概念自提出已有近 70 年历史。2018 年,Open AI 发布 GPT-1 模型,标志着 预训练模型在自然语言处理领域的兴起。2020 年开始,大规模语言模型的发展迎来了一 个显著的加速期:OpenAI 发布 GPT-3,以 1750 亿的参数量成为了当时最庞大的语言模 型。此后,一系列创新方法相继涌现,包括利用人类反馈进行强化学习(RLHF)、代码 预训练等技术,旨在进一步提升模型的推理能力。22 年底及 23 年初,GPT-3.5 和 GPT-4 相继问世,GPT-4 具备了多模态理解与多类型内容生成能力。从 GPT 系列的发展路径来 看,技术层面的突破离不开强大的算力基础设施+海量高质数据的支持和训练+在 Transformer 架构基础上不断精调。
据中国电信研究院分析,国外行业大模型发展模式主要有三种,一是“龙头大模型+原 有业务”,二是“龙头大模型+外部行业数据”,三是“开源大模型+自有行业数据搭建行 业大模型”。结合中国电信研究院的观点,我们认为海内外的大模型赋能企业发展主要 有三种模式:
1) 大模型+原有业务:国际巨头布局大模型较早,或投资或自研(微软作为 OpenAI 最 大股东、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型赋能 各自原有的强势业务线,做产业升级。比如微软用 GPT-4 赋能 Azure 云服务、 Office365、搜索业务等;谷歌和 Meta 利用大模型生成创意广告文案/图片赋能广告 主,抑或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂,大模型 +原有业务即利用大模型的语言能力提升传统业务的智能化水平,同时利用传统业 务积累的庞大数据资源反哺大模型持续迭代。
2) 开源大模型+AI 产品:随着开源大模型的出现(Meta 于 23 年 7 月开源可商用大模 型 Llama-2),一方面,由于 Llama-2 是一个免费、技术更强且可以直接商用的竞对, 高性能开源大模型的出现削弱了国产大模型的竞争力;但另一方面,大量中小开发 者和企业申请部署开源大模型去开发各自的 AI 产品,大大降低了开发成本。但是 Llama 的开源也存在弊端,例如仅适用于英文环境,而百川智能的开源模型则弥补 了中国开源生态的短板。
3) 垂类模型+行业数据:虽然通用大模型适用场景更广,但垂类大模型更符合垂直场景需求(营销/金融/电商/新闻/教育等),训练数据更聚焦,输出结果更符合用户偏 好。此类模型需要选择一个通用大模型作为底座,并用垂类数据进行训练,进行模 型微调后形成,适合拥有海量高质行业数据的中、大型企业。例如蓝色光标的营销 行业大模型 Blue AI、易点天下的 Kreado AI、因赛集团的 InsightGPT 等。 我们认为大模型基座的能力将直接影响上述三种模式的应用水平。微软亚洲研究院认为, 大模型基座的重要特征是拥有多模态能力,后文我们也将从文本、图像、音频、视频、 3D 模型五个模态去展开分析当前大模型基座能力和应用水平。
(一)文本
我们将大模型的迭代路径分为三个:1)多模态能力;2)逻辑推理能力;和 3)长文本 能力。从能力纬度来看,国产大模型在追赶,并且是用差异化优势在奋力追赶。
1、多模态&逻辑推理:海外大模型一超多强
从海外主流大模型看其迭代路径,基本可以归纳为:更多的模态和更强大的推理能力。 从单一模态(文本)向多模态的迭代。多模态(图像、音频、视频)核心是在一个共同 的语义空间整合不同模态的数据。如 GPT-3 主要关注文本模态,而作为后续迭代,GPT4 则能够理解和生成图像、视频等。多模态的进化也使得大模型的应用场景被拓宽,如 图像标注、视频内容理解、文生图和文生视频等。 多模态下的超大参数和“上下文窗口”(tokens)。通常而言,模型的训练参数越多,表 达能力越强,也能够捕捉更复杂的数据模式,当然也意味着更多的训练数据和算力。多 模态大模型的训练参数更大,Open AI 的 GPT-4 达到 1.8 万亿(vs 文本类大模型 GPT-3 有 1750 亿参数),谷歌的 Gemini-1.5 也达到 1.5 万亿(vs Gemini 1.0 约 1500 亿);对于 文本类模型的 Llama2 和 Mixtral 而言,训练参数在百亿级别。而“上下文窗口”的拓展 则能增加模型的可处理信息量,使得模型在长内容方面突破。根据谷歌官方披露, Gemini 1.5 Pro 可一次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万字的代码库。
大模型评测中很重要的一个步骤是衡量模型的性能,通过常识、逻辑、数学、代码能力 等多个维度给出准确率或错误率的判断。Anthropic 发布的 Claude-3 系列包含三个模型, 按能力由弱到强排列,分别是 Haiku、Sonnet 和 Opus,其中 Opus 的各项指标都领先 GPT-4 和 Gemini 系列,或意味着大模型的推理能力也将随着不断推出的新版本得以提 升。
国内大模型的性能加速追赶海外。OpenCompass 于 2023 年 7 月由上海人工智能实验室 推出,构建了一套中英文双语评测基准,旨在系统性分析国内外大模型的综合客观性能。 通过其 24 年 1 月的榜单,我们观测到智谱清言 GLM-4、阿里巴巴 Qwen-Max 和百度文 心一言 4.0 具有较为全面的性能,在语言和知识等基础能力维度上可比肩 GPT-4 Turbo。
2、长文本:国内大模型“卷”出差异化优势
多模态是主流的迭代路径,互联网大厂利用生态优势将多模态能力融进具体使用场景。 和海外相似,国内大模型的迭代方向也能捕捉到多模态的趋势。如百度文心一言的多模 态体现在 toB 平台“智能云千帆”,帮企业将大模型运用到需要文生图、文生视频的场 景;讯飞星火则将多模态能力落地在教师助手、口语训练等教育场景。多模态的训练对 参数规模和算力支持要求更高,芯片供给侧的紧缺也一定程度上成为各平台算力扩张的 阻碍。
算力的差距或是国内大模型掣肘的一个重要因素。英伟达的 GPU 被认为是科技行业 “新黄金”,是为生成式 AI 提供算力的首选。根据 Omdia Research 的报告,2023 年英 伟达芯片多数流向海外大厂,Meta 和微软两家公司以 15 万块 H100 GPU 的购买量并列 第一,国内 BAT 大厂的购买量仅在 2-5 万左右。
“长文本”能力成为差异化优势的生存之道。月之暗面(Moonshot AI)成立于 2023 年3 月,根据新浪科技新闻,截至 2024 年 3 月的最新估值为 25 亿美元,投资方包括红杉、 真格、美团、阿里巴巴等。3 月 18 日,月之暗面宣布 Kimi 智能助手启动“无损上下文 200 万字”内测,用户数据表现亮眼。根据新浪科技引述资料,SimilarWeb 数据显示, 去年 10 月到今年 2 月,Kimi 访问量从 16 万增长到 292 万,仅次于文心一言和阿里通义; 非凡产研预测,3 月 Kimi 的访问量将介于 750 万到 900 万之间,半年内有望增长达 55 倍。 我们不禁思考,文本作为最先出现的模态时至今日依然在出圈,本质上或还是大模型对 C 端用户使用场景的深度挖掘得到了正反馈。Kimi 做深日常“刚需”场景,如方案、合 同、论文、小说、广告等,超长无损的上下文窗口促使用户多频次、高密度的使用。 为什么“长文本”能力让用户觉得大模型很“聪明”?根据月之暗面相关负责人公开采 访的解释,虽然过往的大模型产品也支持百万、千万字的文档输入,但通常采用的是 RAG(检索增强生成)方案,而不是“无损上下文窗口”方案。前者通过检索文档中的 关键信息给到大模型推理,实际阅读量仍然是 3 万字左右,好比读了几个“摘抄片段” 就对内容进行讨论。但是 kimi 采用的无损上下文的窗口的模型是逐字读完全文,对文 档有更深入和全面的解释。
一石激起千层浪,阿里巴巴、百度、360 纷纷表示将开放或内测长文本处理功能。那么, 长文本是一个有壁垒的技术方案吗?据我们综合专家交流等资料的研究,长文本处理能 力并非一蹴而就,是时间+算法的慢工出细活。1)模型需要不断调优,通常从一个较小 规模(如 10 万 tokens)开始训练,逐步增加到 20 万、30 万 tokens 等,而在这个过程中, 模型需要在不同知识领域训练+测试;2)模型需要对语料内容进行无损压缩,以保证数 据处理的精准和高效。长文本训练也需要平衡文本输入量、关键内容注意力(对关键信 息的把控)、算力成本,三者之间的关系。因此,要保证长文本输入+优质结果输出,就 不得不推升算力成本,大模型公司的商业化诉求也会随之变强。
我们认为随着大厂下场深入大模型的长文本能力,国产大模型在中文长文本方向的差异 化优势将会持续放大(相较于海外大模型)。对于大模型企业而言,手里最重要的牌还 是用户,下一阶段的文本差异化竞争很可能是关于用户的定制化竞争——基于庞大在手 用户数据的特征搜集,形成更深的产品护城河。
(二)图片
1、AI 生图,不可忽视的巨大市场潜力
根据 Everypixel 估算,截至 2023 年 8 月,AI 在 1.5 年所生成的图片数量或已超越过去 150 年人类拍摄的所有照片数量。贡献 AI 生图的最大阵营是 Stable Diffusion 开源社区, 截至 23 年 8 月已生成图片 120 亿+,占到历史统计 AI 生图数量的 81%。互联网平台内 容端过往大部分是 UGC,图片内容供给需求高,AI 生图空间广阔。另一方面,我们认 为互联网数字经济催生出以视觉中国、Shutterstock、Getty Images、Corbis Images 为代 表的数字版权交易平台,未来也离不开对新生产要素——AIGC 素材的数据确权,预计 将催生出对生成式 AI 素材的版权需求。
AI 应用日新月异,AI+图片类产品的访问量表现好+掉队率最低。海外风投机构 a16z (Andreessen Horowitz)曾在 23 年 9 月和 24 年 3 月(采用 Similarweb 1 月的用户访问 量数据)两次列出网页端 Top 50 AI 应用排名,23 年 1 月相比半年前的数据,有超过 40% 的新产品进入排名。在新榜单中,AI 图片类产品有 16 个,占榜单的 32%,是所有功能 分类中占比最高的。AI 图片类产品掉出新榜单的数量也是所有分类中最少的,掉出率 为 38%;而 AI 视频类产品的掉出率更高,为 71%。我们认为,虽然 AI 图片和 AI 视频 类应用都对素材训练要求极高,但是 AI 图片的产品/社区成熟度显著高于视频,因此头 部 AI 图片产品的用户访问量更趋稳定(榜单变化小),意味着商业化进程或更快;而 AI 视频类的访问量波动较大,或也意味着产品竞争更激烈、更易跑出超预期的黑马新 品。
分平台来看,海外四大文生图平台(Meta Imagine,Midjourney,Adobe Firefly,Dalle-3) 的成像效果已经十分成熟,但也需要建立在给出明晰提示词的基础上。通过多维度对比, 公众号“数字生命卡兹克”的作者为四大平台进行打分:1)在细节质量方面, Midjourney > Adobe > Meta > Dalle-3;2)审美方面,Midjourney = Adobe > Meta = Dalle-3;3)风格多样化方面,Dalle-3 > Adobe = Midjourney > Meta;4)语义理解方面, Dalle-3 > Adobe > Meta > Midjourney。综合来看,Adobe 的表现能力更加均衡,各维度 基本领先;Midjourney 也较为均衡,但在审美上有明显优势;Meta 表现中规中矩; Dalle-3 偏科严重,语义理解出色,但细节质量和审美较弱。
2、产品迭代核心:主体的一致性
Midjourney 是 AI 生图应用中最早上线的产品之一,需要集成在 discord 平台使用,但用 户也受益于 Discord 的基础设施和社区环境。通过整理 Midjourney 的迭代路径,我们发 现主体的“一致性”概念贯穿始终,而这也是 AI 生图最重要的部分——图像的连贯性 和可预测性,是 AI 生图正式作为商业化用途的基础。 风格/角色/场景一致性的难度逐渐递增,目前场景一致性还未解决。根据下表可以看出 MJ 在 22 年 7 月首次引入了“风格”和“质量”参数,同时风格一致性得到提升。后期 的版本迭代也在逐步改进风格和角色的连贯度。V6 版本于 2023 年 12 月发布,首次加 入风格一致性(--sref)与角色一致性(--cref)功能,意味着这两项指标已经可以程序 化应用于作品,并且在非真人领域(游戏、动漫、绘本等)的角色一致性精度优于真人 领域。场景一致性目前暂未看到明显突破,这也是 AI 生图最具挑战的部分之一。场景 包含大量的细节、元素以及角色之间的逻辑关系,大模型把握的不仅是视觉层面的一致 性,更是匹配上下文关系的一致性。我们认为场景一致性若得以解决,或意味着 AI 生 图正式进入规模化的商业进程。相应的,AI 视频的场景一致性或也可能受益并得以突 破。
(三)视频
1、产品发展梳理,爆火元年因何而起?
大模型在视频领域主要有三个发展方向,其中视频生成挑战最大:1)视频生成,又包 含文生视频、图片/视频生视频、编辑视频元素等多种形式,海外以 Sora、Runway、 Pika 等为代表,国内有 Pixverse、MorphAI 等。2)视频剪辑,主要能力为根据素材库或已有视频完成自动剪辑并配音、对视频片段或画面大小进行裁剪等。抖音剪映、腾讯智 影、捷成股份的 ChatPV、OpusClip 等均有一定表现力。3)视频识别,通过为大模型插 入视觉编码器,赋予模型理解视频的能力,如 Claude-3 将 2 小时的视频转换为一篇博客 文章,谷歌 Gemini 1.5 通过视频画面即可理解电影剧情并进行细节推理。 视频生成模型的早期尝试:1)基于预设规则组合素材,应用于天气预报等程序化场景; 2)基于 GAN 的文本生成视频模型,但控制难度大、时序建模较弱;3)基于自回归 Transformer 的模型,例如谷歌的 Phenaki、清华与 BAAI 团队的 CogVideo 开源模型,这 种方式训练稳定性好,长视频建模、时序建模能力强,缺点是计算量大。 2023 成为 AI 视频元年,本质上还是基于 Diffusion 架构的视频生成模型与产品迎来爆 发。Meta、谷歌、OpenAI 等企业对基于 Diffusion 架构视频生成模型进行了开创性研究 ——过往 Transformer 模型需要将视频分解为时空上的一个个块(patch)分别预测,而 Diffusion 模型通过逐步加入噪声,学习逆向模拟的过程生成图像,大大降低了模型学习 的复杂程度,扩散模型开始占据主导地位。海外 Runway、Pika 等产品相继上线产品引 爆网络,国内如 Morph、PixVerse 发布测试版,阿里、腾讯、字节等巨头也相继发布视 频生成模型。
展望 2024 年,Sora 爆火有望明确 DiT 路线地位,但对算力提出更大挑战。Sora 采用的 Diffusion Transformer(DiT)架构将 U-Net 主干替换为 Transformer 形成新的扩散模型, 由此带来的优点是具备更高的可拓展性。Sora 产生的 1 分钟视频长度远超其他模型,在 三维空间的连贯性、持久性,包括数字世界的模拟方面都有更好的表现。但由于视频增 加了时间的维度,其 token 长度远远超过文本和图像,对大模型训练所需的算力开支提 出挑战。
2、国内视频模型的探索与追赶
Sora 尚未公测之际,国内视频模型也在紧张追赶的进程中。根据 EvalCrafter 测试得分, Runway、Pika 的模型领先,阿里达摩院的 ModelScope 和 ZeroScope 也在榜。测试之外 的模型中,字节跳动的 MagicVideo-V2 在人工投票中优于 Stable Video Diffusion (SVD)、Pika、Gen-2 等模型。
在 AI 视频产品的落地方面,国内厂商交出有竞争力的答卷。除了还未公测的 Sora,行 业第一梯队的代表为 Pika 与 Runway,这两款产品不仅支持图文生视频,还添加了匹配 口形、局部修改、控制镜头运动、控制物体运动等功能,产品形态一直保持快速迭代。 国内公司爱诗科技与 Morph AI 是较早入局的,其中爱诗科技是少数在早期就探索 DiT 架构方向的公司,其产品 PixVerse 目前在公测阶段。
在一份来自“归藏的 AI 工具箱”的自媒体评测中,PixVerse 总分甚至超过 Pika 和 Runway,尤其是在主题一致性、成像质量上有明显优势。Pixverse 的综合得分也是三个 产品中最平衡的,在较强的运动幅度中依然可以维持较好的一致性。
我们认为能引发市场轰动的 AI 模型/应用往往有更清晰、更远大的商业化预期。特别是 在 2023 年之前,AI 视频的预期还停留在降本维度,随着以 Sora 为代表的视频生成产品 上线,降本逻辑不仅没被证伪,甚至 Sora 的产品质量已经可以希冀于商业化用途,进 而衍生出对视频语料库和 IP、版权的强烈需求。相较于文本,视频的采集、处理和标注 难度更大,高质量的视频语料库相对稀缺,因此使得拥有高质量视频语料库的公司具有 竞争优势。
(四)声音
1、产品分类:TTS、SVC、AI 音乐,分别是什么?
AI 音频产品可归为三类:TTS(Text to Speech 语音合成)、SVC(Speech-to-Speech Voice Cloning 语音克隆)、和语音设计。其中 TTS 和语音设计应用更广泛,TTS 产品成 熟度更高,海外已落地的产品代表为 ElevenLabs,支持 29 种语言的语音合成;国内代 表为魔音工坊,更适合中文环境。语音设计的代表是 AI 音乐产品 Suno,24 年 3 月发布 V3 版本的音乐及人声质量大幅提高,能产出广播品质的 AI 音乐,或将改变未来音乐创 作市场的格局。
1) TTS 是一种文生声音的技术,核心在于模拟人声发音过程。使用场景包括智能助 手、有声读物、导航系统、残障人士服务等。随着 AI 理论的发展,2021 年起开始 出现了更多控制语音风格的技术,如 Styler(改变输出风格)、DiffTTS(声音自然 流畅)等。目前市场上普遍认为 ElevenLabs 的底层模型架构是 Transformer 的语音 生成模型和 Diffusion 模型的结合。 2) SVC 是一种复制原声并模拟的声音克隆技术。通过对声音的采集、分析、建模后合 成与采集样本极其相似的声音。根据海外独角兽报道,以 Elevenlabs 为例,语音克 隆通常需要 2 小时采样+上千美元成本+1~2 天的模型微调,但是目前也可支持 30 秒 级别的即时语音克隆。24 年 3 月 31 日,OpenAI 的 Voice Engine 发布,仅需文本输 入+15 秒音频样本便能生成与原声极其相似的语音。即时 SVC 成本不高,主要应用 于配音、社交等场景。 3) 语音设计是近期最超预期的 AI 音频细分市场,主要体现在 AI 音乐的进步。文生音 乐本身门槛较高,因为声音是连续的波型信号,无法像文字一样轻易拆解再拼接。 但随着 Suno V3 为代表的产品问世,一首完整的音乐可以通过提示词自由生成,音 乐小白也可以创建从歌词到人声和配器的所有内容,且曲风多变、声音质量清晰稳 定。
2、商业化及竞争格局猜想
目前 AI 音频产品的主要参与者有三类:科技巨头、开源项目和创业公司,竞争较为激 烈。 1) 科技巨头如 Meta、谷歌、微软、亚马逊等均布局 TTS,大厂具有语料库优势,能与 自身云平台深度集成,未来或将赋能传统业务(广告、搜索、电商、办公等),且部 分项目也已开源代码和模型。科技大厂可能短期内不会直接将 AI 音频产品落地商 业化,但长期来看,AI 音频与传统业务的结合或将释放巨大潜力。 2) 目前 Tortoise 和 Bark 是主流的开源模型。根据海外独角兽,Tortoise 生成速度较慢, Bark 的音质或有提升空间,目前难以直接商用。因此来自开源项目的竞争威胁相对 较弱。 3) 创业公司的竞争赛道更广,也有 OpenAI 的身影。TTS 赛道的硅谷明星项目包括 ElevenLabs、Deepdub,国内则为魔音工坊。AI 音乐赛道,Suno V3 表现亮眼,V4 已在研发过程中。根据乌鸦智能说公众号引述 Similarweb 数据,Suno 在 24 年 2 月 的访问量已达 810 万;但仅在去年 8 月刚完成种子轮融资 140 万美元。预计后续研 发投入空间仍很大,产品迭代值得期待。 OpenAI 在音频领域的储备也不容忽视,SVC 产品已率先亮相(24 年 3 月发布 Voice Engine),以及 Whisper 神经网络系统(22 年 9 月发布,用于自动语音识别),人才 方面,包括开源项目 Tortoise 的作者——工程师 James Betker,此人目前在 OpenAI 负责语音和图像的生成式模型。需要关注 OpenAI 后续是否会将音频能力与 Sora 相 结合,实现带声音的 AI 视频,或将成为 AI 视频商业化真正意义上的拐点。
总结,通过梳理海外竞争格局,我们认为 TTS 和音乐合成在 AI 音频领域更有市场空间(应用场景广泛、技术迭代快、竞争者多),虽然国内产品仍处初期,但存在极大空间 迎头追赶。其中 TTS 发展更成熟,特别是科技大厂未来可能会与传统业务结合释放巨 大潜力。音乐合成领域在全球范围内的出圈产品都较少,技术难度更高,看好 Suno 的 研发投入空间和后续迭代,长期有望改写音乐创作市场格局。SVC 相对更工具化, OpenAI 发布的产品猜想会是一个中间形态,远期价值在于与 AI 视频、或其他模态的结 合。
(五)3D
1、主流路径暂不明朗,整体处于萌芽期
AI 生成 3D 模型的技术手段或仍未看到主流路径,处于萌芽/探索期。首先,AI 生成 3D 并不是简单地将 2D 图像模型扩展成 3D。在训练资源方面,3D 资产素材相较于图片更 为稀缺和私有化。为了利用更为丰富的图像素材,诞生了原生 3D 数据训练、2D 图像训 练后升维、混合训练模型这三种不同类型/技术手段。在 3D 结果展示方面也并未统一, 某些方法可以直接存储模型的空间结构,而一些隐式方法采用集合或函数的形式表现 3D 表面,表现形式的不同也造成不同模型存在较大差异。
3D 应用前景广阔,但目前的生成效果精度欠佳。3D 生成模型可以极大降低游戏、电影 的 3D 资产成本,有利于推动更多领域采用 3D 内容表现手段,同时也可以用于元宇宙、 虚拟现实、3D 打印等新兴应用方向。但受限于 3D 资产的稀缺性以及 3D 表达的复杂性, 目前 3D 生成模型缺乏细节表达的能力,尤其对于光影的影响难以消除,不能很好地支 持材料属性。
2、应用对比效果
从已上线的 3D 生成平台来看,Tripo 或处在 top tier。自 2023 年下半年,3D 内容生成 平台陆续上线,大部分平台均支持图文生成 3D,在自媒体的评测中,观察到文生 3D 领 域,Tripo 与 Luma 领先,细节上 Tripo 更优;而在图生 3D 中,Tripo > sudo > CSM = Meshy,Tripo 依然保持领先优势。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf
南方传媒研究报告:巩固出版发行主业,拓展AI+教育新业态.pdf
传媒行业专题报告:从F1到FE,从AI到MR应用,以体育赛事为支点,如何撬动体验经济?.pdf
平度广电传媒科技产业园二标段地下车库及高层办公楼及宾馆楼施工组织设计.docx
传媒行业专题报告:AI+IP,AI多模态下的卖水人.pdf
传媒行业专题报告:复盘与展望,国产大模型的进击.pdf
2024年AI营销应用解析报告.pdf
人工智能专题报告:人形机器人步入软件定义和AI驱动时代.pdf
AI搜索行业深度报告:大模型催生搜索行业变革机遇,产品百花齐放效果几何?.pdf
AIGC助推元宇宙进程加速,未来商业化场景探究.pdf
计算机行业专题报告:AI浪潮之下,液冷投资机会全梳理.pdf