【华创证券】传媒行业深度研究报告：多模态AI的五重奏，国产大模型的探索序章.pdf

2024-04-03

25页

3MB

一、多模态的五感共鸣，AI 技术跨界协奏

人工智能的概念自提出已有近 70 年历史。2018 年，Open AI 发布 GPT-1 模型，标志着预训练模型在自然语言处理领域的兴起。2020 年开始，大规模语言模型的发展迎来了一个显著的加速期：OpenAI 发布 GPT-3，以 1750 亿的参数量成为了当时最庞大的语言模型。此后，一系列创新方法相继涌现，包括利用人类反馈进行强化学习（RLHF）、代码预训练等技术，旨在进一步提升模型的推理能力。22 年底及 23 年初，GPT-3.5 和 GPT-4 相继问世，GPT-4 具备了多模态理解与多类型内容生成能力。从 GPT 系列的发展路径来看，技术层面的突破离不开强大的算力基础设施+海量高质数据的支持和训练+在 Transformer 架构基础上不断精调。

据中国电信研究院分析，国外行业大模型发展模式主要有三种，一是“龙头大模型+原有业务”，二是“龙头大模型+外部行业数据”，三是“开源大模型+自有行业数据搭建行业大模型”。结合中国电信研究院的观点，我们认为海内外的大模型赋能企业发展主要有三种模式：

1）大模型+原有业务：国际巨头布局大模型较早，或投资或自研（微软作为 OpenAI 最大股东、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等），并利用大模型赋能各自原有的强势业务线，做产业升级。比如微软用 GPT-4 赋能 Azure 云服务、 Office365、搜索业务等；谷歌和 Meta 利用大模型生成创意广告文案/图片赋能广告主，抑或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂，大模型 +原有业务即利用大模型的语言能力提升传统业务的智能化水平，同时利用传统业务积累的庞大数据资源反哺大模型持续迭代。

2）开源大模型+AI 产品：随着开源大模型的出现（Meta 于 23 年 7 月开源可商用大模型 Llama-2），一方面，由于 Llama-2 是一个免费、技术更强且可以直接商用的竞对，高性能开源大模型的出现削弱了国产大模型的竞争力；但另一方面，大量中小开发者和企业申请部署开源大模型去开发各自的 AI 产品，大大降低了开发成本。但是 Llama 的开源也存在弊端，例如仅适用于英文环境，而百川智能的开源模型则弥补了中国开源生态的短板。

3）垂类模型+行业数据：虽然通用大模型适用场景更广，但垂类大模型更符合垂直场景需求（营销/金融/电商/新闻/教育等），训练数据更聚焦，输出结果更符合用户偏好。此类模型需要选择一个通用大模型作为底座，并用垂类数据进行训练，进行模型微调后形成，适合拥有海量高质行业数据的中、大型企业。例如蓝色光标的营销行业大模型 Blue AI、易点天下的 Kreado AI、因赛集团的 InsightGPT 等。我们认为大模型基座的能力将直接影响上述三种模式的应用水平。微软亚洲研究院认为，大模型基座的重要特征是拥有多模态能力，后文我们也将从文本、图像、音频、视频、 3D 模型五个模态去展开分析当前大模型基座能力和应用水平。

（一）文本

我们将大模型的迭代路径分为三个：1）多模态能力；2）逻辑推理能力；和 3）长文本能力。从能力纬度来看，国产大模型在追赶，并且是用差异化优势在奋力追赶。

1、多模态&逻辑推理：海外大模型一超多强

从海外主流大模型看其迭代路径，基本可以归纳为：更多的模态和更强大的推理能力。从单一模态（文本）向多模态的迭代。多模态（图像、音频、视频）核心是在一个共同的语义空间整合不同模态的数据。如 GPT-3 主要关注文本模态，而作为后续迭代，GPT4 则能够理解和生成图像、视频等。多模态的进化也使得大模型的应用场景被拓宽，如图像标注、视频内容理解、文生图和文生视频等。多模态下的超大参数和“上下文窗口”（tokens）。通常而言，模型的训练参数越多，表达能力越强，也能够捕捉更复杂的数据模式，当然也意味着更多的训练数据和算力。多模态大模型的训练参数更大，Open AI 的 GPT-4 达到 1.8 万亿（vs 文本类大模型 GPT-3 有 1750 亿参数），谷歌的 Gemini-1.5 也达到 1.5 万亿（vs Gemini 1.0 约 1500 亿）；对于文本类模型的 Llama2 和 Mixtral 而言，训练参数在百亿级别。而“上下文窗口”的拓展则能增加模型的可处理信息量，使得模型在长内容方面突破。根据谷歌官方披露， Gemini 1.5 Pro 可一次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万字的代码库。

大模型评测中很重要的一个步骤是衡量模型的性能，通过常识、逻辑、数学、代码能力等多个维度给出准确率或错误率的判断。Anthropic 发布的 Claude-3 系列包含三个模型，按能力由弱到强排列，分别是 Haiku、Sonnet 和 Opus，其中 Opus 的各项指标都领先 GPT-4 和 Gemini 系列，或意味着大模型的推理能力也将随着不断推出的新版本得以提升。

国内大模型的性能加速追赶海外。OpenCompass 于 2023 年 7 月由上海人工智能实验室推出，构建了一套中英文双语评测基准，旨在系统性分析国内外大模型的综合客观性能。通过其 24 年 1 月的榜单，我们观测到智谱清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有较为全面的性能，在语言和知识等基础能力维度上可比肩 GPT-4 Turbo。

2、长文本：国内大模型“卷”出差异化优势

多模态是主流的迭代路径，互联网大厂利用生态优势将多模态能力融进具体使用场景。和海外相似，国内大模型的迭代方向也能捕捉到多模态的趋势。如百度文心一言的多模态体现在 toB 平台“智能云千帆”，帮企业将大模型运用到需要文生图、文生视频的场景；讯飞星火则将多模态能力落地在教师助手、口语训练等教育场景。多模态的训练对参数规模和算力支持要求更高，芯片供给侧的紧缺也一定程度上成为各平台算力扩张的阻碍。

算力的差距或是国内大模型掣肘的一个重要因素。英伟达的 GPU 被认为是科技行业 “新黄金”，是为生成式 AI 提供算力的首选。根据 Omdia Research 的报告，2023 年英伟达芯片多数流向海外大厂，Meta 和微软两家公司以 15 万块 H100 GPU 的购买量并列第一，国内 BAT 大厂的购买量仅在 2-5 万左右。

“长文本”能力成为差异化优势的生存之道。月之暗面（Moonshot AI）成立于 2023 年3 月，根据新浪科技新闻，截至 2024 年 3 月的最新估值为 25 亿美元，投资方包括红杉、真格、美团、阿里巴巴等。3 月 18 日，月之暗面宣布 Kimi 智能助手启动“无损上下文 200 万字”内测，用户数据表现亮眼。根据新浪科技引述资料，SimilarWeb 数据显示，去年 10 月到今年 2 月，Kimi 访问量从 16 万增长到 292 万，仅次于文心一言和阿里通义；非凡产研预测，3 月 Kimi 的访问量将介于 750 万到 900 万之间，半年内有望增长达 55 倍。我们不禁思考，文本作为最先出现的模态时至今日依然在出圈，本质上或还是大模型对 C 端用户使用场景的深度挖掘得到了正反馈。Kimi 做深日常“刚需”场景，如方案、合同、论文、小说、广告等，超长无损的上下文窗口促使用户多频次、高密度的使用。为什么“长文本”能力让用户觉得大模型很“聪明”？根据月之暗面相关负责人公开采访的解释，虽然过往的大模型产品也支持百万、千万字的文档输入，但通常采用的是 RAG（检索增强生成）方案，而不是“无损上下文窗口”方案。前者通过检索文档中的关键信息给到大模型推理，实际阅读量仍然是 3 万字左右，好比读了几个“摘抄片段” 就对内容进行讨论。但是 kimi 采用的无损上下文的窗口的模型是逐字读完全文，对文档有更深入和全面的解释。

一石激起千层浪，阿里巴巴、百度、360 纷纷表示将开放或内测长文本处理功能。那么，长文本是一个有壁垒的技术方案吗？据我们综合专家交流等资料的研究，长文本处理能力并非一蹴而就，是时间+算法的慢工出细活。1）模型需要不断调优，通常从一个较小规模（如 10 万 tokens）开始训练，逐步增加到 20 万、30 万 tokens 等，而在这个过程中，模型需要在不同知识领域训练+测试；2）模型需要对语料内容进行无损压缩，以保证数据处理的精准和高效。长文本训练也需要平衡文本输入量、关键内容注意力（对关键信息的把控）、算力成本，三者之间的关系。因此，要保证长文本输入+优质结果输出，就不得不推升算力成本，大模型公司的商业化诉求也会随之变强。

我们认为随着大厂下场深入大模型的长文本能力，国产大模型在中文长文本方向的差异化优势将会持续放大（相较于海外大模型）。对于大模型企业而言，手里最重要的牌还是用户，下一阶段的文本差异化竞争很可能是关于用户的定制化竞争——基于庞大在手用户数据的特征搜集，形成更深的产品护城河。

（二）图片

1、AI 生图，不可忽视的巨大市场潜力

根据 Everypixel 估算，截至 2023 年 8 月，AI 在 1.5 年所生成的图片数量或已超越过去 150 年人类拍摄的所有照片数量。贡献 AI 生图的最大阵营是 Stable Diffusion 开源社区，截至 23 年 8 月已生成图片 120 亿+，占到历史统计 AI 生图数量的 81%。互联网平台内容端过往大部分是 UGC，图片内容供给需求高，AI 生图空间广阔。另一方面，我们认为互联网数字经济催生出以视觉中国、Shutterstock、Getty Images、Corbis Images 为代表的数字版权交易平台，未来也离不开对新生产要素——AIGC 素材的数据确权，预计将催生出对生成式 AI 素材的版权需求。

AI 应用日新月异，AI+图片类产品的访问量表现好+掉队率最低。海外风投机构 a16z （Andreessen Horowitz）曾在 23 年 9 月和 24 年 3 月（采用 Similarweb 1 月的用户访问量数据）两次列出网页端 Top 50 AI 应用排名，23 年 1 月相比半年前的数据，有超过 40% 的新产品进入排名。在新榜单中，AI 图片类产品有 16 个，占榜单的 32%，是所有功能分类中占比最高的。AI 图片类产品掉出新榜单的数量也是所有分类中最少的，掉出率为 38%；而 AI 视频类产品的掉出率更高，为 71%。我们认为，虽然 AI 图片和 AI 视频类应用都对素材训练要求极高，但是 AI 图片的产品/社区成熟度显著高于视频，因此头部 AI 图片产品的用户访问量更趋稳定（榜单变化小），意味着商业化进程或更快；而 AI 视频类的访问量波动较大，或也意味着产品竞争更激烈、更易跑出超预期的黑马新品。

分平台来看，海外四大文生图平台（Meta Imagine，Midjourney，Adobe Firefly，Dalle-3）的成像效果已经十分成熟，但也需要建立在给出明晰提示词的基础上。通过多维度对比，公众号“数字生命卡兹克”的作者为四大平台进行打分：1）在细节质量方面， Midjourney > Adobe > Meta > Dalle-3；2）审美方面，Midjourney = Adobe > Meta = Dalle-3；3）风格多样化方面，Dalle-3 > Adobe = Midjourney > Meta；4）语义理解方面， Dalle-3 > Adobe > Meta > Midjourney。综合来看，Adobe 的表现能力更加均衡，各维度基本领先；Midjourney 也较为均衡，但在审美上有明显优势；Meta 表现中规中矩； Dalle-3 偏科严重，语义理解出色，但细节质量和审美较弱。

2、产品迭代核心：主体的一致性

Midjourney 是 AI 生图应用中最早上线的产品之一，需要集成在 discord 平台使用，但用户也受益于 Discord 的基础设施和社区环境。通过整理 Midjourney 的迭代路径，我们发现主体的“一致性”概念贯穿始终，而这也是 AI 生图最重要的部分——图像的连贯性和可预测性，是 AI 生图正式作为商业化用途的基础。风格/角色/场景一致性的难度逐渐递增，目前场景一致性还未解决。根据下表可以看出 MJ 在 22 年 7 月首次引入了“风格”和“质量”参数，同时风格一致性得到提升。后期的版本迭代也在逐步改进风格和角色的连贯度。V6 版本于 2023 年 12 月发布，首次加入风格一致性（--sref）与角色一致性（--cref）功能，意味着这两项指标已经可以程序化应用于作品，并且在非真人领域（游戏、动漫、绘本等）的角色一致性精度优于真人领域。场景一致性目前暂未看到明显突破，这也是 AI 生图最具挑战的部分之一。场景包含大量的细节、元素以及角色之间的逻辑关系，大模型把握的不仅是视觉层面的一致性，更是匹配上下文关系的一致性。我们认为场景一致性若得以解决，或意味着 AI 生图正式进入规模化的商业进程。相应的，AI 视频的场景一致性或也可能受益并得以突破。

（三）视频

1、产品发展梳理，爆火元年因何而起？

大模型在视频领域主要有三个发展方向，其中视频生成挑战最大：1）视频生成，又包含文生视频、图片/视频生视频、编辑视频元素等多种形式，海外以 Sora、Runway、 Pika 等为代表，国内有 Pixverse、MorphAI 等。2）视频剪辑，主要能力为根据素材库或已有视频完成自动剪辑并配音、对视频片段或画面大小进行裁剪等。抖音剪映、腾讯智影、捷成股份的 ChatPV、OpusClip 等均有一定表现力。3）视频识别，通过为大模型插入视觉编码器，赋予模型理解视频的能力，如 Claude-3 将 2 小时的视频转换为一篇博客文章，谷歌 Gemini 1.5 通过视频画面即可理解电影剧情并进行细节推理。视频生成模型的早期尝试：1）基于预设规则组合素材，应用于天气预报等程序化场景； 2）基于 GAN 的文本生成视频模型，但控制难度大、时序建模较弱；3）基于自回归 Transformer 的模型，例如谷歌的 Phenaki、清华与 BAAI 团队的 CogVideo 开源模型，这种方式训练稳定性好，长视频建模、时序建模能力强，缺点是计算量大。 2023 成为 AI 视频元年，本质上还是基于 Diffusion 架构的视频生成模型与产品迎来爆发。Meta、谷歌、OpenAI 等企业对基于 Diffusion 架构视频生成模型进行了开创性研究 ——过往 Transformer 模型需要将视频分解为时空上的一个个块（patch）分别预测，而 Diffusion 模型通过逐步加入噪声，学习逆向模拟的过程生成图像，大大降低了模型学习的复杂程度，扩散模型开始占据主导地位。海外 Runway、Pika 等产品相继上线产品引爆网络，国内如 Morph、PixVerse 发布测试版，阿里、腾讯、字节等巨头也相继发布视频生成模型。

展望 2024 年，Sora 爆火有望明确 DiT 路线地位，但对算力提出更大挑战。Sora 采用的 Diffusion Transformer（DiT）架构将 U-Net 主干替换为 Transformer 形成新的扩散模型，由此带来的优点是具备更高的可拓展性。Sora 产生的 1 分钟视频长度远超其他模型，在三维空间的连贯性、持久性，包括数字世界的模拟方面都有更好的表现。但由于视频增加了时间的维度，其 token 长度远远超过文本和图像，对大模型训练所需的算力开支提出挑战。

2、国内视频模型的探索与追赶

Sora 尚未公测之际，国内视频模型也在紧张追赶的进程中。根据 EvalCrafter 测试得分， Runway、Pika 的模型领先，阿里达摩院的 ModelScope 和 ZeroScope 也在榜。测试之外的模型中，字节跳动的 MagicVideo-V2 在人工投票中优于 Stable Video Diffusion （SVD）、Pika、Gen-2 等模型。

在 AI 视频产品的落地方面，国内厂商交出有竞争力的答卷。除了还未公测的 Sora，行业第一梯队的代表为 Pika 与 Runway，这两款产品不仅支持图文生视频，还添加了匹配口形、局部修改、控制镜头运动、控制物体运动等功能，产品形态一直保持快速迭代。国内公司爱诗科技与 Morph AI 是较早入局的，其中爱诗科技是少数在早期就探索 DiT 架构方向的公司，其产品 PixVerse 目前在公测阶段。

在一份来自“归藏的 AI 工具箱”的自媒体评测中，PixVerse 总分甚至超过 Pika 和 Runway，尤其是在主题一致性、成像质量上有明显优势。Pixverse 的综合得分也是三个产品中最平衡的，在较强的运动幅度中依然可以维持较好的一致性。

我们认为能引发市场轰动的 AI 模型/应用往往有更清晰、更远大的商业化预期。特别是在 2023 年之前，AI 视频的预期还停留在降本维度，随着以 Sora 为代表的视频生成产品上线，降本逻辑不仅没被证伪，甚至 Sora 的产品质量已经可以希冀于商业化用途，进而衍生出对视频语料库和 IP、版权的强烈需求。相较于文本，视频的采集、处理和标注难度更大，高质量的视频语料库相对稀缺，因此使得拥有高质量视频语料库的公司具有竞争优势。

（四）声音

1、产品分类：TTS、SVC、AI 音乐，分别是什么？

AI 音频产品可归为三类：TTS（Text to Speech 语音合成）、SVC（Speech-to-Speech Voice Cloning 语音克隆）、和语音设计。其中 TTS 和语音设计应用更广泛，TTS 产品成熟度更高，海外已落地的产品代表为 ElevenLabs，支持 29 种语言的语音合成；国内代表为魔音工坊，更适合中文环境。语音设计的代表是 AI 音乐产品 Suno，24 年 3 月发布 V3 版本的音乐及人声质量大幅提高，能产出广播品质的 AI 音乐，或将改变未来音乐创作市场的格局。

1） TTS 是一种文生声音的技术，核心在于模拟人声发音过程。使用场景包括智能助手、有声读物、导航系统、残障人士服务等。随着 AI 理论的发展，2021 年起开始出现了更多控制语音风格的技术，如 Styler（改变输出风格）、DiffTTS（声音自然流畅）等。目前市场上普遍认为 ElevenLabs 的底层模型架构是 Transformer 的语音生成模型和 Diffusion 模型的结合。 2） SVC 是一种复制原声并模拟的声音克隆技术。通过对声音的采集、分析、建模后合成与采集样本极其相似的声音。根据海外独角兽报道，以 Elevenlabs 为例，语音克隆通常需要 2 小时采样+上千美元成本+1~2 天的模型微调，但是目前也可支持 30 秒级别的即时语音克隆。24 年 3 月 31 日，OpenAI 的 Voice Engine 发布，仅需文本输入+15 秒音频样本便能生成与原声极其相似的语音。即时 SVC 成本不高，主要应用于配音、社交等场景。 3）语音设计是近期最超预期的 AI 音频细分市场，主要体现在 AI 音乐的进步。文生音乐本身门槛较高，因为声音是连续的波型信号，无法像文字一样轻易拆解再拼接。但随着 Suno V3 为代表的产品问世，一首完整的音乐可以通过提示词自由生成，音乐小白也可以创建从歌词到人声和配器的所有内容，且曲风多变、声音质量清晰稳定。

2、商业化及竞争格局猜想

目前 AI 音频产品的主要参与者有三类：科技巨头、开源项目和创业公司，竞争较为激烈。 1）科技巨头如 Meta、谷歌、微软、亚马逊等均布局 TTS，大厂具有语料库优势，能与自身云平台深度集成，未来或将赋能传统业务（广告、搜索、电商、办公等），且部分项目也已开源代码和模型。科技大厂可能短期内不会直接将 AI 音频产品落地商业化，但长期来看，AI 音频与传统业务的结合或将释放巨大潜力。 2）目前 Tortoise 和 Bark 是主流的开源模型。根据海外独角兽，Tortoise 生成速度较慢， Bark 的音质或有提升空间，目前难以直接商用。因此来自开源项目的竞争威胁相对较弱。 3）创业公司的竞争赛道更广，也有 OpenAI 的身影。TTS 赛道的硅谷明星项目包括 ElevenLabs、Deepdub，国内则为魔音工坊。AI 音乐赛道，Suno V3 表现亮眼，V4 已在研发过程中。根据乌鸦智能说公众号引述 Similarweb 数据，Suno 在 24 年 2 月的访问量已达 810 万；但仅在去年 8 月刚完成种子轮融资 140 万美元。预计后续研发投入空间仍很大，产品迭代值得期待。 OpenAI 在音频领域的储备也不容忽视，SVC 产品已率先亮相（24 年 3 月发布 Voice Engine），以及 Whisper 神经网络系统（22 年 9 月发布，用于自动语音识别），人才方面，包括开源项目 Tortoise 的作者——工程师 James Betker，此人目前在 OpenAI 负责语音和图像的生成式模型。需要关注 OpenAI 后续是否会将音频能力与 Sora 相结合，实现带声音的 AI 视频，或将成为 AI 视频商业化真正意义上的拐点。

总结，通过梳理海外竞争格局，我们认为 TTS 和音乐合成在 AI 音频领域更有市场空间（应用场景广泛、技术迭代快、竞争者多），虽然国内产品仍处初期，但存在极大空间迎头追赶。其中 TTS 发展更成熟，特别是科技大厂未来可能会与传统业务结合释放巨大潜力。音乐合成领域在全球范围内的出圈产品都较少，技术难度更高，看好 Suno 的研发投入空间和后续迭代，长期有望改写音乐创作市场格局。SVC 相对更工具化， OpenAI 发布的产品猜想会是一个中间形态，远期价值在于与 AI 视频、或其他模态的结合。

（五）3D

1、主流路径暂不明朗，整体处于萌芽期

AI 生成 3D 模型的技术手段或仍未看到主流路径，处于萌芽/探索期。首先，AI 生成 3D 并不是简单地将 2D 图像模型扩展成 3D。在训练资源方面，3D 资产素材相较于图片更为稀缺和私有化。为了利用更为丰富的图像素材，诞生了原生 3D 数据训练、2D 图像训练后升维、混合训练模型这三种不同类型/技术手段。在 3D 结果展示方面也并未统一，某些方法可以直接存储模型的空间结构，而一些隐式方法采用集合或函数的形式表现 3D 表面，表现形式的不同也造成不同模型存在较大差异。

3D 应用前景广阔，但目前的生成效果精度欠佳。3D 生成模型可以极大降低游戏、电影的 3D 资产成本，有利于推动更多领域采用 3D 内容表现手段，同时也可以用于元宇宙、虚拟现实、3D 打印等新兴应用方向。但受限于 3D 资产的稀缺性以及 3D 表达的复杂性，目前 3D 生成模型缺乏细节表达的能力，尤其对于光影的影响难以消除，不能很好地支持材料属性。

2、应用对比效果

从已上线的 3D 生成平台来看，Tripo 或处在 top tier。自 2023 年下半年，3D 内容生成平台陆续上线，大部分平台均支持图文生成 3D，在自媒体的评测中，观察到文生 3D 领域，Tripo 与 Luma 领先，细节上 Tripo 更优；而在图生 3D 中，Tripo > sudo > CSM = Meshy，Tripo 依然保持领先优势。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）