【东吴证券】互联网传媒行业深度报告：AI音乐或至奇点时刻，关注应用落地投资机会.pdf

2024-04-09

27页

2MB

1. Suno——音乐界的ChatGPT，让人人都能做音乐

SunoV3 出圈，成为“音乐界的ChatGPT”

SunoV3 生成效果进步神速，或成为现象级应用：2024 年 3 月 22 日，Suno 发布了V3版本，支持生成2分钟长度、广播质量级别的音乐，对prompt的理解更深，幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”，因为它不需要专业的prompt词汇，甚至不需要理解音乐的专业知识，普通人就可以生成自己想要的音乐。

Suno 背后的团队是何来历？他们是如何做出 Suno 的？

小型高效的新创业团队：Suno 成立不到两年。四位联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习领域的专家，在 2022 年之前，他们曾在另一家剑桥公司 Kensho Technologies 共事，后来联合创立了Suno。团队于2023年4月推出文本转音频模型Bark，7月在音频生成模型上增加人声音乐，12月用户可以在网页上使用，再到如今推出Suno V3版本，这家成立不到两年的公司，在不到一年时间内，实现了AI音乐专家口中需要数年才能完成的突破。

Suno的技术原理：基于transformer架构，和文本生成类似

音频生成具体场景分为三大类：音乐、语音和音效。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物，其历史可以追溯至 Tensorflow Magenta。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox 加语音与音效，以及专门生成音乐和音效的 Stable Audio。

Suno背后主要由自研的两个大模型支撑，分别是基于transformer的Bark语音模型和Chirp音乐模型，前者主要用来生成人声，后者提供音乐旋律和音效，两者让Suno生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的 token 的概率。Suno团队使用多种模型和多种素材训练模型，确保Suno能够生成各种类型的音频，能够区分语音、背景音乐和人声等元素；并强调让模型自主学习和探索，而不是强加规则表示，尽量减少对模型的显式知识输入。Suno团队认为，过多的人为干涉可能会限制模型的自我学习能力，强调泛化能力和端到端学习的方法更为有效。

Suno为何出圈：易上手、低门槛、社区活跃、质量较高

此前陆续推出的 AI 音乐生成器并不少，比如 Adobe 的 Project Music GenAI ， YouTube 的 Dream Track 和 Voicify AI。但只有 Suno 被称为“音乐界的 ChatGPT”，主要系Suno将优秀的模型算法转化为具有实用价值的产品。傻瓜式操作：Suno四步即可创作一首歌（登录官网注册→点击AI创作→输入文字→点击创作按钮），从打开软件到生成歌曲，全程不到一分钟。如果用户不会作词或者懒得作词，只用选择希望的曲风，Suno就能自动生成。社区氛围活跃：Suno 建立了一个活跃的社区，围绕该模型的用户和开发者分享创作经验和技巧，共同创作出有趣且悦耳的音乐作品。兼具低门槛和高质量：多位专业人士认为，部分Suno生成的歌曲已经能达到商用程度，即在不涉及版权风险的情况下，直接对外出售。

2. AI降低音乐创作门槛，有望释放UGC音乐潜力

音乐市场：场景多元化，衍生社交娱乐市场规模大

音乐传播媒介已从磁带、CD等实体，单曲下载的数字音乐，切换至以流媒体为主。根据国际唱片业协会（IFPI）数据，2023年全球录制音乐市场规模达286亿美元，yoy+10%，其中流媒体（以会员订阅或广告变现为主要变现模式，比如Spotify、QQ音乐、网易云音乐等）收入占比67%达193亿美元，yoy+10%；实体音乐收入占比18%达51亿美元，yoy+13%，表演权（收入来自表演所支付的歌曲版税）收入占比9%达27亿美元，yoy+8%。音乐场景趋于多元。根据国际唱片业协会（IFPI）数据，2023年，32%、31%的用户选择音频流媒体、视频流媒体作为听歌渠道，较2019年的46%、42%大幅降低，意味着用户参与歌曲的渠道逐步丰富，不再局限于音频流媒体。

UGC音乐：广泛存在的长尾需求，但受限于创作门槛过高

随着创作门槛降低，文字、图片、视频的UGC催生了一众网文、社交、短视频平台等，但音乐作为情感传达的方式之一，UGC内容尚处萌芽阶段，我们试图从（1）是否存在UGC音乐内容需求，（2）制约UGC音乐发展的因素，探讨音乐UGC的空间，以及为什么我们认为AI时代，音乐UGC有望释放其商业化潜能，值得重点关注。

众口难调，音乐存在长尾需求。用户音乐需求呈现分散化、圈层化、小众化的特点，即使头部热门歌曲占据大部分的市场，但圈层用户、小众用户的长尾需求仍有较大市场。以网易云音乐为例，在音乐版权数量落后的背景下，通过“每日推荐”“私人FM”等“歌找人”的推荐机制，匹配长尾需求与长尾内容，获得了自己的生态位。此外，网易云音乐也积极扶持独立音乐人，满足个性化及多元化的社区用户需求，根据云音乐财报，截至2023年底，网易云注册独立音乐人已超68万人，已上传超310万首曲目。

AI持续降低创作门槛，期待C端爆款应用出现

相比于文字、视频，音乐创作仍存在工具门槛，抑制UGC生态发展。音乐创作流程包括歌词撰写、创作旋律、编曲、录制，成本包括作词作曲（单首歌5000元左右）、录音棚租赁和后期制作（根据地理位置、设备等级和时长，价格在千元到万元不等），对于专业能力和成本都有一定要求，过去也有一些类似于ACE Studio的音乐创作引擎出现，操作难度相比VOCALOID软件已经大幅降低，但其仍需要掌握音轨导入、下载midi文件等操作，仍有一定门槛，且需要付费使用。

伴随着智能手机的普及，以及手机摄影性能的提升和视频剪辑软件的简易工具化，短视频创作门槛大幅降低。对标短视频，我们期待AI降低音乐创作门槛后，音乐潜在的UGC需求有望被满足，进而有望催生新娱乐社交爆款应用。

3. AI音乐应用初探：模型进步催生应用落地

昆仑万维：AI音乐生成大模型「天工SkyMusic」

2024年4月2日，昆仑万维AI音乐生成大模型「天工SkyMusic」已开启邀请测试，受邀用户可在「天工」APP的“音乐”栏目下进行尝试。用户可自行写词或通过AI写词，再选取歌曲或者哼唱的曲调文件作为曲风参考，然后AI生成歌曲。用户生成内容后可通过链接分享至微信，也可以直接分享至抖音。

盛天网络：AI音乐社交应用「给麦」已开启商业化

盛天网络已上线AI音乐社交产品“给麦”，提供AI歌声进化、全民会说唱玩法，用户可用自己声音AI翻唱歌曲，也可以AI生成声线翻唱特定歌曲，给麦AI音乐功能已开启商业化。

万兴科技：AI音乐满足跨境营销、创意娱乐等场景需求

公司旗下AI视频创作软件Wondershare Filmora已上线AI文本成片、AI音乐生成器等AI生成功能，以及AI文字快剪、智能人声分离、 AI智能遮罩等AI智能编辑功能，进一步降低视频创作门槛。

其中，AI音乐生成功能可根据用户选择的“Mood”，为用户的视频创建背景音乐，同时支持用户对生成的AI音乐进行裁剪。通过AI 生成音乐， Filmora希望为创作者解决视频内容创作过程中歌曲、声音版税的困扰，进一步降低视频创作门槛和成本。

TikTok内测AI生成歌曲功能，YouTube合作DeepMind

TikTok ：目前正在测试一项新功能AI Song，借助大语言模型 Bloom 的能力，使用 AI 来生成歌曲，辅助用户创作短视频内容。用户可在上传内容时输入提示文本， AI会根据用户的提示词，比如“Hi你好吗”“去听演唱会”等，生成歌词，用户也可以自行创作歌词，然后AI Song功能将为歌词文本生成相应的声音，用户还可以自选曲风。当前，该功能仅面向部分用户开放。

YouTube：与谷歌旗下人工智能公司DeepMind合作，已在2023年11月测试“Dream Track”功能，用户可输入文本或哼唱旋律创作音乐，还可根据著名艺人的风格自动生成 30 秒的音乐片段。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）