1. Suno——音乐界的ChatGPT,让人人都能做音乐
SunoV3 出圈,成为“音乐界的ChatGPT”
SunoV3 生成效果进步神速,或成为现象级应用:2024 年 3 月 22 日,Suno 发布了V3版本,支持生成2分钟长度、广播质量级别的音乐,对prompt的理 解更深,幻觉更少。这个版本被许多人视为“音乐界的ChatGPT”,因为它 不需要专业的prompt词汇,甚至不需要理解音乐的专业知识,普通人就可以 生成自己想要的音乐。
Suno 背后的团队是何来历?他们是如何做出 Suno 的?
小型高效的新创业团队:Suno 成立不到两年。四位联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习领域的专家,在 2022 年之前,他们曾在另一家剑桥公司 Kensho Technologies 共事,后来联合创立了Suno。 团队于2023年4月推出文本转音频模型Bark,7月在音频生成模型上增加人声音乐,12月用户可以在网页上使用,再到如今推出Suno V3版本,这家成立不 到两年的公司,在不到一年时间内,实现了AI音乐专家口中需要数年才能完成的突破。
Suno的技术原理:基于transformer架构,和文本生成类似
音频生成具体场景分为三大类:音乐、语音和音效。Suno 是这波将音乐与语音相结合的音频生成探索中的最新产物,其历史可以追溯至 Tensorflow Magenta。其他相关尝试还包括翻译与语音生成的无缝混合、Audiobox 加语音与音效,以及专门生成音乐和音效的 Stable Audio。
Suno背后主要由自研的两个大模型支撑,分别是基于transformer的Bark语音模型和Chirp音乐模型,前者主要用来生成人声,后者提供音乐旋律和音 效,两者让Suno生成的音乐旋律更智能化、复杂化。Suno的原理跟文本生成相似。通过训练模型来预测接下来将要出现的 token 的概率。Suno团队使 用多种模型和多种素材训练模型,确保Suno能够生成各种类型的音频,能够区分语音、背景音乐和人声等元素;并强调让模型自主学习和探索,而不 是强加规则表示,尽量减少对模型的显式知识输入。Suno团队认为,过多的人为干涉可能会限制模型的自我学习能力,强调泛化能力和端到端学习的 方法更为有效。
Suno为何出圈:易上手、低门槛、社区活跃、质量较高
此前陆续推出的 AI 音乐生成器并不少,比如 Adobe 的 Project Music GenAI , YouTube 的 Dream Track 和 Voicify AI。但只有 Suno 被称为“音乐界的 ChatGPT”,主要系Suno将优秀的模型算法转化为 具有实用价值的产品。 傻瓜式操作:Suno四步即可创作一首歌(登录 官网注册→点击AI创作→输入文字→点击创作 按钮),从打开软件到生成歌曲,全程不到一 分钟。如果用户不会作词或者懒得作词,只用 选择希望的曲风,Suno就能自动生成。 社区氛围活跃:Suno 建立了一个活跃的社区, 围绕该模型的用户和开发者分享创作经验和技 巧,共同创作出有趣且悦耳的音乐作品。 兼具低门槛和高质量:多位专业人士认为,部 分Suno生成的歌曲已经能达到商用程度,即在 不涉及版权风险的情况下,直接对外出售。
2. AI降低音乐创作门槛,有望释放UGC音乐潜力
音乐市场:场景多元化,衍生社交娱乐市场规模大
音乐传播媒介已从磁带、CD等实体,单曲下载的数字音乐,切换至以流媒体为主。根据国际唱片业协会(IFPI)数据,2023年全 球录制音乐市场规模达286亿美元,yoy+10%,其中流媒体(以会员订阅或广告变现为主要变现模式,比如Spotify、QQ音乐、网易 云音乐等)收入占比67%达193亿美元,yoy+10%;实体音乐收入占比18%达51亿美元,yoy+13%,表演权(收入来自表演所支付 的歌曲版税)收入占比9%达27亿美元,yoy+8%。音乐场景趋于多元。根据国际唱片业协会(IFPI)数据,2023年,32%、31%的用户选择音频流媒体、视频流媒体作为听歌渠道, 较2019年的46%、42%大幅降低,意味着用户参与歌曲的渠道逐步丰富,不再局限于音频流媒体。
UGC音乐:广泛存在的长尾需求,但受限于创作门槛过高
随着创作门槛降低,文字、图片、视频的UGC催生了一众网文、社交、短视频平台等,但音乐作为情感传达的方式之一,UGC内容尚处萌芽阶段,我们试 图从(1)是否存在UGC音乐内容需求,(2)制约UGC音乐发展的因素,探讨音乐UGC的空间,以及为什么我们认为AI时代,音乐UGC有望释放其商业化 潜能,值得重点关注。
众口难调,音乐存在长尾需求。用户音乐需求呈现分散化、圈层化、小众化的特点,即使头部热门歌曲占据大部分的市场,但圈层用户、小众用户的 长尾需求仍有较大市场。以网易云音乐为例,在音乐版权数量落后的背景下,通过“每日推荐”“私人FM”等“歌找人”的推荐机制,匹配长尾需求 与长尾内容,获得了自己的生态位。此外,网易云音乐也积极扶持独立音乐人,满足个性化及多元化的社区用户需求,根据云音乐财报,截至2023年 底,网易云注册独立音乐人已超68万人,已上传超310万首曲目。
AI持续降低创作门槛,期待C端爆款应用出现
相比于文字、视频,音乐创作仍存在工具门槛,抑制UGC生态发展。音乐创作流程包括歌词撰写、创作旋律、编曲、录制,成本包 括作词作曲(单首歌5000元左右)、录音棚租赁和后期制作(根据地理位置、设备等级和时长,价格在千元到万元不等),对于专 业能力和成本都有一定要求,过去也有一些类似于ACE Studio的音乐创作引擎出现,操作难度相比VOCALOID软件已经大幅降低, 但其仍需要掌握音轨导入、下载midi文件等操作,仍有一定门槛,且需要付费使用。
伴随着智能手机的普及,以及手机摄影性能的提升和视频剪辑软件的简易工具化,短视频创作门槛大幅降低。对标短视频,我们期 待AI降低音乐创作门槛后,音乐潜在的UGC需求有望被满足,进而有望催生新娱乐社交爆款应用。
3. AI音乐应用初探:模型进步催生应用落地
昆仑万维:AI音乐生成大模型「天工SkyMusic」
2024年4月2日,昆仑万维AI音乐生成大模型「天工SkyMusic」已开启邀请测试,受邀用户可在「天工」APP的“音乐”栏目下进行尝试。用户可自行写词或通过AI写词,再选取歌曲或者哼唱的曲调文件作为曲风参考,然后AI生成歌曲。用户生成内容后可通过链接分享至 微信,也可以直接分享至抖音。
盛天网络:AI音乐社交应用「给麦」已开启商业化
盛天网络已上线AI音乐社交产品“给麦”,提供AI歌声进化、全民会说唱玩法,用户可用自己声音AI翻唱歌曲,也可以AI生成声线翻 唱特定歌曲,给麦AI音乐功能已开启商业化。
万兴科技:AI音乐满足跨境营销、创意娱乐等场景需求
公司旗下AI视频创作软件Wondershare Filmora已上线AI文本成片、AI音乐生成器等AI生成功能,以及AI文字快剪、智能人声分离、 AI智能遮罩等AI智能编辑功能,进一步降低视频创作门槛。
其中,AI音乐生成功能可根据用户选择的“Mood”,为用户的视频创建背景音乐,同时支持用户对生成的AI音乐进行裁剪。通过AI 生成音乐, Filmora希望为创作者解决视频内容创作过程中歌曲、声音版税的困扰,进一步降低视频创作门槛和成本。
TikTok内测AI生成歌曲功能,YouTube合作DeepMind
TikTok :目前正在测试一项新功能AI Song,借助大语 言模型 Bloom 的能力,使用 AI 来生成歌曲,辅助用户 创作短视频内容。用户可在上传内容时输入提示文本, AI会根据用户的提示词,比如“Hi你好吗”“去听演 唱会”等,生成歌词,用户也可以自行创作歌词,然 后AI Song功能将为歌词文本生成相应的声音,用户还 可以自选曲风。当前,该功能仅面向部分用户开放。
YouTube:与谷歌旗下人工智能公司DeepMind合作, 已在2023年11月测试“Dream Track”功能,用户可输入 文本或哼唱旋律创作音乐,还可根据著名艺人的风格 自动生成 30 秒的音乐片段。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
AI音乐专题报告:AI音乐或至奇点时刻,关注应用落地投资机会.pdf
人形机器人专题报告:AI驱动,未来已来.pdf
建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf
2024年AI营销应用解析报告.pdf
人工智能专题报告:人形机器人步入软件定义和AI驱动时代.pdf
AI搜索行业深度报告:大模型催生搜索行业变革机遇,产品百花齐放效果几何?.pdf
音乐节活动方案.pptx
拉丁音乐及其对美国文化和商业的影响.pdf
2023年年底音乐报告.pdf
2023年亚洲音乐行业概览.pdf
中国音乐著作权协会2022年报.pdf