2024年AI赋能传媒行业发展深度报告
1 生成式AI:快速发展赋能多领域,助力技术变革
生成式人工智能(Generative AI),指的是通过人工智能技术自动生成内容的生产方式。通过训练模型来生成新的、与训练数据相似的内容。与传统类型的AI主要关注识别和预测现有数据的模式不同,生成式AI着重于创造新的、有创意的数据,其关键原理在于学习和理解数据的分布,进而生成具有相似特征的新数据,在图像、文本、音频、视频等多种领域都有广泛的应用。
1.1 发展历程:21世纪加速人工智能领域探索,生成式AI四领域落地
21世纪加速人工智能领域探索,生成式AI四领域落地。在21世纪之前,人工智能处于缓慢探索期,该概念最早可以追溯到20世纪40年代,在1943年沃伦和沃尔特提出了人工神经网络的概念以及艾伦·图灵发表了著名的论文《计算机器与智能》,提出了图灵测试,用以判断机器是否具有智能,从而开启对于人工智能的早期探索,但困于计算机的计算能力和数据处理能力有限,以及人工智能研究过于注重理论而忽视了实际应用,发展速度有所减缓;直到进入20世纪90年代,互联网的兴起为人工智能的发展带来了新的机遇,在21世纪第一个十年间,搜索引擎、推荐系统和机器翻译等应用的出现以及支持向量机、随机森林等算法的提出,为人工智能应用提供了更加强大的工具,进入机器学习阶段;2010年以来,随着大数据的出现和计算能力的提升,深度学习成为人工智能研究的热点。深度神经网络在图像识别、语音识别和自然语言处理等领域取得了令人瞩目的成绩;在经历了前二十年的技术积累后,生成式AI在21世纪第三个十年诞生,由OpenAI开发的GPT-4语言模型,标志着基于语言的人工智能应用程序迈入了崭新的功能阶段,并在图像生成、文本生成、音视频生成上取得显著成果。
1.2 政策:国家陆续出台指导性及支持性政策,推动行业发展
国家陆续出台指导性及支持性政策推动生成式AI发展。从政策发展的角度来看,中国的生成式AI是在国家层面的人工智能政策推动下得到发展的。“十三五”规划首次将人工智能作为重点任务,并明确了新一代人工智能的发展战略目标,这标志着人工智能上升到了国家战略的高度。在“十四五”规划中,进一步强调了在人工智能关键技术领域实现突破的重要性。为了确保生成式AI的健康发展和规范应用,同时保护国家安全和社会公共利益,2023年7月,国家互联网信息办公室、国家发展和改革委员会、教育部、科学技术部、工业和信息化部等部门联合发布了《生成式人工智能服务管理暂行办法》。此后,各相关部门陆续出台了指导性及支持性的政策文件,以加速生成式AI的发展,并鼓励其在各个领域的应用。
2 细分领域:技术及产品更新迭代频率加快,未来发展可期
从传媒领域的覆盖情况来看,更注重内容端成果落地,因此我们着重探讨图像生成、视频生成及音频生成发展情况及相关产品运营情况。
2.1 图像生成:Midjourney稳住行业龙头地位,AI文生图迈向多模态融合
AI文生图,即通过人工智能技术解析文字描述内容,提取关键信息,利用深度学习模型形成草图,再经过优化算法细化图像细节,增强图像质量,输出符合描述的视觉内容,是近年来快速发展的一项技术。2.1.1发展历程:迈向多模态融合,逐渐成为大模型核心模态之一早期探索阶段:以1973年哈罗德创造智能AI绘画系统“AARON”为起点,系统的绘画方式是建立在哈罗德本人对绘画的理解之上,将其绘画风格与技术用层序编码形式展现出来,是最初代的AI绘画系统;2001年西蒙开始研发智能图形软件,创造“The Painting Fool”,可以根据照片里的色块分布,使用现实中的绘画材料进行创作,并在2011年开发3D建模能力,开创三维绘画时代;在2014年,深度学习模型对抗生成网络GAN(Generative Adversarial Network)提出,奠定了早期AI绘画实现技术的基础,在2017年 罗 格 斯 大 学 实 验 室 基 于GAN制 作 出 创 造 性 对 抗 网 络CAN(Creative Adversarial Networks),带动行业更进一步发展。技术成熟及产品化阶段:2022年初,由独立开发者Somnai开发的Disco Diffusion在谷歌Colab云服务上正式对世界开放使用,标志着行业迈向技术成熟及产品化阶段;2022年7月,MidJourney V3上线,也是目前主流的AI文生图产品之一,且9月份AI文生图中核心技术Stable Diffusion以开源底层代码的形式面向大众,促使市场相关应用程序大量开发涌现,使AI文生图的艺术质量呈现出指数级的进化速度。多模态融合阶段:自2023年起,它已经在摄影艺术、设计、二次元、CG艺术和影视制作等多个行业得到广泛应用。AI文生图技术不仅限于单一的图像生成模型,而是开始向多模态融合方向发展,成为大型AI模型如GPT4-V和Dalle-3的核心组成部分。这些模型能够处理包括文本、图像、音频和视频在内的多种数据类型,实现跨媒体的理解和生成。随着技术的持续进步和应用场景的扩展,预计AI文生图技术将在未来获得更广泛的应用和更深入的集成。
2.1.2市场规模:市场规模高速增长,网民参与度显著提升市场规模高速增长,网民参与度显著提升。市场规模方面,根据《中国AIGC文生图产业白皮书》数据显示,2023年,中国AI文生图市场多数企业处于融资初期或A轮阶段。预计到2024年,行业将出现有影响力的企业,推动市场市值显著增长,但规模仍在百亿人民币内。2025年,市场将进入商业模式成熟期,预计至少3家企业成为独角兽,市场规模有望突破200亿。2026年起,市场将进入快速增长期,预计2027年接近千亿规模。网民参与度方面,2022年约有1000万网民参与AI文生图,到2023年底,这一数字将增至5000万。随着商业模式的成熟,2024至2025年,中国AI文生图网民有望达到1.5至3亿,其中许多人将深度参与市场建设。如果2026至2027年市场爆发,网民数量可能达到5亿。"参与网民"包括所有接触、了解、使用AI绘画功能、平台、工具或产品的用户。随着市场的发展,用户参与度将显著提高,推动AI文生图行业的快速成长。
2.1.3产品:产品发展成熟,Midjourney稳住行业龙头地位产品发展成熟,Midjourney稳住行业龙头地位。目前市场上的产品已经发展比较成熟,主流的AI文生图工具分别有Midjourney V6、Adobe Firefly 3、Stable Diffusion 3、Dalle 3等。从数字生命卡兹克的数据来看,分别从细节质量、审美及语义理解三个方面进行产品测评,Midjourney V6均占据较为显著的优势,主要原因在于产品迭代速度快于同行,整体图像产出质量显著提高,同时通过庞大的用户量及用户数据,使得Midjourney积累的数据集具有独家性,并依托这些数据进行反复训练,来构建自我艺术风格,巩固自身竞争优势,稳住文生图龙头地位。
2.2 视频生成:新品推出受到市场关注,创新点赋能行业发展
AI文生视频的本质是能够根据输入的文本描述自动生成相应的视频内容。这项技术结合了自然语言处理(NLP)、计算机视觉、图像生成和动画技术等多个领域的研究成果,通过训练大量文本和视频数据,依靠文本解析、图像生成、动态渲染等核心技术,将文字转化为图像,并赋予这些图像动态效果,全自动化形成视频文件。文生视频技术的应用可以大幅降低内容创作的门槛,使得短视频、影视镜头、广告等内容的制作更加便捷。
2.2.1发展历程:技术更迭带动行业发展,扩散模型成为主流技术路径技术更迭带动行业发展,扩散模型成为主流技术路径。在发展早期阶段,主要依靠图像进行拼接形成视频;在2016年GAN及VAE开始兴起,给文生视频的发展奠定了基础,这两者均是生成模型,原理是学习数据的概率分布并生成类似于训练数据的新数据,而GAN能够生成更高质量的数据,但也伴随着稳定性较差、生成图像缺乏多样性问题显现,导致应用范围有限,行业发展速度缓慢;2019年自回归模型推出,相较于GAN,具有明确的密度建模和稳定的训练优势,而行业真正兴起点在于将扩散模型在文生图领域经验拓展至文生视频,成为AI视频生成领域的主流技术路径,带动行业产品推出频率及数量显著提升,例如Runway的GEN-3、Pika1.0、Open AI的Sora、快手的可灵等。
2.2.2市场规模:发展存在一定挑战,市场潜力可期相较于AI文生图来说,文生视频发展较为缓慢,目前市场仍处于初期阶段,主要挑战在于:1)缺乏相符性高的训练数据,视频与文本相符性高的大规模数据集较少,获取成本及定点标注成本较为高昂,模型训练将会受到阻碍;2)计算成本高昂,视频制作时间长短决定了帧数多少,为确保帧间空间和时间逻辑保持一致性,从而需要大量的计算资源,训练模型的成本高昂;3)信息冗杂难处理,视频具有多场景、多任务、视觉动态等特性,信息冗杂,处理难度较高。根据GIR(GlobalInfo Research)调研,2023年全球文生视频大模型收入大约为720万美元,预计2030年达到22.19亿美元,2024至2030期间,年复合增长率CAGR有望达到56.6%,市场潜力可期。
2.2.3产品:新品推出受到市场关注,创新点赋能行业发展新品推出受到市场关注,创新点赋能行业发展。目前市场上受到关注度较高的文生视频产品分别是来自OpenAI的Sora、Pika1.0、近期快手推出的可灵、Luma AI推出的Dream Machine以及Runway推出的GEN-3,从创新点来看,快手的可灵可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟,在确保新生成部分与原视频间的运动连贯性及物理合理性的同时,还能巧妙融入大幅度的动作变化,提升视频的生动性;Luma AI的Dream Machine则是支持物理模拟,生成具有真实物理特性的视频,如重力下落、碰撞和光影变化等,从而确保视频在视觉和物理行为上都具有真实性和连贯性等等。新品的推出通常伴随着领域技术的突破,从目前的文生视频能力来看,已经具备了一定的产业生产力,未来将赋能影视产业链,为其降本增效提供助力。
2.3 音频生成:音乐生成类市场潜力大,企业探索视频生音频技术
AI音频生成行业,作为生成式AI的关键应用领域,正快速成为技术创新的领先领域。该行业利用先进的人工智能技术和复杂算法来创造音频内容,包括语音合成、音乐制作和声音效果合成等。通过融合机器学习和深度学习算法,AI音频生成技术能够精确地模仿人类的语音、音乐节奏和声音效果,生成自然且逼真的音频,广泛应用于娱乐、广告、教育和新闻传播等多个领域。2.3.1产业链:协同发展,中游AI音频算法和服务平台为核心产业链协同发展,中游AI音频算法和服务平台为核心。在AI音频生成行业的产业链中,上游主要由AI技术和芯片提供商组成,他们负责AI技术的研究与开发以及芯片的生产,为整个产业链提供必要的技术支持和硬件基础。中游则是AI音频生成行业的核心,包括AI音频算法的开发、AI音频服务生成的平台以及AI音频处理软件,这些环节对技术的要求极高,是推动行业发展的关键。下游则是具体的应用领域,涉及游戏、教育、娱乐、广告等多个场景,以及智能客服、智能音箱、智能家居等产品,这些提供商和服务商将AI音频技术应用于实际场景中,满足不同用户的需求。
2.3.2市场分类:语音合成占主导,音乐生成潜力大,语音识别应用成熟语音合成占主导,音乐生成潜力大,语音识别应用成熟。AI音频生成技术根据不同的应用场景主要分为三个类别:语音合成、音乐生成和语音识别。语音识别在早期的智能音箱和语音助手等产品中已经得到了广泛的应用,市场较为成熟;语音合成则是基于深度学习算法,能够精确地模拟人类的语音特征,包括音色、音调和语调,将文本信息转化为口语化的语音输出,在朗读软件和语音导航等领域得到了广泛应用,并且目前占据了整个AI音频市场的近70%份额;音乐生成是随着AI技术不断深入发展而兴起的一个重要应用领域,它利用机器学习和深度学习算法来模拟人类的音乐创作过程,具有在音乐创作、游戏音效制作和电影配乐等方面的巨大潜力。随着AI技术的不断进步和创新,音乐生成领域的应用前景非常广阔,有望为音乐产业带来革命性的变化。
2.3.3产品:Suno V3.5实现功能再突破,Google、ElevenLabs探索视频生音频技术Suno V3.5实现功能再突破,Google、ElevenLabs探索视频生音频技术。从具体的产品来看,标杆性的音乐生成类音频AI是由Suno AI研发的Suno系列产品,于今年5月推出了V3.5版本,维持了与Open AI合作,一次性完成歌词、演唱、编曲、配乐等全部流程,领先于市面上单纯生成音乐的同类型产品,相较于V3版本,主要升级在最长片段长度扩展至4分钟;最长2分钟的歌曲拓展;歌曲结构的显著改进。这些均表示AI音频已升级至可以更轻松地制作出完整的歌曲,提供连贯且高质量的音乐输出,并使生成的音乐更加流畅和自然,也使得音乐的情感表达更加丰富和细腻,同时关注到ElevenLabs及Google DeepMind均宣布了自动匹配画面AI生成音效产品,即无需人工输入提示词也可以为视频配音,实现真正的AI音频及AI视频合作,后者Google的产品也可以根据提示词控制输出所需的音频或避免出现不需要的声音,自由度更高。随着相关产品功能的完善,这将带领文生视频迈入有声时代,实现行业再突破,双向促进市场繁荣发展。
3 传媒行业应用:AI赋能传媒子行业,助力技术变革
AIGC赋能传媒行业,助力技术变革。以生成式AI为核心理念的AIGC(即AI Generated Content)是指利用人工智能技术来生成内容,也被认为是继UGC(用户生成内容)、PGC(专业生产内容)之后的新型内容生产方式,囊括了人工智能生成的内容、生成内容所用的算法以及厂家提供的产品或服务等。目前,AIGC已在广告、影视、游戏、娱乐等多个传媒互联网的细分领域进行广泛应用,从而提升内容生产效率,降低内容生产成本,助力行业变革。
3.1 AI赋能游戏行业:优化游戏制作流程,推动迈入制作运营新阶段需求端、技术端双重促进生成式AI赋能游戏领域。随着科技不断进步,AI已经逐步从弱人工智能向强人工智能迈进,数字内容生产方式也愈发高效,而游戏领域涉及的细分内容复杂且多,开发时间较长,开发商难以同时满足成本、质量、效率,为保证质量,需投入大量人员或延长制作周期,开发成本和效率难以控制,生成式AI的投入使用,能够优化游戏制作全流程,提高开发人员制作效率,降低游戏研发成本,并赋能产品内容创新,并助力游戏行业运营、发行等领域实现变革,全方位推动行业迈入制作运营新阶段。
生成式AI助力游戏制作、内容创新,降本增效,优化游戏体验。从游戏开发方面来说,主要分为游戏制作及内容创新。从游戏制作来看,生成式AI能够根据文本生成语音、自助或协助编写代码、根据主题设计生成游戏地图、根据二维图像生成三维模型等,极大提升游戏的策划、音频、美术、程序等环节的生产力,压缩游戏整体项目的研发周期与人员规模,大幅降低游戏制作成本,例如《Generated Adventure》是一款点击冒险类游戏,其游戏的美术、UI、音乐等均由Midjourney、ChatGPT等AI工具所打造,耗时仅72小时,虽然游玩体验较为粗糙,但仍是一次全新的技术尝试,未来随着技术不断发展进步,AI全线制作游戏的可行性将大幅提升;从内容创新来看,对已有的游戏进行产品更新升级,实现真正的人与AI的互动,例如在游戏《逆水寒》中引入ChatGPT,打破固定交流模式,实现高自由度地游戏互动体验;斯坦福大学构造了一个虚拟小镇,将25个AI智能体投入到沙盒环境中,利用GPT来生成其行为和语言,在设定的身份及性格框架下,赋予AI记忆和情感,会影响他们日后的所有决策,具有高度自由化,如同真实的现实小镇。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)