多模态是实现通用人工智能的必经之路
按照处理的数据类型数量划分,AI模型可以划分为两类:(1)单模态:只处理1种类型数据,如文本等;(2)多模态:处理 2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。 多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显: 输入端:1)提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升 通用大模型能力;2)提高用户体验:推理侧更低的使用门槛和更少的信息损耗。 输出端:更实用。1)可直接生成综合结果,省去多个模型的使用和后期整合;2)更符合真实世界生产生活需要,从而实现 更大商业价值。
数据:高质量多模态数据有限,合成数据发展或能改善
数据存量有限: 1)根据Epochai,在当前大模型高速发展趋势下,高质量语言数据可能在2026 年之前耗尽,而低质量语言/ 视觉数据存量也可能将在2030~2050/2030~2060年耗尽。2)高质量多模态数据集有限:由于不同类型的标注成本差异大, 视觉等模态数据的收集成本比文本数据高,导致多模态数据集,尤其是高质量数据集通常比文本数据集少得多。
AI合成数据或有望改善数据枯竭问题。1) 与实际数据具有相同的预测特性。2)合成数据获取速度更快,为垂直模型的训练 更快定制数据集。3) 适应多模态模型的数据模态组合,能够扩大所有数据模态存量的组合,有效增加数据存量。
算法:技术要求更高,LLM发展提供突破口
相比单模态,多模态大模型算法和工程难度更大,在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。
预训练为多模态主流训练方式。由于高质量的多模态标注数据较少,基于Transformer结构的多模态预训练模型逐渐成为主流,通过海量无标注 数据进行预训练,再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势,即设计时原生支持多模态,具有处理不同形式数据的能 力,但各环节难度会更高。23年12月谷歌GEMINI即为原生多模态,一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有 效性,行业技术取得进一步突破。
这一波大语言模型发展给多模态带来新突破:1)大语言模型LLM可充当大脑,处理各种模态信息,将其它模态信息对齐到LLM的语义空间。2)大 语言模型在训练方式上给多模态模型提供前进方向参考,如自监督、预训练、上下文学习、指令遵循等。
多模态是AI时代真正的商业宏图起点
2B:更符合真实世界生产需要,有望提高电商、营销、金融、教育等行业的生产力,真正为企业降本增效(我们在此前AI应用系 列深度报告中已有较详细分析,此处不多赘述);企业可将节省的成本用于提高产品/服务质量或者技术创新,推动生产力进一步 提升。
2C:多模态大模型发展带来技术平权,C端内容创作达到一个成本与质量更优的均衡点,或出现新的空间更大的UGC平台。过去 UGC平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量会增加十倍,对应平台用户规模 也会大幅增加。图像、视频、音频、3D资产等多模态技术进一步发展有望驱动AIGC时代真正到来。
视觉模型:数据与算法同步发展,图像生成引领方向
数据与算法往往同步发展,大型高质量数据集是模型突破重要基础,算法突破推动爆款应用出现。 现阶段多模态数据大多需要先用文本标注而非直接用于训练,相比文本数据集,图文对、视频文字对等数据集获取和标注工作量更大,大型高质量数据集的出现将为领域内 算法突破奠定基础。 算法在泛化性(21年CLIP,似GPT3时刻)、可提示性(22年Flamingo,似chatgpt时刻) 、生成质量和稳定性(2021年扩散算法)等突破将推动技术拐点到来及爆款应用出现。
2D图像生成引领视觉模型前进方向。由于2D图像生成在数据、算法、算力等方面是视觉模型中要求相对较低的领域,因此更容易实现技术突破,更早出现爆款应用(如 Midjourney、dalle3),其也为3D资产生成、视频生成等领域提供技术参考。但考虑到后两个方向算法未完全收敛,尚未进入“大炼模型”阶段,距离真正的技术和应用爆发 拐点还需要一定时间。
视觉生成:文生图技术开始收敛至扩散算法,应用有望加速
主流生成算法包括VAE、GAN、Diffusion等,生成算法与视觉理解算法可实现多种组合关系。如OPENAI 经典文生图模型DALLE包括三个独立训练的模 型:dVAE(decoder),Transformer(encoder)和CLIP(筛选)。
目前2D图像生成是相对成熟的应用方向,一方面受益于大规模公开数据集和表征模型等基础环节的进步,另 一方面也受益于生成算法中扩散模型的突破。目前基本大部分文生图模型/应用的decoder环节都用 Diffusion扩散算法,如DALLE 2 & 3(OPENAI)、Stable Diffusion(stability.ai)、Midjourney等。
视频生成:可类比图像生成的2021年,期待24年发展
视频生成包括文生视频、图生视频等。相比图像生成,视频生成模型训练面临更多难点:1)算力和存储需求高: 视频比图像更大,训练时需更 大GPU内存,推理时生成大量帧,确保帧间空间和时间一致性会产生长期依赖性,计算成本更高。2)大规模高质量数据集仍较少;3)技术复杂 ,控制难度高。需考虑流畅性、动作、逻辑问题;涉及到更多空间维度,当视频很长时,确保每一帧都协调一致相当复杂;prompt过于简单难以 为每一帧都提供详细的描述。
2023年以来技术加速突破,2024年或有望取得更大发展。1)2021年受GPT3和DALLE启发,行业开始采用Transformer 架构,出现了Make-a-video 等只需prompt即可生成视频的模型;2)2022年扩散模型从图像扩展到视频领域,相关研究论文数量从22年的14篇显著增加至23年前10个月的103 篇,23年GEN-2、PIKA1.0等视频模型效果取得明显突破,开源玩家入场,共同推动视频生成行业加速发展。虽然由于数据、算法等难点,行业技 术仍未收敛,生成效果仍有提升空间(仍有生成痕迹,流畅度/清晰度/时长/动作复杂度不够),但我们认为视频生成的2022-2023年可类比2D图 像生成的2021年(已有上亿规模的数据集、扩散模型取得突破),且考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型,2024年行业 或取得更大的发展。
海外:OPENAI和谷歌领先,垂类独角兽加速行业发展
OPENAI和谷歌在多模态领域布局广度和技术先进程度上都处于领先地位,且都推出了表现较好的通用多模态大模型。在垂类领域 上,OPENAI在文生图等技术已接近拐点的方向表现较好,而谷歌在3D资产生成等技术还处于较早期的方向表现较好。
Stability.ai、 midjourney、runway等公司在部分生成领域保持领先,这些独角兽对行业技术突破和产品创新发挥了重要作用, 加速孵化爆款应用。
OpenAI:多模态能力不断增强,技术与应用正循环
OpenAI是多模态大模型领头军,在LLM能力基础之上持续增强多模态能力,并注重与chatgpt生态的融合,技术与应用双向驱动。 2023年10月,GPT-4 新增了视觉功能:1)实现准确且低门槛的识别、判断与推理,与外部工具与插件无缝集成,有望实现更多创新和协作应用。 如根据医学图像生成诊断报告,引用先前医学扫描和诊断历史提升诊断效率。2)推出视觉参考提示功能,强化C端个人助理职能。如用户可在图像 中用箭头或圈进行标注,指示GPT4V进行聚焦性推理回答。3)具备情感理解与美学判断能力,展现情感意识人机交互的潜力。 文生图模型DALL·E不断迭代:23年9月迭代至第三代,简化用户提示词学习过程,在图像表现力方面有明显提升,与MIDJOURNEY差距明显缩小。 多模态功能集成于ChatGPT体系中,有望增强技术与应用的正循环:ChatGPT已基于Whisper、GPT4V、DALL-E·3推出语音和图像多模态功能,支持 用户直接与ChatGPT进行语音对话、图像问答和图像生成,在提升用户体验的同时也有望积累更多数据及反馈帮助模型能力提升。
国内:海外开源有利于国内追赶,技术与应用同步发展
国内科技大厂(百度、阿里巴巴、字节跳动、腾讯等)及大模型公司(昆仑万维、科大讯飞、商汤等)均积极布局多模态,并有望结合自身应用生 态优势进行商业变现。如阿里巴巴应用在电商领域,腾讯应用在营销领域,昆仑万维应用在AI游戏、AI音乐等领域。
万兴科技、美图等AI视觉应用公司亦有望受益于底层技术进步,特别是其海外应用。以美图为例,12月发布自研大模型Miracle Vision 4.0版本, 拥有AI设计与AI视频两大新能力,并将于2024年1月陆续应用于美图旗下产品。目前Miracle Vision的视频生成能力已能融入行业工作流,尤其是电 商和广告,MV4.0的迭代加速将推动公司向生产力场景应用渗透,助力行业工作流提效。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)