1. LLM发展历程与变迁趋势
LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现
在“Transformer”模型还未出现时,NLP(自然语言处理)领域的主流架构基本采用RNN(循环神经网络),RNN的痛点可以总结为两点: ①由于递归性质,训练过程中通常无法并行计算; RNN在工作过程中将会对内容按顺序逐字处理,每一步的输出取决于先前的隐藏状态和当前的输入,需要等到上一个步骤完成后才能进行当前计算,因此无法进行并行计算,训练效率较低。 ②不擅长处理长序列、长文本; 当 RNN 处理长序列时,由于信息的不断累积,时间步长增加时,梯度会不断变小,这会导致梯度消失或梯度爆炸问题,使得网络难以学习长期依赖(long-term dependency)的关系。当梯度消失时,前面的信息无法有效地传递到后面,也就导致词之间距离越远,前面对后面的影响越弱,所以RNN难以有效的捕获长距离的语义关系,当梯度爆炸时,网络的权重会变得极大,导致网络不稳定。
虽然之后也出现了如LSTM(Long Short-Term Memory)和GRU(Gated Recurrent Unit)等的RNN变体,但解决长期依赖问题的能力也有限,也依旧无法解决无法并行计算的痛点。
“Transformer”是谷歌的研究团队在2017年6月在论文《Attention is All You Need》中首次发布的。该论文提出了一种全新的序列转换架构,完全基于自注意力机制,摒弃了循环神经网络(RNN)在处理序列数据时的局限性。“Transformer”有能力学习输入序列里所有词的相关性,不会受到短时记忆的影响。
我们可以将“Transformer”的创新总结为两点:①自注意力机制;②位置编码。其中,“Transformer”的自注意力机制简单来说就是“Transformer”在处理每个词的时候,不仅会关注这个词本身以及附近的词,还会去注意输入序列里所有其他的词,然后给予每个词不一样的注意力权重(权重是模型通过大量文本训练习得的)。
大模型发展趋势:参数规模扩大+向多模态演进
通过回溯主流模型迭代情况,我们可以将LLM大模型的发展趋势总结为两点:①模型参数量呈现增长趋势;②由单模态向多模态演变。其中,参数量规模的增长在很大程度上推动了大模型的学习能力(但不绝对,也取决于模型的算法和参数质量,过多的参数也会导致过拟合情况发生),而大模型由单模态向多模态的演变,也意味着模型能够处理和理解来自不同数据模态的信息,这些模态可以包括但不限于图像、文本、音频、视频等,实现复杂生成任务。
2. CV领域发展历程与变迁趋势
CV领域工具&模型变迁之路:SD成为开源之王,多模态成为下一阶段演进方向
GAN:早期的AI绘画技术,AI绘画工具的起源。GAN模型一问世就风靡AI学术界, 在多个领域得到了广泛的应用.它也随即成为了很多AI绘画模型的基础框架, 其中内置的生成器用来生成图片, 判别器用来判断图片质量。GAN的出现大大推动了AI绘画的发展。GAN模型进行AI绘画有比较明显的缺陷, 一方面是对输出结果的控制力很弱,容易产生随机图像, 另外一个问题是生成图像的分辨率比较低。
Disco Diffusion:Disco Diffusion 是第一个基于CLIP + Diffusion 模型的实用化AI绘画产品。它利用生成对抗网络(GAN)和扩散模型技术来创建艺术作品,尤其是从文本描述生成图像。2022年初在谷歌Colab云服务上正式对世界开放使用。Disco Diffusion的痛点也有两个:1) AI绘画细节还不够深入,达不到商业水准;2) 渲染时间过长,需要大量内存。
DALL·E2:DALL-E是一个可以通过文本描述中生成图像的人工智能程序,于2021年1月5日由OpenAI发表。2022年4月,OpenAI宣布了新版本的DALL-E 2,它可以从文本描述中生成照片般逼真的图像,另外还有一个允许对输出进行简单修改的编辑器。
Midjourney:2022年7月12日,MidJourney进入公开测试阶段,用户可以通过Discord的机器人指令来使用MidJourney生成图像。MidJourney是一个基于大规模预训练的自然语言处理模型,可以根据文本生成图像。同月,MidJourney开始向所有用户开放注册,引起了广泛的关注和讨论。MidJourney展示了其对各种复杂和超现实的图像生成任务的能力,并被认为是与DALL-E相媲美的人工智能模型。
Stable Diffusion:2022年7月Stable Diffusion的问世,相比前辈们,Stable Diffusion已经成功的解决了细节及效率问题,通过算法迭代将AI绘图的精细度提升到了艺术品级别,并将生产效率提升到了秒级,创作所需的设备门槛也被拉到了民用水准。由于拥有发展良好的开源社区,它的用户关注度和应用广度都超越Midjourney和DALL-E。
多模态:AI绘画逐渐成为大模型核心模态之一,如GPT-4V/DALL-E3。
23年以来CV领域技术升级--ControlNet:AI绘画的精准手术刀
ControlNet 是一种用于控制Stable Diffusion 模型的神经网络模型,ControlNet 的作用是通过不同的图像采集方式,并添加额外控制条件,来引导 Stable Diffusion 按照创作者的创作思路生成图像,从而提升AI 图像生成的可控性和精度。2023年初ControlNet 的横空出世, 与传统的生成对抗网络不同,ControlNet 允许用户对生成的图像进行精细的控制,给出了一条完美解决 AI 绘画发展进程中“精准控制”难题的道路。
Midjourney迭代之路:V6版本具备更为深入的复杂自然语言的理解力
历经9个月的研发,12月21日Midjourney V6 Alpha版本正式上线。 我们认为Midjourney自V5之后版本(v5.1、v5.2、v6),以及包括当前图像生成主流应用之间(如Midjourney、Dall·E3、Stable Diffusion),从生成图像的质感方面看不存在太大差异,更多的是风格的不同。如何降低用户学习成本,让用户更为简单高效并精准的使用是下一步迭代的关键。Midjourney V6 Alpha版本就拥有了更为深入的复杂自然语言的理解力,大幅降低了用户的学习成本。
Stable Diffusion迭代之路:高可操作性,当前AI绘画开源之王
Stable Diffusion相较于其他主流模型(如Midjourney)具备两点优势: ①基于Latent Diffusion Model,生成高质量图片更快。Latent diffusion model即潜在扩散模型,基于diffusion模型基础上研制出的更高级模型,升级点在于图像图形生成速度更快,而且对计算资源和内存消耗需求更低。扩散模型之所以用 Diffusion 来命名,因为它的运作过程就是向训练图像不断地添加噪声,直到变为一张无意义的纯噪声图,再逐步恢复的过程。标准的扩散模型是在像素空间(可以理解为高维空间)中进行的,对于一张512x512 尺寸的 RBG 图片,这将是一个 768432(512x512x3)维度的空间,意味着生成一张图需要确定768432个值,这个过程往往需要多台专业显卡同时运算。而潜在扩散模型就是解决这个问题的,它的过程是先把训练图像先缩小 48 倍再进行运算,结束后再恢复到原始尺寸,这样运算过程中需要处理的计算数据就少了许多,运算速度也会比正常的像素空间中快了很多,在硬件上的要求也大大降低,而这个压缩后再运算的空间就是Latent 潜空间。
②由于是开源模型,可用的模型和插件众多,用户对图像的可控强更强。Stable Diffusion参数杂多,100+插件和脚本,多种不同种类的模型,如Lora,高清修复,局部重绘,ControlNet,deforum,模型训练等。相较于Midjourney靠关键词、垫图、seed值来控制固定模型,可控性不高。而Stable Diffusion可以依靠插件模型进行控制角色姿态、面部表情,手指动作,生成文字,可以局部重绘。
3. AI手机+AIPC主流厂家布局盘点:AI驱动新一轮换机潮,关注AI产品落地情况
小米:MiLM-6B和1.3B 是由小米公司开发的大规模预训练语言模型,参数规模分别达64 亿和13亿。小米大模型在C-Eval 总榜单排名第 10、同参数量级排名第 1。根据C-Eval测评,MiLM-6B 模型在具体各科目成绩上,在STEM(科学、技术、工程和数学教育)全部 20 个科目中,计量师、物理、化学、生物等多个项目获得了较高的准确率。
三星:11 月 8 日在三星人工智能论坛 2023 上,三星官方正式公布了其自研的生成式AI 产品Gauss,Gauss将面向 AI 聊天、AI 代码、AI 图片等领域,Gauss 目前用于提高员工生产力,但将在不久的未来扩展到各种三星官方 App。
荣耀:2024年1月,荣耀揭晓了自研端侧 70 亿参数平台级 AI 大模型“魔法大模型”,将由荣耀Magic 6手机首发。“魔法大模型”为荣耀带来了智慧成片、图库语义搜索、一拖日程等功能,这些都是在端侧本地运行的。
OPPO:Andes GPT有三个版本,分成 1800 亿参数、700 亿参数、70 亿参数三种体量,支持端云协同部署,根据不同场景的用户需求实现智能调度。OPPO 在 Find X7 系列上首次实际端侧应用 70 亿参数的大模型。
华为:华为盘古大模型共包含5个基础模型(NLP大模型、CV大模型、多模态大模型、预测大模型、科学预测大模型),23年7月,华为harmony OS 4.0正式发布,接入了盘古AI大模型,mate50、P60等34款设备可率先升级公测版本。
Vivo:23年11 月,vivo 在 2023 开发者大会上正式发布了自研 AI 大模型蓝心 BlueLM,覆盖了十亿、百亿、千亿三个参数量级,其中10 亿量级模型是主要面向端侧场景打造的专业文本大模型,vivo X100 系列将率先搭载蓝心大模型。
4. 海内外热门AI应用盘点:聊天类机器人仍是主流,海内外主流应用用户规模持续扩大
国内AI角色聊天机器人-豆包
豆包是字节跳动公司在2023年8月正式上线的一款AI对话产品。它集成了先进的AI对话功能,用户可以与AI进行智能交互,包括文本生成、文生图等能力。 模型:基于云雀大模型 。功能:集成了多功能智能体,提供问答、智能创作、聊天等多语种服务,具体有:智能对话、内容生成、英语学习助手、写作助手、写作助手、文生图等功能。
国内AI聊天机器人-天工
天工APP是昆仑万维公司在2023年7月发布的一款大语言模型应用。这款应用具备自然语言处理和智能推荐等多种功能,能够理解用户需求,提供实用信息。模型:基于天工大模型 ·功能:用户可以通过天工APP进行问题提问、获取创作灵感、聊天互动等操作,具体功能有:智能问答、AI写作、 AI速读、 AI对话、 AI画画、写作教练等功能。
人工智能聊天机器人——ChatGPT、Bard
2022年11月,OpenAI推出人工智能驱动的聊天机器人ChatGPT,它使用机器学习来回答对话中的查询。GPT代表生成式预训练Transformer,它可以在数据序列中查找模式。ChatGPT目前使用GPT-3.5语言模型,该模型是根据互联网上人类创建的文本进行训练的。付费版本ChatGPT Plus现在使用升级后的GPT-4模型。 2023年3月21日,谷歌母公司Alphabet推出了一款名为Bard 的对话式人工智能聊天机器人,它通过从互联网获取响应,通过自然语言处理和机器学习来模拟人类对话。 Bard最初使用Lamda用于对话应用,但升级到Google的下一代语言模型Palm 2。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
AIGC行业深度报告:大模型改变开发及交互环境,处于高速迭代创新周期.pdf
AI人脸识别诈骗敲响金融安全警钟.pdf
AI搜索专题报告:怎么看Kimi的空间?.pdf
边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf
人形机器人专题报告:AI驱动,未来已来.pdf
建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf