大模型群雄并起,Kimi打破竞争格局
月之暗面发布Kimi,长文本成为破局关键
月之暗面成为国产大模型新星。2023 年10 月,清华大学杨植麟及其AI 团队“月之暗面”发布了Kimi,拥有优秀的长文本处理能力,可处理20万汉字输入。同时,利用Long Context 可以大幅减少 fine-tune 的成本,实现模型应用的“多、快、好、省”。例如可以先用5万字定制一个模型的能力,剩余还有大量文字窗口,也足够日常交互使用。而fine-tune需要构造数据并训练,时间较长且需要较高的复杂度,单位token的成本也更高。公司选择用Long Context方式来解决 90%的问题,更好向前向后兼容,也成为公司最高优先级的技术突破方向。
“大海捞针”测试验证了 Kimi 长文本能力。长文本能力是实现人类与AI之间无损理解的基础,它使 AI 可以更准确地理解人类的复杂、感性思维,从而在多种应用场景中更有效地服务于人类。根据近一年全球各个大模型迭代方向,上下文窗口的“长文本”再持续升级。其中,在文本持续变长过程中,大型是否会忽略掉部分细节内容的问题一直是“长文本”能力的关键。因此有开发者进行了一项名为“大海捞针”的大模型长文本性能测试,即在文本中加入一句与该文本内容不相关的句子,测试大模型是否能通过Prompt把这句话准确提取出来。月之暗面的工程师在2023年12月也进行了测试,选取模型为Kimi chat(支持20万汉字输入),GPT-4 Turbo(支持128K上下文窗口),Claude 2.1(支持200K上下文窗口)。根据测试结果,Kimi chat在“大海捞针”中的表现明显好于GPT-4Turbo和Claude 2.1.
Sora 开创AI 视频生成新纪元
OpenAI发布Sora大模型,通过Patches和Scaling Transformers革新视频生成技术。
多模态融合与Patches技术:Open Al通过将视觉数据转换为Patches的方法,仿照语言模型中token的应用,实现了文本多模态的统一,涵盖了代码、数学和自然语言等多种形式。Patches作为一种高效且可扩展的表示方法,在生成视频和图像的模型训练中展现了其独特价值。
通过时空Patches高效生成视频:OpenAl创新性地开发了一套减少视觉数据维度的网络技术,这项技术可以把原始视频变成一个既在时间上也在空间上被压缩的潜在格式。Sora模型正是在这个压缩后的潜在空间中接受训练,从而能够生成新视频。为了将这些潜在的视频表示重新转化为清晰的图像,OpenAl还专门训练了一个解码器模型。通过对输入视频进行压缩并将其分解为一系列的时空Patches,这些Patches 便成了Transformer 模型的输入单位。这种方法使得Sora模型能够处理不同分辨率,持续时间和宽高比的视觉内容。在生成视频时,OpenAl能够通过在特定的网格中排列这些随机初始化的 Patches,从而有效控制生成视频的大小和形状。这一策略同样适用于图像处理,因为可以将图像看作是静态的单帧视频。
Sora采用 Scaling Transformer 提升模型效率:OpenAl 通过应用Scaling Transformers的技术,成功地扩展了视频生成模型的能力。ScalingTransformers是指一系列旨在提高 Transformer 模型规模和效率的技术和方法,以便处理更大的数据集、更复杂的任务或在更大规模上运行,同时提高性能。在使用固定的初始条件(种子)和输入数据进行视频样本的训练过程中,OpenAl展示了通过增加训练过程中的计算量(例如,使用更多的计算资源或进行更多次的训练迭代)可以显著提高生成的视频样本的质量。
OpenAI新一代模型能力有望大幅提升
Sam Altman透露新一代大模型相关进展,模型能力大幅提升。2024年1月,OpenAI首席执行官Sam Altman先后受邀参加了《UnconfuseMe》、达沃斯经济论坛,透露新一代大模型相关进展:1)大模型进展:目前OpenAI首要任务是推出下一代大模型,可能不命名为GPT-5,展望未来两年,人工智能有望在推理能力和可靠性、多模态(语音输入/输出、图像、视频)、可定制化和个性化三个领域大幅提升,其认为至少在未来5-10年内,AI大模型技术将处于一个非常陡峭的成长曲线上。2)新一代大模型架构和能力提升:OpenAI新一代模型将是一个多模态大模型,支撑语音、图像、代码和视频,并在个性化和定制化方面实现重大更新,具备更强的推理能力和更高的准确性;Sam Altman认为如果GPT-4解决了人类任务的10%,则新一代大模型有望解决人类任务的15%或20%;同时,AI大模型的幻觉问题有望在新一代大模型中解决。3)通往AGI之路:大模型能力提升不在于解决具体的问题,而是广泛意义的通用性在逐步增强。
PixVerse 定位全球视频多模态应用,引领AI 创新潮流
爱诗科技有限公司成立于2023年,是一家迅速崛起的AI视频生成大模型及应用企业。2024年1月,公司推出海外产品Pixverse,具备文生视频、图生视频等多种功能,目前已在海外AI视频生成领域占据一席之地,成为全球用户量最大的国产AI视频生成产品。
To创作者和To消费者的双重策略,目标在2024年底做到大规模的C端应用落地。公司认为AI视频生成产品的第一阶段是To创作者,理解创作者动机;第二阶段将直面消费者。公司希望打通To C市场的AI视频生成全链路,持续推进国内外产品迭代,目标在24年底实现大规模C端应用。
访问量快速增长,PixVerse成国产AI视频之光。目前PixVerse已初步搭建了稳定的创作者生态,并根据用户反馈进行模型迭代,在未来有望成为现象级、端到端的Al Native应用。据Similarweb统计,PixVerse在24年2月用户访问量已突破124万次,环比增长120%;2月访问量增速超越海外竞争对手Pika、Runway等,跻身全球AI视频生成工具第一梯队。
大模型引领全球AI算力需求重估
Kimi 火爆拉动算力需求增长
Kimi大模型推理算力测算推理过程:主要包括分词(Tokenize)、嵌入(Embedding)、位置编码(PositionalEncoding)、Transformer 层、Softmax。推理主要计算量在Transfomer解码层,对于每个token、每个模型参数,需要进行2x1Flops=2次浮点运算,则单词推理算力消耗为模型参数量 x (提问 Tokens + 回答 Tokens) x 2。推理算力计算假设及结果: 模型参数量:如上文所述,假设Kimi大模型参数量为2000亿。 推理单次 Token量:正常用户对话通常在1000 Token左右,假设推理单次 Token量为 1000。
多模态大模型拉动AI训练、推理算力需求增长
大模型训练算力测算:训练过程可分前向传播(Forward Pass)和反向传播(Backward Pass)。 前向传播:输入数据(例如图像、文本等)通过神经网络的各层进行传递,以得到输出结果,包含输入数据与权重矩阵相乘、应用激活函数等操作,目的为将计算网络预测输出,并将其与实际目标值比较,计算损失函数(Loss Function)的值。 反向传播:一种高效计算梯度算法,从输出层开始,沿着网络层次结构向输入层反向传播,计算每个权重的梯度(注:梯度表示权重对损失函数贡献的大小);同时,在计算出所有权重的梯度后,使用优化算法更新权重,达到减小损失函数值的目的。
视频模态拉动AI算力需求增长
Image-to-Video模块需要视频数据进行训练。根据Ze Liu等著《Video Swin Transformer(2021)》,输入一个尺寸为T×H×W×3的视频(此处T选取32,代表从视频中采样得到32帧,采样方法可自行选择,通常为等间隔采样,视频长度通常约10s;每帧包含H×W×3个像素),通过3D Patch Partition可以得到(T/2)*(H/4)*(W/4)个3D Patch(尺寸为2*4*4*3),即为Tokens,之后再经过Video Swin Transformer和Patch Merging获得多帧数据的高维特征,完成视频数据训练。根据《Will we run out of data? An analysis of the limits of scalingdatasetsinMachine Learning(Pablo等著,2022年)》披露数据,Youtube每分钟大约上传500小时视频,则我们可以得到Youtube一年增量视频数据为500×3600×24×365=157.68亿秒。
美国限制对华云服务,看好国产算力需求提升
美国将限制云厂商对华客户提供AI云服务。美国商务部部长 Gina Raimondo宣布,美国政府正推出一项提案,阻止外国实 体,特别是来自中国的实体,使用美国的云计算进行AI大模型 的训练。美方认为这是保障国家安全和美国技术优势的一项努 力。根据2024年1月29日美国BIS部门发布的相关文件,提到 “requiring U.S. Infrastructure as a Service(IaaS) providers of IaaS products to verify the identity of their foreign customers, along with procedures for the Secretary to grant exemptions.(要求提供 IaaS产品的IaaS厂商确认其外国客户身份,遵循安全部门豁免 程序)”。
国内领先大模型厂商影响有限,看好国产算力需求提升。国 内领先大模型厂商大多自建智算中心,使用自有的AI算力训练 大模型,该政策对国内领先大模型厂商影响有限。国内AI大模 型初创公司受制于创业初期资金不足,部分厂商租赁海外云厂 商AI算力进行自研AI大模型训练;同时,国内训练垂类模型的 部分AI应用厂商亦会租赁海外云厂商AI算力进行调优;该政策 发布后,部分国内AI大模型初创公司和国内训练垂类模型的AI 应用公司有望自行购买算力卡或租赁国产AI算力进行模型的训 练和后续的推理,看好国产算力需求提升。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
计算机行业专题报告:大模型进展2.0.pdf
计算机行业2023年报总结:拐点虽迟但到,静待更显著的提质增效.pdf
计算机行业专题报告:行业景气触底,算力全面超预期.pdf
计算机行业2023年年报综述:整体平稳、市场化驱动领域表现较好.pdf
计算机行业新型智算中心改造专题报告:网络成大模型训练瓶颈,节点内外多方案并存.pdf
基金2024Q1分析:加仓有色通信,减仓医药计算机.pdf