1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升
图像理解能力提升:三大视觉学习方法
为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体 (如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例 、全景分割)的各项任务。
通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数 据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测 此标签。2)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容 与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示, 而不依赖于显式的人工注释标签。
图像理解能力提升:标签监督
监督式预训练已成为机器学习和计算机视 觉领域的核心技术。在这种策略中,模型 首先在大规模标注数据集上进行预训练, 随后针对特定任务进行精细调整。这种方 法充分利用了如ImageNet这样的大型人工 标注数据集,为模型赋予了高度可迁移的 视觉特征。
其核心原理是将图像与预设的标签相对应 ,这些标签往往代表某一视觉物体。多年 来,这种策略在各类视觉基础架构,如 AlexNet、ResNet以及ViT的发展中都发挥 了不可或缺的作用。监督式预训练为计算 机视觉领域带来了革命性的进步,从基础 的图像分类和物体检测,到更为高级的视 觉问答和图像标注任务。受限于人工标注 的高成本,这些模型所学习到的特征会受 到预训练数据集的规模和多样性的制约。
图像理解能力提升:语言-图像监督预训练—— CLIP
CLIP (对比性语言-图像预训练) 利用图像的“alt-text”(一种为图像提供文字描述的方法,常用于网页以增强无障 碍访问)来进行训练。此阶段的训练涵盖了大量图像与其相关文本描述的匹配对,确保模型精确捕捉到文本与图像 间的关联性。如果图片和文字有对应关系,那么在高维特征空间中代表两者的点就会非常接近。经过无数图像-文本 配对训练的文本编码器可以接受任何给定的文本标签并产生一个独特的向量表示。当提供一个图像时,其对应的向 量表示将与这些文本向量进行比较,以分配最合适的类别。
CLIP在零样任务中展现出卓越的泛化性能和对于领域偏移的高度鲁棒性。CLIP不仅能够应对视觉识别和图像-文本的 联合检索任务,更在接受适当的提示后表现出强大的视觉-语言推断能力。由于CLIP基于简单的跨模态交互,它在推 理效率上超越了基于交叉注意力的视觉-语言模型。
图像理解能力提升:图像自监督预训练 —— 对比/非对比学习
在没有标签的无监督学习场景中,对比学习通过将正例(相似的样本)和负例(不相似的样本)对比,强化模型对 于相似性和差异性的判别能力。通过这种方法,即便在没有明确的类别标签的情况下,模型也能够被训练成可识别 出哪些特征更有可能来自同一分布或类别。对比学习的成功归功于其能够捕捉到数据的内部结构和模式。在图像处 理中,对比学习可以用来学习视觉表征,这些表征能够区分不同的物体和场景。一旦模型学习有区分性的特征,它 将可以被用于多种下游任务,如分类、检索和聚类,并展现出强大的泛化能力。
近年来,非对比学习逐渐崭露头角,不再重视明确的样本对比,而是致力于挖掘数据的内在结构和不变特性。例如 基于Siamese架构的模型,可以有效处理多个数据视图,而不必过多地依赖样本之间的对比性质,这为模型训练带 来效率与扩展性的双重优势。
视觉生成:多模态内容理解和生成的闭环
在多模态大型模型的发展过程中,视觉生成技术是整合 视觉内容与文本信息的关键手段。拥有理解和生成视觉 内容的能力使模型能够参与到更深层次和细致的任务中 ,如图像标注、视觉叙事以及复杂的设计任务。由于人 类的理解和沟通本质上是多模态的,通过整合视觉生成 功能,模型能够以更接近人类认知的方式处理和生成信 息。此外,多模态融合也为虚拟现实、增强现实以及交 互式数字平台等领域奠定基础,未来将实现更为自然、 无缝且高效的用户界面。
“人类行为对齐”旨在融合人类的认知过程和AI驱动的 视觉内容生成。传统视觉生成模型仅依赖数据,导致输 出内容往往缺乏人类的逻辑思维和行动模式。例如,在 生成‘繁忙的街道’图像时,传统模型只机械地排列车 辆、行人和商店,无法捕捉人类对‘繁忙’的深刻理解, 例如行人的匆忙步伐、车辆的密集流动和商店的热闹场 景。而通过引入人类行为对齐,模型可确保生成的视觉 内容不仅准确,更与人类的感知和期望相符合,推动模 型向更以用户为中心的方向转变,使系统在‘思考’和 ‘感知’方面更符合人类需求。在遵循人类意图合成所 需视觉内容的图像生成模型方面,主要涉及四个方向: 1)空间可控的T2I生成;2)基于文本的图像编辑;3) 更好地遵循文本提示;4)在T2I生成中实现物体定制化。
2 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣
GPT-4 Turbo:文本理解能力再次提升,知识储备迅速更新
1)更长的上下文(Context Length):GPT-4-turbo支持的上下文窗口(128k)相较于GPT-4-8k 提升16倍,相较于GPT-4-32k提升4倍,即GPT-4-turbo可在单个prompt中处理超过300页的文本, 且GPT-4-turbo模型在较长的上下文中更加准确。我们认为GPT-4-turbo更长且更准确的上下文处理能 力将支持更长的工作流,在B端有能力承担更多的工作负载,提升用户体验。
2)更丰富的世界知识(Better Knowledge):外部文档和数据库的截止更新日期从21年9月更新至 23年4月,意味着OpenAI的大模型在半年内已学习互联网一年半的知识,学习速度极快。
3)更多的控制(More Control): 支持JSON Mode新模式:在JSON模式下,新的API参数response_format使模型能够约束模型输 出,以生成语法正确的JSON对象。 更好的Function calling:用户可以在发送一条消息时请求多个操作,且函数调用的准确性提升。 Reproduceable outputs:通过seed 参数控制输出可重复的内容。我们认为,开发人员通过运用GPT-4-turbo模型将对函数和API有更准确、更高的控制能力。
4)【多模态能力—文生图】GPT-4 Turbo + DALL·E 3:开发者只需指定DALL·E 3作为模 型,即可以通过Images API将DALL·E 3直接 集成到开发者的应用程序和产品中。根据大会 演示,Snap、可口可乐和Shutterstock等公司 已经使用DALL·E 3为客户生成图像和设计。当 前API已内置适度的审核功能,帮助开发者保 护其应用程序免受滥用。 价格:每张图像0.04美元起,根据不同的格式 和质量而定。
5)定制化(Customization):开发者可以针对GPT-4和GPT-3.5进行微调,并面向大公司推出 深度定制的Custom Models,定制化模型意味着针对特定领域的训练和应用将进一步发展。
6)更高的频率限制(Higher rata limits):GPT-4付费客户的每分钟令牌限制将翻倍,并且可以 在API设置中申请更高的频率限制。通常,速率限制有五种衡量方式:RPM(每分钟请求)、RPD (每天请求)、TPM(每分钟令牌)、TPD(每天令牌)和IPM(每分钟图像)。更高的频率限制 将支持开发者完成更多工作。
7)大幅降低开发者成本。① GPT-4-Turbo的 输入令牌价格比GPT-4-8K便宜3倍,价格为 $0.01,输出价格则便宜2倍,价格为$0.03。 ② GPT-3.5-Turbo-16K的输入价格比之前的 16K模型便宜3倍,价格为$0.001,输出标记 便宜2倍,价格为$0.002。③ 通过微调,新的 GPT-3.5-Turbo-fine tuning模型支持与4K相 同价格的16K上下文,且GPT-3.5-Turbo-4Kfine tuning模型的输入价格减少4倍为$0.003, 输出价格降低2.7倍为$0.006。
Assistant API:解决API开发者痛点,拓展OpenAI收入来源
针对开发者在开发API中的痛点,OpenAI推出Assistant API,致力于为开发者赋能。根据此前市 场上推出的各种API,我们可以发现API通过接入各种程序和应用,有助于帮助应用实现特定功能。 例如,Shopify的Sidekick允许用户在平台上进行操作;Discord的Clyde允许discord版主设置自定 义人格;Snap my AI作为定制聊天机器人工具,可以添加至群聊中并提出建议。但以上API的构建 可能需要开发者耗费几个月的时间、并由数十名工程师搭建,而目前Assistant API的推出将使其变 得容易实现。 定价:除常规的tokens计费外,部分组件还需收取额外费用。其中,代码解释器/Code interpreter定价为单次0.003美元;检索/Retrieval定价为0.20美元/GB/助理/天。
3 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键
算力端:用户流量激增+多模态生成,算力亟需扩容
1)用户流量激增导致算力供不应求:OpenAI旗下GPT-4-Turbo、GPTs和Assistant API等产品 的推出已打开新流量入口,更多的用户和开发者希望参与其中,巨大的流量对算力底座提出更高的 要求。2023年11月7-9日,ChatGPT及API出现多次宕机,面对开发者大会后的巨大用户流量, OpenAI的算力基础设施频繁遇到容量瓶颈;11月15日,创始人Sam Altman在推特上表示,在开 发者大会召开后,ChatGPT及一系列新产品的使用量出现激增,且远超内部预期,其算力负载短期 难以为继,OpenAI为确保现有用户体验,决定停止ChatGPT Plus新用户注册,近期OpenAI服务 器的不稳定以及对用户数量的限制已经表明全球算力亟需扩容。
2)多模态生成大幅提高算力需求:图片等多模态生成所要求的tokens计算量将远高于文本模态, 从而大幅提升模型训练和推理的算力需求。根据OpenAI官网信息,1000个tokens大约为750个 words,因此在文本方面,1个单词对应为1.33个tokens。而多模态方面,在GPT-4-Turbo的 Vision pricing calculator高保真度模式下,1张图片则需要765或1105个tokens,对应来看,1张 图片所产生的tokens数大约是1个单词的570或830倍。
3)大厂自研趋势:科技巨头加速自研,优先服务于自身云服务业务及AI条线。微软于23年11月16 日Ignite技术大会上发布两款自研芯片——Azure Maia 100和Azure Cobalt 100,分别用于大语 言模型的训练推理和通用云服务的支持。近年来,各大科技厂商纷纷自研芯片,一是为了降低自身 对第三方芯片和外部供应链的依赖;二是自研芯片可帮助各大厂商克服一定的通用芯片局限,通过 CPU+GPU+DPU+定制芯片等结合方案,提升全系统整合效率、实现业务赋能;三是提高计算能效、 减少长期硬件成本。
应用端:热门AI应用流量周度跟踪
周度日均访问量TOP20总览:11.05-11.11全球AI应用日均访问量前20排名与上周相同,环比各有 升 降 , 前 三 分别 为 ChatGPT 、 New Bing以 及 Canva Text to Image , 环比 分 别 +3.79- 0.86/+7.64%,其他AI应用日均访问量均处于1000万次以下,其中AI+生产力应用Gamma获得本 周前20榜单中最高增速,环比+9.58%。
数据端:专业数据或成关键,重视垂类数据留存及知识产权价值
专业数据是构建GPTs竞争力的核心要素之一:OpenAI发布的GPTs包含Knowledge的功能,该功 支持用户上传个人或专业数据,有助于提升AI应用的定制化使用效果和用户体验。我们认为,在 GPTs模式下,专业知识与大模型通用能力的结合将成为未来的重中之重,私域数据库或专业数据库 方向将会不断产生新需求、新热点。
报告节选:
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
相关报告
AI行业GPT~4~Turbo专题:多模态能力提升,应用生态加速.pdf
AI人脸识别诈骗敲响金融安全警钟.pdf
AI搜索专题报告:怎么看Kimi的空间?.pdf
边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf
人形机器人专题报告:AI驱动,未来已来.pdf
建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf