2024端侧AI行业报告:国际巨头布局与技术前瞻

1苹果AI布局

1.1.1 苹果AI:模型侧:MM1

3月苹果正式公布自家的多模态大模型MM1,MM1是一个具有最高300亿参数的多模态LLM系列。MM1由密集模型和混合专家(MoE)变体组成,具有300亿、70亿、30亿参数等多个版本。MM1不仅在预训练指标中实现最优性能SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。得益于大规模多模态预训练,MM1模型在上下文预测、多图像和思维链推理等方面表现不错。MM1模型在指令调优后展现出强大的少样本学习能力。在几乎所有基准测试中,苹果的MoE模型比密集模型取得更好的性能,显示MoE进一步扩展的巨大潜力。

2024端侧AI行业报告:国际巨头布局与技术前瞻

1.1.2苹果AI:模型侧:OpenELM

4月26日,苹果宣布了更大的端侧AI推进,推出全新的开源大语言模型OpenELM。OpenELM包含2.7亿、4.5亿、11亿和30亿个参数的四种版本,定位于超小规模模型,运行成本更低,可在手机和笔记本电脑等设备上运行文本生成任务。同时,公司开源了OpenELM模型权重和推理代码、数据集、训练日志、神经网络库CoreNet。OpenELM使用了“分 层缩 放”策略,来有 效分 配Transformer模 型每一 层参 数,从而 提升准 确率。在约10亿参 数规模 下,OpenELM与OLMo相比,准确率提高了2.36%,同时需要的预训练token数量减少了50%。OpenELM的基准测试(数据类型BFloat16)在工作站(配备英特尔i9-13900KFCPU、RTX4090GPU,24GBDDR5内存),以及M2MaxMacBookPro(64GB内存)运行。

2024端侧AI行业报告:国际巨头布局与技术前瞻

1.1.3苹果AI:模型侧:Ferret-UI

4月8日,苹果展示了多模态模型Ferret-UI。Ferret-UI系统可以理解手机屏幕上的应用程序内容,专为增强对 移 动 端UI屏 幕 的 理 解 而 定 制,其 配 备 了 引 用(referring)、定位(grounding)和 推 理(reasoning)功能。Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面(UI)屏幕并与其有效交互的能力。Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini1.5Pro在功能上异曲同工。

Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦)执行指代任务(例如控件分类、图标识别、OCR)和定位任务(例如查找控件、查找图标、查找文本、控件列表)。这些基本任务为模型提供了丰富的视觉和空间知识,使其能在粗略和精细级别(例如各种图标或文本元素之间)区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说,Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还可在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。

2024端侧AI行业报告:国际巨头布局与技术前瞻

1.1.3苹果AI:模型侧:Ferret-UI

Ferret-UI建立在Ferret的基础上。Ferret是一个MLLM,在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状,它都可以解释相应区域或对象并与之交互。Ferret包含一个预训练的视觉编码器(例如CLIP-ViT-L/14)和一个DecoderOnly的语言模型(例如Vicuna)。此外,Ferret还采用了一种独特的混合表示技术,该技术将指定区域转换为适合LLM处理的格式。本质上,空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。

虽然Ferret-UI-base是 基 于Ferret的 架 构,但Ferret-UI-anyres包含额外的细粒度图像功能。特别是,预训练的图像编码器和投影层为整个屏幕生成图像特征。对于基于原始图像长宽比获得的每个子图像,都会生成额外的图像特征。对于具有区域参考的文本,视觉采样器会生成相应的区域连续要素。LLM使用全图像表示、子图像表示、区域特征和文本嵌入来生成响应。

1.1.3苹果AI:模型侧:Ferret-UI

Ferret-UI对基本任务的处理流程:UI检测器输出所有检测到的元素,以及每个元素的类型、文本和边界框。这些检测用于为基本任务创建训练样本。对于定位任务,使用所有元素检测来创建一个用于控件列表的样本,而其余任务一次专注于一个元素。将元素分为图标、文本和非图标/文本控件。对于每种类型,创建一个指代样本和一个定位样本。数据来源:《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》,西南证券整理。

Ferret-UI对复杂任务的处理流程:首先从检测输出中归一化边界框坐标,然后将检测、提示和可选的单次示例发送到GPT-4。对于详细的描述和函数推理,将生成的响应与预先选择的提示配对,以训练Ferret-UI。对于对话任务,直接将GPT-4输出转换为多回合对话。

Ferret-UI在简单任务处理上击败了GPT-4V。但在复杂任务处理上还是不如GPT-4V。通过精心设计“任意分辨率”(anyres)以适应各种屏幕宽高比,以及策划包含广泛的基本和高级UI任务的训练样本,Ferret-UI在引用、定位和推理方面表现出显著的熟练程度。这些增强能力的引入预示着在众多下游UI应用中或将取得重大进步,从而扩大Ferret-UI在这一领域所能提供的潜在益处。


1.2.1 苹果AI:硬件侧:手机AP后劲不容小觑

苹果是较早介入AI计算单元的厂商,早在2017年就在SoC中引入了NPU计算单元,并搭载于iPhone8、iPhone8Plus及iPhoneX上。苹果A17芯片虽然算力为35TOPS,仅相当于高通骁龙8Gen2的AI性能(8Gen2可在手机侧运行10+亿参数的AI小模型),但手机上运行AI模型的效果还需看CPU/GPU/NPU的综合能力,软件生态上的适配优化也是提升用户体验的重要操作。随着AI布局的深入,苹果将充分发挥在架构设计、iOS生态和软件优化方面的优势,其后劲不容小觑。

苹果自2020年11月开始推出针对Mac和iPad的M系列芯片,M系列芯片至今迭代了4代。苹果M系列芯片采用统一内存架构设计,允许CPU、GPU及其他协处理器共享和访问相同的内存池,使得并行计算更快速高效。M4芯片支持120GB/s的系统内存带宽,M3芯片最高支持128GB内存,M2Ultra配置高达192GB的统一内存和800GB/s的系统内存带宽,相当于支持了近似容量的显存,甚至可能容纳下LLaMA-65B模型(650亿参数,显存需求是130GB左右)。在苹果统一内存架构下,CPU、GPU和内存直接通过硅中介层连在一起,数据传输带宽极高。M3/M4系列芯片采用ARM架构设计,台积电3nm工艺制造,在能效比方面优势显著。苹果统一内存架构+ARM架构的能效比优势在端侧AI时代极具想象空间。


1.2.3 苹果AI:在内存有限的环境下如何增强LLM的推理效率

苹果在其发表的论文《LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory》中详细阐述了如何在DRAM容量有限的设备中高效地运行LLMs。

苹果将模型参数存储在Flash中,按需将其带入DRAM,从而高效地运行超出可用DRAM容量的LLMs。为此,苹果构建了一个推理成本模型,其通过引入两种主要技术,即“窗口化”(通过重用之前激活的神经元战略性地减少数据传输)、以及“行列打包”(针对闪存的顺序数据访问优势,增加了从闪存读取的数据块大小),减少了从闪存传输的数据量、以及以更大更连续的块读取数据。这些方法使得能运行的模型大小达到可用DRAM容量的两倍,与CPU和GPU中的简单加载方法相比,推理速度分别提高了4-5倍和20-25倍。这些方法促成了数据负载的显著减少和内存使用效率的提高,对于端侧部署先进的AI模型尤为关键。


1.3.1 苹果AI:应用侧:改造Siri,紧握AI时代流量入口

据纽约时报报道,苹果预计将在6月举行的WWDC2024上展示其人工智能领域的进展,预计将发布改进后的Siri语音助手,新Siri将更具对话性和多功能性。Siri的底层技术将包括一个新的生成式AI系统,该系统将赋予Siri聊天功能,而不是一次回答一个问题。苹果专注于让Siri更好地处理其现有任务,包括设置定时器、创建会面日程和向杂货清单添加物品等,其功能更倾向于个人助手。根据苹果之前在语音领域发表的论文来看新版Siri可能的改进方向,主要有:1)无需唤醒词,就能使用Siri助手,或者更准确地检测唤醒词;2)改善用户与Siri助手之间的交流效果,比如让AI更好地理解模棱两可的问题、理解罕见词;3)生成答案时不再冗长,用户更容易理解等。

结合5月OpenAI和谷歌的发布会来看,在AI语音方面,GPT-4o的拟人化风格,包括能识别人类感情,并根据用户感情做出相应的情绪反应,在语音交互中可随时打断,更贴近真实对话场景等,打破传统的类机器人体验;谷歌DeepMind展示了基于Gemeini开发的智能体Astra的语音交互能力,包括强化的智能体发音、更广泛的语调、更好地理解上下文,并在对话中快速做出响应等。鉴于苹果与OpenAI和谷歌未来可能的合作,预计这些体验未来或将加入到Siri的功能当中。

据彭博社报道,预计苹果将在iOS18中添加AI大模型能力,推出基于AI技术的新功能。当前主流的AI应用或是苹果未来AI原生应用的发展方向。长期来看,苹果原生APP与AI的融合将为服务业务带来更大的价值提升。

1.4 苹果AI终端未来的杀手锏:AI VisionPro打造全新生态

XR设备可承载海量的信息流和深度的内容数据,其独特的优势使它能成为个人空间的延伸。计算机视觉、自然语言交互、深度学习等先进AI技术能使XR设备提供逼真的沉浸感、交互性和无缝的MR体验。内容方面,XR产业通过GPT等生成式AI的编码能力和虚拟世界中模型/环境/角色的自创能力,帮助企业持续提升生产力。AI与XR的融合或创造全新的生态,推动数字体验的发展,并将其扩展到制造业、虚拟生产、电子商务、教育等行业。

苹果的VisionPro开启了空间计算时代,带来了全新的3D交互方式。生成式AI赋能空间计算将大幅推动产业的技术革新并提升用户体验。AI构建的底层框架,与空间计算的结合,有望创造出更宏伟的元宇宙上层建筑。

苹果的VisionPro开启了空间计算时代,带来了全新的3D交互方式。VisionOS搭载全新的3D界面,让数字内容看起来就像在用户的真实世界存在。VisionPro带来全新的输入系统,用户通过眼睛、双手和语音来控制。VisionOS作为革命性的操作系统,利用用户周围的空间提供强大的空间体验,解锁办公和居家的全新机会。硬件方面,VisionPro突破性的显示和先进的音频体验、以及高效的眼睛追踪系统,由M2和R1芯片来驱动。生成式AI赋能空间计算将大幅推动技术革新和提升用户体验,基于苹果强大的芯片能力,VisionPro将有力承接AI模型和生成式AI在端侧的部署,开创新的元宇宙时空。

IDC预计2024年VR/AR头显市场将增长至1250万台左右,主要来自苹果VisionPro和MetaQuest3的推动。到2027年,预计全球VR/AR销量将达到3000万台。

苹果一直将AI和机器学习视为基础技术,并融入到其大部分产品中。苹果研发支出稳步提升,2023财年研发投入近300亿美元,2024财年上半年研发投入156亿美元,同比增长2.9%。苹果资本支出常年超过100亿美元,预计AI投入将提升苹果的资本支出规模。自由现金流2023财年达到995.8亿美元,2024财年上半年为582亿美元,同比增长4.2%。良好的现金流状况和对新技术的巨大投入是苹果深度布局AI的保障。


2 高通AI布局

2.1 高通旨在推动端侧AI更加高效

高通旨在推动AI更加高效,主要集中在功耗效率,个性化,高效深度学习三个方向。高通的AI平台可向多个行业扩展。针对功耗效率的优化,主要涵盖了模型设计、压缩、量化、算法、高效硬件、软件工具等。针对AI个性化,主要涵盖了持续学习、情境感知、长期在线、隐私保护、分布式学习等方面。针对高效深度学习,主要是通过最少数据进行稳健学习、无监督学习和设备端学习。

高通的AI框架主要涵盖三个层面。感知层:物体检测、语音识别、情境融合。推理层:场景理解、语言理解、行为预测。执行层:用于决策的强化学习。


2.2 高通对端侧AI的挑战的看法

AI工作负载的挑战在于:计算密集度高,复杂的并发,实时运行,长期在线等。而终端环境受以下限制:对于终端轻薄设计,必须考虑热效率;长时间使用需要较长的电池寿命;存储/内存带宽的限制。

2.3.1 模型侧:高通对AI模型的优化方向

高通通过模型压缩、量化、编译等操作对AI模型进行优化。模型压缩:学习对模型进行裁剪,同时保持所需的准确性;模型量化:在保持模型所需精度的同时降低比特精度;编译:学习编译AI模型以实现高效的硬件执行。对于任何给定的经过训练的神经网络:将权重存储在低位(INT8),以低位进行计算量化类比:使用较少的位表示图像中的每个像素,在保持模型所需精度的同时降低比特精度。

高通推出了针对端侧AI的优化工具库AIMET(AIModelEfficiencyToolkit)。AIMET是开源项目,旨在提供先进的深度学习模型优化技术。AIMET工具集提供了多种工具,以提高模型性能,降低计算资源需求,从而加速AI模型的部署。

模型压缩与量化:AIMET提供了一套完整的量化解决方案,支持对模型进行INT8或更低精度量化,同时保持高精度。它采用了动态量化策略,可以在训练过程中调整权重的表示范围,保证模型在量化后的性能。知识蒸馏:知识蒸馏是将大型复杂模型(教师模型)的知识转移到小型模型(学生模型)的过程。AIMET实现了高效的蒸馏算法,使得小模型能在保持高性能的同时减少内存占用和推理时间。剪枝与结构优化:通过网络结构分析,AIMET可以识别并删除对模型性能影响较小的连接,实现网络的稀疏化和结构优化,进一步减小模型大小。

元训练与迁移学习:该项目提供了元训练算法,允许模型快速适应新任务,减少了对大量新数据的需求。这对于边缘设备上的应用尤其重要,因为它们通常受限于存储和计算资源。

AIMET支持多硬件平台和深度学习框架,如TensorFlow、PyTorch等。清晰的API设计使它能无缝地融入现有开发流程,更易于集成。用户可以根据自己的需求选择不同的优化策略或实现自定义优化器,实现高度定制化。随着社区的发展和研究的进步,AIMET持续更新,不断引入新的技术和特性。AIMET能帮助开发者在终端侧创建更小巧、高效的模型,也能减少云端的计算资源消耗,降低成本。

端侧生成式AI模型日益复杂,参数规模从十亿级别到百亿级别,且多模态趋势日益增强,这意味着模型能接受多种输入形式,并生成多种输出结果。此外,许多用例需同时运行多个模型。生成式AI工作负载的复杂性、并发性和多样性要利用SoC中所有处理器的能力。

最佳的解决方案:1)跨处理器和处理器内核扩展生成式AI处理;2)将生成式AI模型和用例映射至一个或多个处理器及内核大多数生成式AI用例可分为按需型、持续型或泛在型用例。按需型应用的关键性能指标是时延,这些应用使用小模型时,通常选择CPU。当模型变大(比如数十亿参数)时,GPU和NPU更合适。电池续航和能效对于持续和泛在型用例至关重要,NPU是最佳选择。

另一个关键区别在于AI模型为内存限制型(即性能表现受限于内存带宽),还是计算限制型(性能表现受限于处理器性能)。当前的LLM在生成文本时受内存限制,因此需要关注CPU、GPU或NPU的内存效率。对于可能受计算或内存限制的大视觉模型,可使用GPU或NPU,但NPU可提供更好的能效,提供自然语音用户界面(UI)以提高生产力并增强用户体验的个人助手预计将成为一类流行的生成式AI应用。语音识别、大语言模型和语音模型必将以某种并行方式运行,理想的情况是在NPU、GPU、CPU和传感处理器之间分布处理模型。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024年可转债市场策略分析与配置建议

2024-06-06
下一篇

2024年铂族金属市场分析与战略性资源前景

2024-06-06