【国信证券】人工智能应用专题(4):国内AI大模型趋势探讨,互联网大厂AI进程梳理.pdf

2024-01-02
51页
6MB

大模型的竞争格局演绎的关键因素


大模型技术本质上来源于科研创新与技术积累


海外大厂核心大模型的能力迁移是国内AI发展的重要考量。考察是否有海外大厂核心大模型研发的技术积累和知识迁移到国内,以及这些技术在本土的应用情况和调整,对理解国内外AI技术的差异和互动具有重要意义。 国内企业大模型技术路线有两类:①自研效果复现类:参考GPT论文自研复现效果,前期耗时、后续Finetuning对于数据数量质量也有一定要求,能力天花板高;②基于开源迭代类:训练更顺畅但天花板低,依赖开源社区,且开源模型如Llama2比较GPT3.5还是有差距。国内企业大模型团队发展路径有两类:①从搜广推背景转向大模型研发,如百度和百川;②成立之初主要基于大模型研究路线和学术背景,如月之暗面的杨植麟团队和清华的智谱团队。


基于开源大模型框架进行优化调整、应用创新较易落地


OpenAI的核心能力主要体现在三个方面:1)数据收集和处理的能力,包括数据来源,清洗方式,数据结构等;2)模型结构,包括注意力、隐藏层等设计;3)训练方法,包括各类超参数,学习率等。海外大模型开源后,我国大模型企业可在其框架上进行优化调整,以百川智能为例: 基于开源模型提升性能:据GitHub,百川智能通过对LLaMA框架进行修改以提升训练时的吞吐。此外,在LLaMA较为薄弱的中文语料方面,百川智能采用2000万条以中英为主的多语言语料训练分词模型,显著提高中文的压缩率。 大模型+搜索增强解决方案服务B端场景:百川智能通过借助搜索增强,解决大模型在幻觉和时效性问题,提升了模型的可用性,并拓展了应用领域,如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等。


高质量训练数据促进大模型技术的提升,但优质数据集稀缺


有效数据集有限,优质数据集仍旧稀缺。当前开源榜单公开训练数量级,现有常见的大模型训练数据集往往在几十到几百B的量级,优质的数据集可能就只有300-500B token,进化到多模态数据量有所增加,但总量也不多。有的模型会用万亿级别的数据token训练,但很多数据其实是无效的。


大模型的未来发展依赖于训练数据集的质量,而非仅仅是数量。根据Scaling Law,Transformer架构的语言模型性能在很大程度上取决于模型大小、数据集大小和训练计算量,性能与这三个因素之间存在幂律关系,且趋势跨越多个数量级,而对其他架构细节(如网络深度或宽度)的依赖相对较小。未来的大模型可能会经历增长飞轮效应,但关键在于训练数据集的质量。这强调了选择和使用高质量数据的重要性,而不仅仅是追求数量。单纯的用户数据上不一定会产生飞轮效应,比如某些用户数据目前只具备统计学的能力,能够发现逻辑、数学的问题还需要找逻辑、数学数据集去优化。


AI技术将更大范围的数据带入分析领域,关注稀缺内容平台


AI技术把原先难以利用的非结构数据(占比80%)带入分析领域。AI浪潮下数据资产的重要性凸显,Snowflake在财报会提到AI技术把原来客户无法利用的非结构化数据带入分析领域构成新的增量。一系列数据公司与产品受益,包括云数据仓库领域(Snowflake)、非结构化/向量数据库(MangoDB、Pinecone)、云数据监控(DataDog)和 ML/AI Ops 领域(Databricks、AWS Bedrock、Weights&Biases)。


内容创作者所聚集的平台,如字节和腾讯视频号成为高质量数据的重要来源。 随着内容创作者转向音视频平台,这些平台成为了聚集高质量数据的热点,如字节跳动和腾讯视频号等平台。部分观点类数据可能具有一定时效性,如百度问答和知乎等平台上的数据。


独立的模型团队—月之暗面、清华GLM、百川智能


月之暗面:清华系新星杨植麟领衔,团队核心人员多为清华同门


月之暗面(Moonshot AI)创始人杨植麟自2020年起便坚信“大模型是未来” ,2020年下半年为华为的盘古大模型做核心技术研发,2021年参与智源研究院的悟道大模型研发。2022年底杨植麟前往美国进行为期2个月的考察,美国民众对于GPT的狂热让他更坚信此时正是成立大模型公司的合适时机,于是他在接下来的1个月内完成首轮融资,拿到来自红杉等头部机构6000万美元的启动资金,并于3个月内组建起了大约40人的技术研发团队。


Moonshot AI于2023年3月成立,成立前其团队主要通过与其他公司合作,以团队提供技术、合作方提供算力的形式来完成大模型相关工作。创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被GooglePaLM、Meta LLaMa、Stable Diffusion等主流产品采用。


2023年首次发布大模型产品Kimi Chat,长文本能力为核心能力


基于千亿大模型的智能助手Kimi Chat,核心能力为长文本能力(Long Context):2023年10月9日,Moonshot AI推出首款产品,拥有长达20万汉字的上下文处理能力,据Moonshot AI官方,这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。此外,Kimi Chat还可处理多种文档格式(如PDF、Excel等),具备较强的多语言能力,以及调用搜索引擎获取信息,旨在为用户提供强大、智能的对话伙伴,并为其工作、学习、生活提供助力。


大模型产品涵盖AI开放平台、智谱清言及一系列AIGC产品


智谱AI合作研发大模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B,并推出AI提效助手智谱清言(ChatGLM)。AIGC模型及其产品矩阵包括高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等;建立大模型MaaS开放平台,致力于AI生态建设。


百川智能:前搜狗CEO王小川带领,团队核心成员多为知名科技公司AI顶尖人才


百川智能由前搜狗公司CEO王小川联合前搜狗公司COO茹立云于2023年4月10日创立,团队核心成员多为来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI顶尖人才,截至2023年10月,团队规模170余人,其中硕士及以上学历员工占比近70%,研发人员占比超80%。融资方面,启动资金5000万美元来自创始人王小川及其业内好友个人支持,2023年10月完成A1轮战略融资,获阿里、腾讯等科技巨头及顶级投资机构的3亿美元融资金额,创下国内大模型初创企业最快晋升独角兽的记录。


目前已有超过200家企业申请百川大模型开源和商业授权,并已将百川模型投入实际生产场景。企业涵盖互联网、软件和信息技术、金融、法律、教育、制造业、企业服务等众多领域,客户包括阿里云、腾讯、火山引擎、京东科技、顺丰科技、浪潮、中国农业银行、蔚来汽车等。


互联网大厂的模型和应用进展—腾讯、字节、百度、阿里


腾讯-基础大模型:混元大模型


混元大模型是腾讯自研的通用大语言模型。具有超千亿的参数规模、超2万亿tokens的预训练语料。9月,腾讯混元大模型正式通过腾讯云对外开放。用户可以直接调用API接口,或者将腾讯混元作为基底模型,在公有云上进行精调。 10月,腾讯混元大模型迎来全新升级,并正式对外开放“文生图”功能。根据公司介绍,升级后的腾讯混元中文效果整体超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。 11月世界互联网大会乌镇峰会,腾讯集团副总裁蒋杰还展示了腾讯混元大模型的“文生视频”能力。混元助手是基于腾讯混元大模型的多模态对话Bot产品。随着9月腾讯混元大模型首批通过备案,混元助手以微信小程序的形式陆续面向公众开放。在场景的AI聊天页面之外,还在“灵感发现”页面提供了多个场景化的应用。除文生文外,混元助手已经支持文生图功能,尚不支持文生视频和读图功能。


腾讯-AI基建:自研紫霄芯片+HCC算力集群+向量数据库


腾讯自研芯片已经量产,包括用于AI推理的紫霄芯片:采用自研存算架构和自研加速模块,可以提供高达3倍的计算加速性能和超过45%的整体成本节省。目前在腾讯会议实时字幕上已实现全量上线,单卡紫霄机器负载可达到T4的4倍,并将超时率从0.005%降低至0。腾讯云在4月发布新一代HCC高性能计算集群:采用最新一代星星海自研服务器,搭载NVIDIA H800 Tensor Core GPU,性能较前代提升3倍。通过对单机算力、网络架构和存储性能进行协同优化,能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。 腾讯云在7月发布AI原生的向量数据库:之后经过多次迭代升级,在优化版的IVF索引支持下,从最初支持的十亿向量规模到现在的千亿规模和500万QPS峰值能力。目前,腾讯云向量数据库已经在内部服务于腾讯视频、QQ浏览器、QQ音乐等40多个业务,日请求量达1600亿次,服务了包括博世、销售易、搜狐、好未来、链家等在内的超过1000家外部客户。


百度-基础大模型:文心大模型4.0


文心大模型4.0具备强大的理解、生成、逻辑和记忆的能力。根据百度官方公众号,文心一言于8月31日向全社会开放,至今已有超7000万用户。10月17日,在百度世界2023大会上,文心大模型4.0版本正式发布。文心4.0实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升,其中逻辑的提升幅度达到理解的近3倍,记忆的提升幅度也达到了理解的2倍多。根据三季度业绩会议,与3月的文心一言相比,当前版本的推理成本降低了98%,同等算力条件下QPS提升了50倍。


百度-核心广告:预计在四季度贡献数亿增量收入


核心广告:文心大模型重构广告系统,预计在四季度贡献数亿增量收入。 1)9月7日,百度营销发布全球首个AI Native营销平台“轻舸”。根据业绩会议,百度通过文心大模型重构广告系统,提升广告素材创作效率和定向能力,“轻舸”可以自然语言和表达、高效推送、随时调度AI能力,大大提升投放效率,便利用户投放。至今已有数千名广告客户采用新广告系统,采用这些新功能的广告客户在三季度实现了平均高个位数的转化率提升。在四季度,AI相关举措有望为百度广告贡献数亿增量收入。 2)公司正在测试采用新的对话形式替代原有的落地页,不仅有望提升广告转化率,还将使公司有机会从CPC模式向CPS模式转变。


百度-智能云:贡献API调用收入、大模型解决方案收入


智能云:伴随着文心大模型4.0的发布,公司相信客户对AI大模型的需求有望打开云业务新的增长空间。根据业绩会议,目前来自生成式AI和LLM的收入还比较少,但增速快。大模型的2B收入贡献分为几个层面:1)API调用收入:文心4.0已开放面向企业客户的API,目前文心大模型API的调用量呈指数级增长。2)大模型解决方案收入:百度具备完善的芯片、框架、模型、应用四层技术栈,支持企业客户基于文心大模型构建企业级大模型和行业应用,也支持企业客户基于文心千帆平台训练自己的大模型,无论客户选择何种方式,都将为百度带来新的创收机会。


阿里—AI组织架构:云智能团队主导,全链条布局AI


阿里云战略为“AI驱动,公共云优先”,达摩院和基础设施事业部负责AI底层基础设施及芯片研发;集团层面,阿里巴巴成立了基础设施委员会,由CEO吴泳铭直接统筹负责,协调全集团底层技术基础设施的规划与建设,助力AI更好地在集团其他业务落地应用。根据IDC统计,2022年中国AI公有云服务市场还是呈现出80.6%的正增长,整体市场规模达79.7亿元人民币。2022年中国AI公有云服务市场份额,百度智能云占比28.9%,阿里云占比27.4%,华为云占比18.7%,腾讯云占比18.7%,其他云厂商占比6.4%。


阿里C端应用—淘宝问问:三大基本模式支撑四大应用场景


淘宝问问是淘宝App推出的ToC AI应用,可以根据用户输入信息,通过深度合成算法解答用户问题,提供内容建议及相关商品推荐,目前淘宝问问仅向C端使用者开放,底层模型为通义千问。 自9月上线测试版以来,累计使用人次超500万;淘宝问问处理的需求中25%是非购物类场景需求,未来有望开拓购物之外的更多使用场景,向泛生活消费类平台转型; 未来有望以接口方式向B端商家开放,助力其将品牌内容、商品优势更高效传达给消费者,同时了解消费者更长尾的购物需求。


字节AI模型—图像、语音、视频等多模态模型具备优势


AI方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领域。 正在自研原生多模态,目前多模态模型主要是基于开源基础的各个模态子模型:非自回归模型DA-Transformer、端到端语音到文本翻译模型ConST、多颗粒度的视觉语言模型X-VLM、图片和文本统一生成模型DaVinci等。多模态模型应用广泛:抖音、今日头条、剪映等产品层面推出过绘画类、特效类、视频剪辑、视频生成等AIGC功能。


火山机器学习平台与自研DPU构筑算力基石


火山引擎:字节跳动旗下的云服务平台, 将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、数智平台VeDI、 人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。算力:火山引擎在今年4月举办的火山引擎FORCE原动力大会上,正式发布自研DPU等系列云产品,预计明年1-2月流片。并正式推出智能推荐-高速训练引擎,支持100GB至10TB以上超大模型的高效训练。这个平台支持万卡级的大模型训练和微秒级的延迟网络,其弹性计算功能可以节省高达70%的算力成本。火山引擎表示,基于自研DPU的GPU实例比上一代的集群性能提升了三倍以上。火山引擎总裁谭待透露,目前国内大模型领域的数十家企业中,超过七成已经在火山引擎云平台上运行。平台:火山引擎发布了机器学习平台升级版,在数据管理、资源管理、流程和模型三大领域具备核心优势。 应用:火山引擎的AI场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。


报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

国内AI大模型趋势探讨:互联网大厂AI进程梳理.pdf

AI人脸识别诈骗敲响金融安全警钟.pdf

AI搜索专题报告:怎么看Kimi的空间?.pdf

边缘AI行业研究报告:边缘AI硬件,引领硬件创新时代.pdf

人形机器人专题报告:AI驱动,未来已来.pdf

建筑行业2024年春季投资策略:新国九条催化央企市值国改,低空经济AI与铜矿有色弹性大.pdf

2024年移动互联网亲子行业研究报告.pdf

互联网信息行业培训框架(初级篇):成绩斐然,再起征程.pdf

通信卫星行业专题:低轨卫星互联网启动,天地一体通信迈向6G.pdf

TCL电子研究报告:智屏+互联网+创新三驾马车,股权激励开启新篇章.pdf

卫星互联网专题:铱星星座商业模式分析.pdf

【国信证券】人工智能应用专题(4):国内AI大模型趋势探讨,互联网大厂AI进程梳理.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00