【华西证券】海外模型应用复盘:国内AI奇点已至.pdf

2023-10-11
80页
8MB

01 主要大模型汇总:GPT-4领先,多模态演进趋势 加速

Open AI:打开LLM新纪元,GPT-4多模态再升级


GPT-3.5和GPT-4是OpenAI开发的大规模语言模型,目前最受欢迎ChatGPT便是在GPT系列模型基础上开发的,是人工智能(AI)技术的突 破,彻底改变了我们与机器的沟通方式。作为LLMs技术的代表,GPT-4是目前公认的性能优越的大规模语言模型,但是其目前仅支持付费 使用,基于GPT-3.5的客户端应用目前已经免费开放访问。根据AIGC开放社区,9月21日凌晨,OpenAI在官网宣布,在今年10月份将通过 API向ChatGPT Plus和企业版用户提供全新文本生成图片产品——DALL·E 3。9月25日,OpenAI宣布,GPT-4 现已具备图像和声音处理功 能。


Open AI:DALL-E 3发布,颠覆AI生成图片技术


DALL-E、DALL-E 2和DALL-E 3是由OpenAI开发的文本-图像模型,使用深度学习方法从自然语言描述中生成数字图像。最初的DALL-E是 OpenAI在2021年1月5日的一篇博客文章中披露的,它使用经过修改的GPT-3模型来生成图像。2022年4月6日,OpenAI宣布了DALL-E 2, 它是DALL-E的一次版本迭代,旨在以更高的分辨率生成更逼真的图像,它可以巧妙地根据使用者提供的描述和风格来生成图片。2023年9 月,OpenAI宣布了他们最新的图像模型,DALL-E 3,与上一代DALL-E 2相比,其予以图片细节更多的关注。


DALL-E 3计划于2023年10月为ChatGPT Plus和ChatGPT Enterprise客户原生发布到ChatGPT中,并预计在今年晚些时候通过OpenAI的 API和“Labs”平台可用。微软也计划在他们的Designer APP和图像创建工具中嵌入DALL-E 3模型。


根据新智源报道,DALL-E 3已经开始内测,并且内测的效果惊人,与ChatGPT合并,DALL-E 3可以不需要prompt,而是由ChatGPT来生 成相应的prompt,DALL-E 3便可根据相应的prompt来进行图片的绘制,并还可以为其配上相应的图文介绍。


Google & DeepMind:LLM的奠基者,即将推出Gemini多模态模型


PaLM是谷歌人工智能实验室研发的大规模语言模型,其最大版本参数量已经超过5400亿。PaLM的预训练数据集由7800亿token的高质量 语料组成,涵盖了广泛的自然语言用例,其中包括了过滤后的网页、书籍、Wikipedia、新闻、源代码和社交媒体对话数据。 PaLM2是在3.6万亿token的数据集上进行训练得到,参数量仅为3400亿,它共有四个版本,分别为Gecko、Otter、Bison和Unicorn。 它擅长于高级推理任务,包括代码和数学、分类和问答、翻译和多语言熟练程度,以及自然语言生成,比上一代PaLM具有更加优越的性能。 它之所以能够完成这些任务,是因为它的构建方式——将计算最优缩放、改进的数据集混合和模型架构改进结合在一起。


PaLM 2在设计时也考虑到了隐私和数据安全,研发人员对其潜在危害和偏差、能力以及在研究和产品应用中的下游用途进行了严格评估。 它能够加密数据并防止未经授权的访问,这使其成为敏感项目的理想选择,例如构建处理敏感用户信息的安全电子商务网站和平台。 PaLM 2在大量网页、源代码和其他数据集上进行了预训练,因此它擅长Python和JavaScript等流行编程语言,但也能够用Prolog、Fortran 和Verilog等语言生成专门的代码。 PaLM 2可以将复杂的任务分解为更加简单的子任务,并且比以前的LLM(如PaLM)更善于理解人类语言的细微差别。例如,PaLM 2擅长理解 谜语和习语,这通常需要理解单词的歧义和比喻意义,而不是字面意义。


Stable Diffusion:文本到图像的扩散模型


Stable Diffusion 是一种革新的文本到图像的扩散模型,其可以根据任何给定的文本输入来生成逼真的图像。该技术培养了一个可以自主和 自由产生令人惊叹的图像的环境,为数十亿人提供了一个能够在短短几秒钟内创造出令人叹为观止的艺术作品的平台。 Stable Diffusion是由初创型AI公司Stability AI 创建,并于2022年发布,其本质上是一种深度生成人工神经网络,可以在大多数的GPU上 快速运行,而与之可比的Midjourney和DALL.E模型只能在云端服务器访问。 Stable Diffusion 共发生过5次版本的更新迭代,目前最新的 版本为2023年6月发布的SDXL 1.0。


Stable Diffusion目前提供的应用端入口有四个: Stable Diffusion WebUI:Stable Diffusion的浏览器界面,内嵌模型,可以根据文本提示生成图像或使用文本提示修改现有图像。web UI,非常直观,易于使用,具有多种绘画相关辅助功能。web UI是一个很好的方式来探索stable diffusion的可能性,使用者仅需使用鼠标 进行选择和设置,并可以体验Stable Diffusion的强大功能。 Prompt Generator:用于修改Stable Diffusion Prompt的辅助工具,可以用于优化客户构建的不恰当的Prompt,改进后的Prompt将 会极大的改善Stable Diffusion生成图片的质量。Prompt Generator使用先进的算法来生成根据客户特定需求的Prompt,确保生成的图 片满足客户的要求。 ControlNet:为客户提供了一种改变Stable Diffusion的方式,客户可以通过设置相应的参数来改变Stable Diffusion。它改变了人们对 Stable Diffusion的控制,重新书写了文本生成图像的规则。ControlNet的开创性在于它解决了空间一致性问题,通过引入一种方法,使 Stable Diffusion模型能够使用额外的输入条件来告诉模型该做什么。 Stable Diffusion XL App: Dreamer是一款使用Stable Diffusion XL的图片生成APP,用户通过这款APP可以使用Stable Diffusion XL模 型来生成自己想要的图片。


02 应用端产品落地进程加速

应用端产品从导入期迈向成长期,为企业带来新的收入增长点


ChatGPT:Open AI作为人工智能行业的领军企业,不仅推出了ChatGPT付费版服务,同时还提供模型训练、模型微调、图像生成模型、 语音识别模型等多种付费服务,为客户企业带来丰富LLM技术支持,为自身带来持续的营业收入。


Claude:Anthropic公司的Claude系列模型,使用者通过付费的方式进行方位,同时Anthropic与亚马逊建立深度合作,加快新产品的开发 进程。


Watsonx:IBM的人工智能平台watsonx,可以为客户提供模型训练和数据库等相关服务,从IBM第二季财报看出,人工智能业务为其带来 了新一轮的业绩增长。


Notion:将生成式人工智能引入到业务中,为其带来了业绩增长,据Getlatka统计,Notion在2022年的收入为4350万美元,相比于2021 年增长了36%,据Simple,inc估计,2023年的收入为6720万美元。


Copilot365:微软发布的Copilot365助手将在今年11月正式开始订阅服务,麦格里估计,微软Office 365产品约有3.82亿企业用户。按照 报告预测的最差情景,如果其中2.5%决定支付30美元升级至CoPilot 365,微软的年收入就将额外增加34亿美元。如果十分之一企业用户选 择升级,微软的年收入就将额外增长137.5亿美元。按照麦格里预测的最佳情景,如果20%的Office 365用户支付30美元升级,微软的年收 入就将增加275亿美元。


模型端: Anthropic:与亚马逊深度合作,加快企业发展速度


Anthropic目前提供的成熟产品有两个,分别是Claude 2 和Claude Instant,其中Claude Instant是一个更快、更便宜但仍然非常有能力的 模型,可以处理各种任务,包括非正式对话、文本分析、摘要和文档理解,两款产品的定价存在一定差异。


根据2023年9月25日Anthropic官网发布消息,亚马逊将向Anthropic投资40亿美元。该项投资是为了开展更广泛的合作,共同开发行业 内最可靠和性能最高的基础模型的一部分。 Anthropic的前沿安全研究和产品,以及亚马逊网络服务(AWS)在运行安全可靠基础设施方面 的专业知识,将使Anthropic的安全可操控AI广泛地为AWS客户提供。AWS将成为Anthropic的主要云服务提供商,用于关键任务工作负载, 为Anthropic的团队提供AWS Trainium和Inferentia芯片等领先的计算基础设施,这将与现有的模型训练和部署解决方案一起使用。 Anthropic和亚马逊将共同结合各自的专业知识,合作开发未来的Trainium和Inferentia技术。


企业加速应用端开发,探索盈利新机遇


随着大语言模型技术的发展,越来越多的公司开始将大模型技术整合到公司的业务中,利用大模型技术的便利为公司的业务注入新的活力, 颠覆传统的行业发展方式,尽管目前已经有成型的产品,但是公司目前仍然处于可行性验证和打开市场阶段,因此并未产生相应的收入,采 取免费的方式提供给客户使用,但是在未来,将会有很大的机会将其变现。


Inflection AI:专注于面向消费者的人工智能产品,被认为是Open AI的竞争对手,在今年6月29号,完成了新一轮13亿美元的融资,此次 融资由Microsoft领投,同时引入了新的投资者Nvidia,当前估值40亿美元,但公司产品仍处于早期,暂未实现营业收入。 Google的对话机器人BARD和Character.AI的聊天机器人,目前免费向使用者开放,并未提供收费服务。 Stability AI的Stable Diffusion 、Lightricks开发的photoleap和Adobe公司开发的Firefly,它们专注于图像生成技术,但是目前是免费向 使用者开放,未来有望为企业带来营业收入。 Harvey AI是专注与LLM技术应用在法律行业,虽然目前还并未有成熟的产品,但是其所瞄准的赛道前景广阔,已经有1500余家律师事务所 进入到Harvey 公司的waiting list中,等待使用Harvey推出的产品和服务。 西门子和ABB均与Open AI开展合作,将生成式人工智能引入到其业务中,尽管目前并未给它们带来直接经济利益,但是却间接的提升了西 门子和ABB的生产效率,优化了生产工序,在未来有望带来直接经济利益。 Menten AI将生成式人工智能应用到药物分子和蛋白质分子的设计过程中,加快了设计的进程,提高了设计的有效性。


AI+医疗: Menten.AI:生成式AI赋能蛋白质结构设计


Menten.AI是一家初创型药物研发公司,其将人工智能算法引入到药物分子结构的设计过程中,创立一套新的药物研发体系,实现了从零开 始到设计出全新的蛋白质疗法,为药物发现打开了一个未知的领域。 Menten AI拥有自己的研发平台,通过开发基于机器学习的方法,利用基于第一性原理的物理方法进行分子建模,克服了药物设计的历史局 限性。现有的药物研发设计方法受到小数据集、计算昂贵的采样方法和不准确的精度模拟的限制,最终妨碍了有效药物分子的设计。相比之 下,Menten AI的平台能够根据第一性原理创建自己的数据,并应用机器学习来指导新型药物分析的设计和优化。这种方法的优点是,可以 高效和高精度地创造出以前从未见过的类似药物的新型化学物质。


AI+金融: FinGPT:开源的金融数据大模型


FinGPT是由AI4Finance Foundation开发的一种专门为金融领域设计的语言模型。它的目标是为金融大型语言模型(FinLLMs)提供互联 网规模的数据,以此推动金融领域的开源发展。FinGPT采用以数据为中心的方法,强调了数据采集、清理和预处理在开发开源FinLLM中的 关键作用。通过支持数据可访问性,FinGPT渴望加强金融领域的研究、合作和创新,为开放金融实践铺平道路。FinGPT由四个基本组件组 成:数据源、数据工程、LLMs和应用程序。


报告节选:








(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


相关报告

计算机行业动态:海外模型应用复盘,国内AI奇点已至.pdf

计算机软件技术基础完整版.pptx

计算机系统组成与计算机工作原理.pptx

计算机行业算力深度报告:产业链全梳理.pdf

海外计算机行业发展趋势:展望2024Q2.pdf

计算机行业GenAI系列深度之32:Sora之后,AI视频产业链投资机会.pdf

中科创达研究报告:全球领先智能操作系统提供商迎终端AI机遇.pdf

澜起科技研究报告:DDR5渗透提速,AI助力互联新品持续发力.pdf

传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf

Astera Labs公司研究:数据中心连接方案独角兽,产品受益于AI服务器强劲需求.pdf

业务视角的中国企业AI+学习发展报告,燃动智火.pdf

【华西证券】海外模型应用复盘:国内AI奇点已至.pdf-第一页
联系烽火研报客服烽火研报客服头像
  • 服务热线
  • 4000832158
  • 客服微信
  • 烽火研报客服二维码
  • 客服咨询时间
  • 工作日8:30-18:00