AI 再科普:ChatGPT 和 AIGC,从头说起(小白进专业出) 嘉宾:大厂数据科学家钟总AIGC 什么时候火起来?AIGC(AI generated content)去年上半年开始有话题度,去年上半年出现了“文本生成图片” 比较火的概念,(AI 可以精准的理解输入文本的含义,并精美的生成图片,在 10 张中有 2-3 张质量很高),最早的参与者是 mid journey、stable diffusion 等公司,在学界和产业届都有声音。当前国内很多公司(美团、字节等)也接入了画图的功能。下半年时,AIGC 范围更宽泛。之前主要是文本生成图片,其实 AI 对文本理解的要求度没有那么高,只要知道每个物体对应的是什么,就可以画出不错的图片。下半年出现 chatGPT ,可以精准的理解人类提出的问题并给出回答,并且交互过程和人类的交互很相似(有举一反三、推理能力),形成了很强的 AI 能力。从那时起,AIGC 的概念更多是 AI 可以从很多角度理解内容,产生高质量的文本和图片,可以被认为是更宽泛的概念,即生成式 AI(各种类型理解并生成输出的 AI 都属于这一类范畴)为什么短时间内 AI 能力变强,和之前的区别是什么?文本线看:15 年时做的 NLP 都不太智能,比如做机器翻译时需要叠加很多中间任务(词性识别、主体的识别、主谓宾识别等),通用性很差。但现在用 chatGPT 中译英,直接就生成了,是真正的高级通用生成模式。非通用到通用这一过程,主要是如下的几个变化产生:1) 2017 年论文发布后 transformer出现,即高效率利用矩阵乘法做复杂运算,让原本文本领域可以更高效的并行化(因此可以真正堆高模型参数,GPT3 参数量是 1750 亿,之前不是不想做到 1750 亿,是模型结构和算力有限堆不到这个量级,只有到这个量级才有更好的效果。) 2)基于 transformer 最早火的是 Google 的 bard 模型,质量不错,但有问题(需要上游任务迁就下游任务,比如做机器翻译,需要把下游内容专门做一个训练集交给模型去刷新参数,这也意味着模型还是不通用),但是 chatgpt 做各种类型任务都是没有时间缝隙以同样速度产出的,这是 bard 做不到的。这也是 open AI 通过 GPT 框架真正做好的事情,即GPT 框架非常擅长自回归的生成(类似于最早的股价预测,以最近的历史信息为参考进行平滑),人类说话上下文有一定关联,GPT 用这种思路进行生产(最适合 NPL 生产的方式),GPT 在这条路上不停训练,就产生质变,出现了一个真正的通用泛用的框架。质变指模型的突现能力,比如某些任务在小模型情况下只能做到 30%-40%,但一旦量级达到多少参数,效果一下子飙升到 80%左右。机器的智能不是连续发展,是量变产生质变的情况。文字走到今天,就因为选对了框架,一步步量变产生质变的过程。图片线看:15 年有 AI 换脸的风潮,当时的模型是对抗生成网络 GAN 模型,但生成结果不稳定(对抗用的类似于博弈论,但最后不一定能收敛到纳什均衡)。diffusion model 扩散模型解决了这个问题,它可以把这一类任务做得非常高分辨率,且输出结果稳定。图片线是 21 年从 GAN 模型转变为diffusion model 后效果就非常好。接下来技术变化的方向是什么?会在视频和 3D 做得更好。视频是一分钟 3600 张图片有逻辑的叠加,当前模型和算力有难度,视频有很多物理世界的理解,需要机器学习更多数据+算力完善和补足。未来技术路线看,图片和视频 3D生成会更好。AI 的落地场景有哪些?以生成的方式看落地场景包括:1. 文本/图片生成:营销(去年 Jasper AI 公司用 GPT3 做了一年 9000 万收入)AI 自动生成营销文案,直接切到公司的营销预算。销售、客服等。但随着 GPT4 GPT5 的发布,不够专业的公司可能会被通用大模型替代。这是很好的商业机会,但长期看壁垒不会很强,未来壁垒可能是用户数据的积累,才不会被通用大模型被替代。此外,机器语言代码等生成,提升写代码效率 10%-20%,对IT 行业提效明显,前景很好2. 游戏中的剧本、电影的剧本、新闻场景(美国美联社、雅虎等 70%-80%的快速通报是 AI 生成的)3. 游戏/电影中重复劳动/早期找灵感的过程可以用 AI 来做,从而降本与提效4. 成为新的交互方式:未来如果大语言模型生成,可能会形成自动调用工具的能力。比如 GPT3.5 目前有了耳朵,GPT4 加入了眼睛,未来可能有手(捣鼓工具执行任务),这是随着 plugin 工具是可以预见到的变化,商业机会很大。大模型相关公司海外方面1. 最有名的是 Open AI(top1),工程能力、科学设计能力、产品推出等方面都是最好的,与微软合作,office 套件集成 AI 等商业化会更顺利2. Google、Meta 也可能做好3. 小公司:Deepmind(OpenAI 此前创业的老大哥,擅长强化学习);Anthropic(团队为OpenAI 的原版人马)国内方面1. 互联网公司:百度、字节、腾讯、阿里等,已有路径下追到 3-3.5 很乐观2. 创业公司;研究所(背靠清北国家师资和算力支撑)目前国内落后海外 2-3 年水平,很难说差距会缩进,但至少短期不会越来越大。长期随着 H100 算力的突破,可能被拉开差距国内做大模型的卡点:1)算力,A100 国内货比较少,之前大家囤了一些货,理论目前够用。下半年A800 发货可以解决燃眉之急;2)数据,中文移动互联网太强,所以公域数据量差于海外。国外 PC 互联网生态中有高质量的博客文本发布等,国内数据是相对垂直的,数据上限有差距;3)清洗,国外 AI学界话语权太高,发论文要清洗数据集,国内学界话语权比较低,在数据清洗方面需要很多时间和精力补足;4)AI 需要很强科学工程和科学素养的人才,国内在顶级人才差一些,大部分在国外,国内人才密度存在缺陷。Q:大模型的成本拆分?A:训练一个 GPT3 模型,大概成本未 300-400 万美元,是一次性固定成本,如果第一次失败,就需要多次训练。推理端成本:可变成本,生成一张图或一轮对话,是 1 美分左右成本。当数据访问量达到亿级别,成本在百万美元左右。短期成本集中在训练环节,长期成本集中在推理环节。Q:国内创业公司是否可以接入 GPT3.5?A:国内有小的创业公司在用类似 3.5 的能力,通过海外程序代理或者单次租海外的服务器 (需要翻墙),这是短期生态(短期接或复刻类似的能力,目前主要是做早期的数据积累和反馈积累),长期不太可能实现。商业模式达到一定规模后,违反了 OpenAI 的禁令。这个禁止也是给了国内大模型商业的空档,未来长期创业公司肯定是接百度字节等模型。Q:有了 AI 工具后,对营销中介、外包公司等的影响,是否这类公司价值大幅降低? A:开放问题,目前没有明确的答案,但很可能会发生。随着大模型能力越来越强。公司原先的壁垒可能不再是壁垒,除非找到独特的切入点,利用好数据,不然可能出路不太明晰。Q:国内外模型的状态?模型之间的差异?算力在不同行业中是否有分类? A:模型方面,国外都比较接近,OPENAI 最前面,但海外模型都是 GPT3.5-4 左右水平。国内模型,拿得出手的是 GPT3 左右水平(20 年 OPENAI 的水平)。模型本质差异不大,结构比较接近,但细节上 openAI 做得更好(e.g.:推理逻辑) 算力分类没有那么细,芯片从设计到流片到最后的磨合使用要 7 年左右的时间,行业定制不太可能。目前可以评估算力的层面:1)训练芯片,对算力精准度高,TPU 和 GPU 最好; 2)推理芯片,精度要求不那么高,国内公司在努力做。可以分为云端推理和边缘端推理(地平线),大模型主要使用云端推理芯片。Q:大模型会不会对很多细分行业 AI 降维打击?大模型整合所有行业的可能性? A:有可能,但不是所有行业。如果某一类场景有自己专用数据且不那么公开,对精度要求高,比如人脸识别,大模型可能拥有做不到 95%+准确率。高精度和高专用数据的,不对通用性要求很高的,不太容易被大模型颠覆掉。如果专业壁垒不那么高可能会被颠覆。Q:算力国内外的差距?国内追赶难度? A:追赶难度可能会变大。算力差距让我们成为大模型领域的追赶者,这是确定性的事情。差距是否会越拉越大,现在不能定论。短期还好,A800 要到货了,和 A100差距不是很大。但是 H100 出现的话(能力极强,但国内公司拿不到),可能就会差距越来越大。人海战术堆服务器不可能,芯片的传输能力有限,老的芯片在该种场景下作用有限。Q:AI 对中国算力、服务器的拉动程度? A:短期国内还在训练端,本质问题是市面上只有这么多 GPU,不会爆炸式增长,服务器需求也不会爆炸式增长。等未来大模型训练好,需要部署更多芯片做推理+A800 顺利供货,推理端需求会暴涨。展望 5-10 年,大模型部署到智能设备上,会有很多推理和服务器需求的暴涨。Q:未来是否会出现全新的 OS 操作系统,是以语言为基础的交互系统? A:有可能,未来可能会有一种功能,即 AI 自己打开很多 APP,帮我们做好任务的安排。目前很多数据没有被用起来,如果更多数据被用起来,就有新的交互方式。目前卡点在时间,目前很多大模型在边缘端推理不了,手机芯片不支持大模型(500-1000 亿)量级推理,顶多是文本生成图片的推理(10 亿参数)。抛开壁垒和难度,是看好这个方向。Q:国内几家做大模型机构的进展?投入节奏? A:大家都在尽量做投入,关键不是投入多少,而是提高优先级之下,有多少资源可以调配。互联网大厂已经在努力调配资源给大模型,算力上字节稍领先,百度腾讯阿里算力储备还不错,但都和国外公司的差距比较大。人才上,字节本身产品 AI 驱动,理论上有人才和性能部署的后发优势。百度有先发优势,文心一言产品在及格水准;腾讯阿里也能做出来。创业公司:投入度主要看融资能力,这一波热潮很高,一级市场给的资源倾斜度很高,可能做成,但未来会收敛到几家。研究所:智谱华章、智源研究院,清北背景,做 TO G 大模型方案(背后有师资和政府算力) Q:百度发布会上提到的架构指什么?大模型中算力、数据、算法中哪个是瓶颈,最关键的是哪个?A:百度架构指的是部署深度学习神经网络的框架(飞浆),指的是在芯片上如何更好更方便更快捷部署大模型的能力。但客观来说,没有这个架构国内公司也可以做,国外有很多开源框架支持这个事情,这不是必要的事情。短期瓶颈是数据,中文互联网数据没有清洗好,数据不互通,很吃时间和金钱,是短期卡点;长期看,算力问题可能比较大,H100 出现后差距可能会拉开。人才是自始至终的。Q:Plugin 未来的生态是否已微软自己为主?Plugin 插件是否可以在第三方入口展现? A:plugin 非常看好,抢了很多创意公司做得事情,使得 chatGPT 能做得事情更多了。这些工具不完全是微软旗下的,不是一个闭塞的商业生态,类似于 APP store。至于未来是否接入中国第三方公司,中国公司不太可能接入这种 API,openAI 不能在中国使用,如果有类似的中文大模型是可以用的。