| 大模型应用生态
应用层:专注业务
在哪里接⼊:业务逻辑层
用什么方式接⼊:Prompt、Embedding、Fine-tune
接⼊谁:选择LLM
沉淀价值:⾏业GPT
连接层:统⼀的⼤模型接⼊框架
| 大模型先颠覆的是其他AI(1.0)
主要工作:ChatSDK、⼤模型适配、Prompt预设
| 挑战⼀:⼤模型能⼒涌现需要⼤参数
私有部署⼀个可⽤⼤模型的成本之⾼昂,训练要求之⾼,并⾮⼀般企业所能承担
如果⼀件事情有更经济更低成本的解决⽅案,那这种⽅案更有可能在竞争中胜出
| 挑战⼆:它不过犯了其他⼤模型都会犯的错⽽已?
胡编乱造的⼤模型⽆法解释
•有幻觉hallucination
•⽆可解释性Interpretability
•需要⼈机协同=>企业知识溯源
自然语言交互GUI->CUI
过去:是⼈学计算机的语⾔与计算机交互
未来:是计算机学⼈的语⾔与⼈交互
01 强AI/2.0
02 智能涌现
03 多模态
04 API访问
05 Few-ShotLearning+RLHF
| 使用大模型服务的三种模式
模式1:纯提示词模式(PromptOnly)直接使⽤提示词调⽤⼤模型API,这是最容易上⼿的⽅式
模式2:嵌⼊向量模式(Embedding)将知识预处理存⼊向量数据库,在提问时通过相似度查询找到关联知识,然后跟问题⼀起加⼊提示词,再调⽤⼤模型API
模式3:精调模型模式(Fine-tune)将知识通过Fine-tune训练存⼊⼤模型,使⽤时再进⾏Prompt调⽤
| 错误观点⼀:上下⽂谬误
以扩展到100K上下⽂来算,如果模式⼀每次调⽤都将全部知识⽂本带上,同时模式⼆我们选择4K知识⽚段,那每次调⽤模式⼀都将是模式⼆调⽤成本的25倍。
算法上的原因,即OpenAI执⾏Attention的算法复杂度是O(n^2) ,这意味着,随着序列⻓度的增加,执⾏Attention计算所需的计算资源呈指数增⻓。
引申问题⼀:⼤模型⽀持的上下⽂在相当⻓时间内最⼤也只会到MB级别,⽽模式⼆⽀持的知识库⼤⼩则可轻松突破GB级别
引申问题⼆:记忆、记忆、记忆!
| 错误观点⼆:精调陷阱
01 先说成本,以OpenAI的调⽤价格来对⽐
02 后者训练成本是前者的300倍,使⽤成本是前者的接近80倍UPDATE20230823:GPT-3.5Fine-tune,分别为80倍和10倍
03 且⽅案三数据⽆法撤回,任何更新都会触发模型重新训练。这部分隐含的时间成本和资源消耗都是巨⼤的
04 未来:PromptTuning
| 嵌入向量模式详解
⼀、预处理
⽂档切⽚,并调⽤⼤模型API获得对应向量,即Embedding嵌⼊将向量存⼊向量数据库
⼆、获取关联知识⽚段
调⽤⼤模型API获得问题对应向量
向量数据库相似度查询获得TopK知识⽚段
三、组合提问
组合三部分形成最终提问所⽤提示词
包括预设提示词、第⼆步获得的知识⽚段、⽤户提问