如何把自有数据接入GPT大模型？

发表于 2023年04月28日
人工智能

ChatGPT引发了AI革命，大家都想探究如何让它发挥更大价值。

以它为代表的大模型并未完全掌握所有专业知识，这也正是我们创业的契机。

我们应该思考如何让AI在专业领域中释放更大的价值潜能。
就像开发者挖掘出某个鲜为人知的资源一样，我们可以开发出AI在特定领域的潜力，从而在市场上脱颖而出。

以OpenAI的API为例，让大模型支持自己专业领域的知识，有两种方式：微调模型和封装到Prompt。

目录表

一、微调（Fine-tuning）注入专业领域知识

微调是在基础大模型训练成熟之后，通过Fine-tuning模式，利用标注数据调整模型参数以适应不同任务需求。

传统的微调需要做调整损失函数、增加额外层等工作，但自2018年以来，随着预训练模型的体量不断增大，预训练模型Fine-tune所需的硬件和数据需求也在不断增长。此外，下游任务的丰富多样性使得预训练和微调阶段的设计更为复杂。

如今，像GTP-4这样的模型已经采用了一种新的训练模式，即单向语言模型预训练+zero shot prompt/Instruct，它不需要在预训练后进行任务Fine-tuning，而是通过自然语言指令来解决下游任务，这为模型的优化提供了全新的可能性。

OpenAI在GPT-4上花了6个月的时间才放出来，是为了使其更安全、更一致，而不是新的专业领域知识的注入，新专业领域知识的注入耗时非常短的，也就根据数据量，几分钟到几小时。

从OpenAI的微调文档 https://platform.openai.com/docs/guides/fine-tuning 可以看出，要准备的数据包含prompt（输入文本）和completion（输出文本）两部分：

prompt是我们给模型的输入文本，它可以是任何文本，例如一个问题、一个描述、一个开头、一个例子等。prompt的作用是告诉模型我们想要完成什么样的任务，并给出一些上下文或模式。
completion是模型根据prompt生成的输出文本，它可以是任何文本，例如一个答案、一个续写、一个列表、一段代码等。completion的作用是尽可能地满足prompt的要求，并保持语义和逻辑的连贯性。

下面是一些数据例子：

{
"prompt": "对以下商品进行夸赞：彩妆中的口红品类，卖点为颜色是正红色，能提升气色 ->", 
"completion": " 这口红正红色太好看了，完美提升气色，日常使用特别棒\\n"
}

更多的例子可以看如下链接：

要微调的效果好，就要使用更多高质量的示例进行Fine-tuning，我们应该如上面链接例子一样，提供至少几百个高质量的示例，而且最好由专家审查过。

二、在Prompt中带入知识

只需设计恰当的输入，就能让ChatGPT在上下文中生成有价值的答案，而无需修改模型的结构或参数。

输入问题时，还可以引入相关知识，使问题更加全面。这种方法的局限性在于每次输入的长度有限。

下面是一些例子：

例1：作为专业DBA，回答SQL相关问题

这里在输入问题时，引入了我们的数据库表结构这个专业知识。

问：

我要你扮演一个专业DBA。我将提供给你数据表结构以及我的需求，你的目标是告知我性能最优的可执行的SQL语句，并尽可能的向我解释这段SQL语句，如果有更好的优化建议也可以提出来。

我的数据表结构为:
CREATE TABLE `user` (
`id` int NOT NULL AUTO_INCREMENT,
`name` varchar(255) CHARACTER SETutf8mb4 
COLLATE utf8mb4_unicode_ci 
NOT NULL DEFAULT '' 
COMMENT '名字',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 
COLLATE=utf8mb4_unicode_ci 
COMMENT='用户表';
我的需求为：根据用户的名字查询用户的id

回答

好的，根据您提供的数据表结构和需求，可以使用以下SQL语句来查询用户的id：
SELECT id FROM user WHERE name = '用户的名字';
这条SQL语句将会在用户表中查找指定名字的用户，然后返回该用户的id。为了进一步优化查询性能，您可以在name字段上创建索引，这将会使查询更快速地匹配到所需的记录。

您可以使用以下SQL语句来为name字段创建索引：
ALTER TABLE user ADD INDEX name_index (name);
此外，为了保证查询的效率，您需要注意以下几点：

数据表的数据量过大时，查询的速度可能会变慢。如果您的数据表中包含大量的数据，可以考虑对表进行分区或分表。

如果您的查询需求经常变化，您可能需要对数据库进行优化。可以通过监控数据库的性能指标，识别哪些查询最耗时，然后对其进行优化。

例2：智能客服

比如我们要做智能客服，有一些客服准则（ChatGPT做智能客服的十条服务准则），对于OpenAI的API来说，要注入的知识如下链接：

https://github.com/maxim-top/lanying-connector/blob/master/configs/openai-xiaolan.json

下面代码通过消息对象的数组注入了一些上下文知识。


# Note: you need to be using OpenAI Python v0.27.0 for the code below to work
import openai

openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who won the world series in 2020?"},
{"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
{"role": "user", "content": "Where was it played?"}
]
)

其中

系统消息（system）有助于设置助手的行为。在上面的例子中，prompt被指示“You are a helpful assistant.”。
用户消息（user）有助于指导助手。它们可以由应用程序的最终用户生成，也可以由开发人员设置为指令。在上面的例子中，用户的最后一个问题是“在哪里比赛的？” 就是通过提前设置的对话消息来帮助回答。由于模型没有过去请求的记忆，因此所有相关信息必须通过对话提供。如果对话无法满足模型的token限制，则需要以某种方式缩短。
助理消息（assistant）有助于存储之前的回复。它们也可以由开发人员编写，以帮助提供所需行为的示例。

通过上面的方式就可以完成专业领域知识的注入。

例3：通过外部链接把内容带入

下面只包含我们发起的对话部分，会话结果比较长，省略了：

User : 您是一个金融专家，我会向您发送微软的年度报告，并在我向您发送链接后反馈给我微软10个利好和10个消极因素。你明白吗？
...
User : https://www.microsoft.com/investor/reports/ar22/index.html
...
User : 我会把Nvidia最近的财报链接发给你，你能反馈我和上面微软类似的答案吗，你明白吗?
...
User: https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-fourth-quarter-and-fiscal-2023
...
User: 您能否从Nvidia的报告中提供更多财务见解?
...
User: 我会把戴尔最近的财务报告的链接发给你，你能反馈我和上面微软类似的答案吗，你明白吗?
....

User: 比较微软、英伟达和戴尔，用表格对比下他们的资本支出、运营支出、收入、利润率和利润率百分比。
...
User：预测下戴尔未来12个月的现金流。

这种方式要确保链接可以被GPT访问到，外部链接持续稳定的可访问是必须考虑的问题。

适用场景对比

价格对比

OpenAI的相关报价看： https://openai.com/pricing

对话类：GPT4远远高于GTP3.5

目前提供的可微调的这几个模型：Ada、Babbage、Curie、Davinci 均是原始的 GPT-3 基本模型，其中，Davinci 是最强大的模型，成本也最高，而 Curie 又比 Babbage 功能更强大（且成本更高），依此类推，这些名称是相对的。

GPT3.5 和 GTP4 由于目前没有 fine-tune，所以成本就只有每次问答的成本，但由于大部分时候需要带大量的 prompts，其实隐性的成本是挺高的，我们经常可以看到一个简短的问题会带有上千个字符的 prompts。

而 Davinci 的 fine-tune 模型的训练成本是较高的，但一旦获得专属模型后，后续的聊天中就不再需要做预检索和背景知识的 prompts 了，可以直接进行关于该领域的知识问答。不仅 token 消耗会变小，而且速度也会更快。

所以目前阶段还是用在Prompt中带入知识方案比较合适，后续等对应的微调模型出来后，可以切换过去。

长度问题

ChatGPT的API当前是无状态的，需要自己维护会话状态和保存上下文。这可能会导致请求内容越来越大，带来高昂的费用。

但是，你可以借助OpenAI的embedding模型（https://platform.openai.com/docs/guides/embeddings/what-are-embeddings）和本地数据库，以更智能的方式维护上下文，并且节省成本。

首先，将文本资料准备成易于处理的格式，并且分成小块(这是OpenAI embeddings模型的输入长度限制)。接着，利用程序调用OpenAI embedding的API将这些文本块转换成数字向量，并且将结果保存到本地数据库中。（注意，为了能够反向获得原始文本，需要将原始文本块和数字向量一起存储。）

当需要搜索的时候，将搜索关键字转换成数字向量，并且在本地数据库中进行检索。结果集将根据匹配相似度进行打分，分越高表示越匹配。这样，可以按照匹配度倒序返回相关结果。

聊天场景下，当用户提问后，需要先把提问内容关键字搜索到一个相关结果集（可以本地检索，也可以通过OpenAI embedding接口获得向量后比较相似度）。然后根据拿到的结果集，将结果集加入到请求ChatGPT的prompt中。

比如说用户提了一个问题：

“What's the makers's schedule?”

从数据库中检索到相关的文字段落是：

“What I worked on...”
"Taste for Makers..."

那么最终的prompt看起来就像这样：


[
 {
role: "system",
content: "You are a helpful assistant that accurately answers queries using Paul Graham's essays. Use the text provided to form your answer, but avoid copying word-for-word from the essays. Try to use your own words when possible. Keep your answer under 5 sentences. Be accurate, helpful, concise, and clear."
 },
 {
 role: "user",
 content: `Use the following passages to provide an answer
to the query: "What's the makers's schedule?"
1. What I worked on...
2. Taste for Makers...`
 }
]

这样ChatGPT在返回结果的时候，就会加上你的数据集。

具体实现看: https://github.com/mckaywrigley/paul-graham-gpt