ChatGPT 是如何制作出来的内幕?

ChatGPT 是如何制作出来的内幕?

当 OpenAI 在 2022 年 11 月下旬零张扬地推出 ChatGPT 时,这家总部位于旧金山的人工智能公司几乎没有什么期望。当然,OpenAI内部没有人为病毒式的超级打击做好准备。从那以后,该公司一直在争先恐后地追赶并利用其成功。

在OpenAI从事政策工作的Sandhini Agarwal说,它在内部被视为“研究预览”:对两年前技术的更完善版本的戏弄,更重要的是,试图通过收集公众的反馈来消除其一些缺陷。“我们不想把它当作一个巨大的基本进步来过度推销,”OpenAI的科学家Liam Fedus说,他参与了ChatGPT。

为了了解聊天机器人背后的内幕——它是如何制作的,OpenAI 自发布以来是如何更新它的,以及它的制作者对它的成功有何看法——我采访了四个帮助构建已成为有史以来最受欢迎的互联网应用程序之一的人。除了Agarwal和Fedus之外,我还与OpenAI的联合创始人John Schulman和OpenAI协调团队的负责人Jan Leike进行了交谈,该团队致力于解决使AI做用户希望它做的事情(仅此而已)的问题。

我得到的感觉是,OpenAI仍然对其研究预览的成功感到困惑,但已经抓住机会推动这项技术向前发展,观察数百万人如何使用它,并试图解决最糟糕的问题。

自十一月以来,OpenAI已经多次更新了ChatGPT。研究人员正在使用一种称为对抗训练的技术来阻止ChatGPT让用户欺骗它的行为(称为越狱)。这项工作使多个聊天机器人相互对抗:一个聊天机器人扮演对手,并通过生成文本来攻击另一个聊天机器人,迫使它克服通常的限制并产生不需要的响应。成功的攻击被添加到 ChatGPT 的训练数据中,希望它学会忽略它们。

OpenAI还与微软签署了一项价值数十亿美元的协议,并宣布与全球管理咨询公司贝恩(Bain)结盟,该公司计划在包括可口可乐在内的客户营销活动中使用OpenAI的生成AI模型。在OpenAI之外,关于ChatGPT的热议引发了围绕大型语言模型的又一次淘金热,世界各地的公司和投资者都加入了行动。

在短短三个月内,这是很多炒作。ChatGPT从何而来?OpenAI采取了哪些措施来确保它准备好发布?他们接下来要去哪里?

为了长度和清晰度,以下内容已经过编辑。

Jan Leike:老实说,这是压倒性的。我们很惊讶,我们一直在努力追赶。

John Schulman:在发布后的几天里,我经常查看Twitter,有一段疯狂的时期,ChatGPT截图填满了ChatGPT截图。我期望它对人们来说是直观的,我期望它获得追随者,但我没想到它会达到这种主流流行程度。

Sandhini Agarwal:我认为对我们所有人来说,有多少人开始使用它绝对是一个惊喜。我们在这些模型上工作得太多了,以至于我们忘记了它们有时会让外界感到惊讶。

利亚姆·费杜斯:我们绝对惊讶于它的反响。之前已经有太多关于通用聊天机器人的尝试,我知道对我们的可能性很大。然而,我们的私人测试版给了我们信心,我们有一些人们可能真正喜欢的东西。

Jan Leike:我很想更好地了解是什么推动了这一切——是什么推动了病毒式传播。就像,老实说,我们不明白。不知道。

团队的部分困惑来自于这样一个事实,即ChatGPT内部的大部分技术都不是新的。ChatGPT是GPT-3.5的微调版本,GPT-3.5是OpenAI在聊天机器人之前几个月发布的一系列大型语言模型。GPT-3.5 本身是 GPT-3 的更新版本,于 2020 年出现。该公司在其网站上将这些模型作为应用程序编程接口或API提供,这使其他软件开发人员可以轻松地将模型插入自己的代码中。OpenAI 还在 2022 年 1 月发布了之前微调的 GPT-3.5 版本,称为 InstructGPT。但这些以前版本的技术都没有向公众推销。

Liam Fedus:ChatGPT 模型是从与 InstructGPT 相同的语言模型进行微调的,我们使用类似的方法来对其进行微调。我们添加了一些对话数据,并对训练过程进行了一些调整。所以我们不想把它作为一个重大的基本面进步来过度推销。事实证明,对话数据对ChatGPT产生了巨大的积极影响。

John Schulman:根据标准基准测试,原始技术能力实际上在模型之间没有实质性差异,但 ChatGPT 更易于访问和使用。

Jan Leike:从某种意义上说,你可以将ChatGPT理解为我们已经有一段时间的AI系统的一个版本。它不是一个从根本上比我们以前更有能力的模型。在 ChatGPT 问世之前,相同的基本模型已经在 API 上可用了将近一年。从另一种意义上说,我们让它更符合人类想要用它做的事情。它在对话中与您交谈,在聊天界面中可以轻松访问,它试图提供帮助。这是惊人的进步,我认为这就是人们正在意识到的。

John Schulman:它更容易推断出意图。用户可以通过来回获得他们想要的东西。

ChatGPT的训练方式与InstructGPT非常相似,使用了一种称为人类反馈强化学习(RLHF)的技术。这是ChatGPT的秘诀。基本思想是采用一个大型语言模型,倾向于吐出它想要的任何东西——在本例中为 GPT-3.5——并通过教它人类用户实际喜欢什么样的响应来调整它。

Jan Leike:我们有一大群人阅读 ChatGPT 提示和响应,然后说一个响应是否比另一个响应更可取。然后,所有这些数据都合并到一个训练运行中。其中大部分与我们对InstructGPT所做的相同。你希望它是有帮助的,你希望它是真实的,你希望它是——你知道的——无毒的。还有一些事情是专门用于产生对话和成为助手的:比如,如果用户的查询不清楚,它应该提出后续问题。它还应该澄清它是一个人工智能系统。它不应该假设它没有的身份,它不应该声称拥有它不具备的能力,当用户要求它做它不应该做的任务时,它必须写一条拒绝消息。这次培训中出现的一句话是“作为OpenAI训练的语言模型......”它没有明确放在那里,但这是人类评分者排名很高的事情之一。

Sandhini Agarwal:是的,我认为这就是发生的事情。人类评分员必须对模型进行排名的各种标准列表,例如真实性。但他们也开始更喜欢他们认为良好做法的事情,比如不要假装自己不是。

由于ChatGPT是使用与OpenAI以前相同的技术构建的,因此该团队在准备向公众发布此模型时没有做任何不同的事情。他们觉得他们为以前的模型设定的标准已经足够了。

Sandhini Agarwal:当我们准备发布时,我们并不认为这种模式是一个全新的风险。GPT-3.5 已经出现在世界上,我们知道它已经足够安全了。通过 ChatGPT 对人类偏好的训练,该模型只是自动学习拒绝行为,拒绝很多请求。

Jan Leike:我们确实为ChatGPT做了一些额外的“红队”,OpenAI的每个人都坐下来试图打破模型。我们有外部团体在做同样的事情。我们还与值得信赖的用户进行了抢先体验计划,他们提供了反馈。

Sandhini Agarwal:我们确实发现它产生了某些不需要的输出,但它们都是GPT-3.5也生成的东西。因此,就风险而言,作为研究预览 - 因为这是它最初的意图 - 感觉很好。

John Schulman: 你不能等到你的系统完美无缺才发布它。几个月来,我们对早期版本进行了beta测试,beta测试人员对该产品的印象很好。我们最关心的是事实性,因为模型喜欢捏造东西。但是InstructGPT和其他大型语言模型已经存在,所以我们认为只要ChatGPT在事实性和其他安全问题上比那些更好,它应该很好。根据我们有限的评估,在发布之前,我们确认这些模型确实比其他模型更真实和安全,因此我们决定继续发布。

自 ChatGPT 推出以来,OpenAI 一直在关注人们如何使用它,第一次看到一个大型语言模型在交到数千万用户手中时的表现,这些用户可能希望测试它的极限并发现它的缺陷。该团队试图跳到ChatGPT可以产生的最大问题的例子上 - 从关于上帝对强奸犯牧师的爱的歌曲到窃取信用卡号的恶意软件代码 - 并使用它们来控制该模型的未来版本。

Sandhini Agarwal:我们还有很多后续步骤。我绝对认为 ChatGPT 的病毒式传播已经让许多我们知道存在的问题真正冒泡并变得至关重要——我们希望尽快解决的问题。就像,我们知道模型仍然非常有偏见。是的,ChatGPT 非常擅长拒绝不良请求,但它也很容易编写提示,使其不会拒绝我们希望它拒绝的内容。

Liam Fedus:看到用户多样化和创造性的应用程序令人兴奋,但我们始终专注于需要改进的领域。我们认为,通过部署、获取反馈和改进的迭代过程,我们可以生产出最一致、最有能力的技术。随着我们技术的发展,新问题不可避免地会出现。

Liam Fedus:看到用户多样化和创造性的应用程序令人兴奋,但我们始终专注于需要改进的领域。我们认为,通过部署、获取反馈和改进的迭代过程,我们可以生产出最一致、最有能力的技术。随着我们技术的发展,新问题不可避免地会出现。

Jan Leike:有时候它会在Twitter上风靡一时,但我们有些人实际上悄悄地伸出援手。

Sandhini Agarwal:我们发现的很多事情都是越狱,这绝对是我们需要解决的问题。但是,由于用户必须尝试这些复杂的方法才能让模型说出不好的话,这并不是我们完全错过的东西,或者对我们来说非常令人惊讶的事情。不过,这是我们现在正在积极努力的事情。当我们发现越狱时,我们会将它们添加到我们的训练和测试数据中。我们看到的所有数据都反馈到未来的模型中。

Jan Leike:每当我们有一个更好的模型时,我们都想把它拿出来测试它。我们非常乐观地认为,一些有针对性的对抗训练可以大大改善越狱的情况。目前尚不清楚这些问题是否会完全消失,但我们认为我们可以使许多越狱变得更加困难。同样,这并不是说我们在发布之前不知道越狱是可能的。我认为一旦部署了这些系统,就很难真正预测它们的真正安全问题。因此,我们非常重视监控人们使用该系统的目的,看看会发生什么,然后对此做出反应。这并不是说,当我们预测到安全问题时,我们不应该主动缓解它们。但是,是的,很难预见当系统进入现实世界时实际发生的一切。

一月份,微软发布了Bing Chat,这是一个搜索聊天机器人,许多人认为它是OpenAI官方未宣布的GPT-4的一个版本。(OpenAI说:“必应由微软专门为搜索定制的下一代模型之一提供支持。它结合了ChatGPT和GPT-3.5的进步。拥有数十亿美元声誉的科技巨头使用聊天机器人进行保护,这给那些负责构建底层模型的人带来了新的挑战。

Sandhini Agarwal:现在的赌注肯定比六个月前高得多,但仍然低于一年后的水平。对于这些模型来说,有一件事显然非常重要,那就是它们被使用的环境。就像谷歌和微软一样,即使是一件不真实的事情也变成了一个大问题,因为它们本来就是搜索引擎。大型语言模型对于搜索之类的东西所需的行为与仅仅意味着一个有趣的聊天机器人的东西非常不同。我们需要弄清楚我们如何在所有这些不同的用途之间行走,创造一些对人们在各种环境中有用的东西,在这些环境中,期望的行为可能真的会有所不同。这增加了更多的压力。因为我们现在知道我们正在构建这些模型,以便它们可以变成产品。ChatGPT 是一个产品,现在我们有了 API。我们正在构建这种通用技术,我们需要确保它在所有方面都能很好地工作。这是我们目前面临的主要挑战之一。

John Schulman:我低估了人们对 ChatGPT 政治的探索和关注程度。在收集训练数据时,我们本可以做出一些更好的决定,这将减少这个问题。我们现在正在努力。

Jan Leike:从我的角度来看,ChatGPT失败了很多——有很多事情要做。感觉我们并没有解决这些问题。我们都必须非常清楚自己和他人的局限性。我的意思是,语言模型已经存在了一段时间,但它仍然处于早期阶段。我们知道他们遇到的所有问题。我认为我们只需要非常坦率,管理期望,并明确这不是成品。

source:https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/