今天凌晨OpenAI正式推出了NLP大作,GPT-4。目前,ChatGPT的Plus订阅用户已经可以使用GPT-4,其他用户需要排队申请内测。我们根据GPT-4官方提供的技术文档,来看看都有哪些变化。
(资料图片)
本文将以OpenAI GPT-4 技术报告为基础,介绍GPT-4的特征和训练信息。
GPT-4是一个多模态大型语言模型,即支持图像和文本输入,以文本形式输出;扩写能力增强,能处理超过25000个单词的文本;更具创造力,并且能够处理更细微的指令。
我们从官网上就可以看到,ChatGPT和GPT-4的示范,效果貌似已经显著拉开了。谁更智能一目了然…
问:
Andrew:上午11点-下午3点有空
Joanne:中午-下午2点有空、下午3点半-下午5点有空
Hannah:中午有半小时的时间,下午4-6点有空
给这仨人安排个30分钟的会议,有哪些选择?
答:
ChatGPT:会议可以在下午4点开始
GPT-4:会议可以在中午12点开始
报告指出了GPT-4的发展进度,这是一个大规模、多模态的模型,它可以接受图像和文本输入,并产生文本输出。虽然在许多现实世界的场景中能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟的律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的分数则在后10%左右。
GPT-4是一个基于Transformer的模型,经过预先训练,可以预测文档中的下一个标记。训练后的调整过程使对事实的遵守程度得到改善。
这个项目的一个核心部分是开发基础设施和优化方法,让这些方法在广泛的范围内有可预测的行为。这使我们能够准确地预测GPT-4在某些方面的性能,其基础是用不超过GPT-4的1/1000的计算量所训练的模型。
1.介绍
技术报告介绍了GPT-4,这是一个大型多模态模型,能够处理图像和文本输入并产生文本输出。这类模型是一个重要的研究领域,因为它们有可能被用于广泛的应用中,如对话系统、文本总结和机器翻译。因此,近年来它们一直是人们关注的对象,并取得了很大的进展。近年来,它们一直是人们关注的焦点。
开发此类模型的主要目标之一是提高其理解和生成自然语言文本的能力,特别是在更复杂和细微的情况下。为了测试其在这种情况下的能力,GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中,它表现得相当好,并且经常超过绝大多数人类应试者的分数。
例如,在模拟律师资格考试中,GPT-4的成绩在考生中排名前10%。这与GPT-3.5形成鲜明对比,GPT-3.5的得分排在后10%。
在一套传统的NLP基准测试中,GPT-4的表现超过了以前的大型语言模型和大多数最先进的系统(这些系统通常有特定的基准训练或手工工程)。
在MMLU基准测试中,GPT-4不仅在英语考试中以相当大的优势超过了现有的模型,而且在其他语言方面也表现出了强大的性能。
本报告还讨论了该项目的一个关键挑战,即开发深度学习基础设施和优化方法,这些方法在广泛的范围内表现出可预测性。这使我们能够预测GPT-4的预期性能(基于以类似方式训练的小型运行)。这使我们能够对GPT-4的预期性能进行预测(基于类似的训练方式的小运行),并与最终的运行进行测试,以增加对我们训练的信心。
尽管有这样的能力,GPT-4与早期的GPT模型有类似的局限性:它并不完全可靠(例如,可能出现 "幻觉"),有一个有限的上下文窗口,并且没有习得经验。在使用GPT-4的输出时应谨慎行事,特别是在对可靠性要求很高的情况下。
GPT-4的能力和局限性带来了重大的、新的安全挑战,我们相信鉴于其潜在的社会影响,仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡,描述了我们所预见的一些风险。围绕偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面预见了一些风险。它还描述了我们为减轻部署GPT-4的潜在危害所采取的干预措施。包括聘请领域专家进行对抗性测试,以及一个模型辅助的安全管道。
2.技术报告的范围和局限性
本报告的重点是GPT-4的能力、局限和安全性能。GPT-4是一个基于Transformer的模型,它预先进行了训练,以预测文档中的下一个标记,使用公开的数据(如互联网数据)和第三方供应商授权的数据。
该模型然后使用来自人类反馈的强化学习(RLHF)对模型进行微调。鉴于GPT-4这样大规模模型的竞争状况和安全影响,报告中不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的进一步细节。
OpenAI致力于对技术进行独立审计,并分享了一些这方面的初步措施和想法。并计划向更多的第三方提供进一步的技术细节,他们可以就如何权衡上述竞争和安全考虑与科学价值的关系提供建议。
3.可预测的扩展
GPT-4项目的一大重点是建立一个可预测扩展的深度学习栈。主要原因是,对于像GPT-4这样的大型训练运行,要做大量针对模型的调整是不可行的。
为了解决这个问题,我们开发了基础设施和优化方法,在多个尺度上有非常可预测的行为。这些改进使我们能够可靠地从使用1,000倍-10,000倍计算量训练的较小模型中预测GPT-4的某些方面的性能。
3.1 损失预测
正确训练的大型语言模型的最终损失被认为可以通过训练模型所用的计算量的幂律来很好地接近训练模型所使用的计算量的规律。
为了验证OpenAI的优化基础设施的可扩展性,OpenAI预测了GPT-4的最终损失,在OpenAI的内部代码库(不是训练集的一部分)上预测GPT-4的最终损失,方法是通过拟合一个带有不可减少的损失项的比例法则(如Henighan等人的做法):L(C) = aCb + c, 来自使用相同方法训练的模型,但使用的计算量比GPT-4最多少10,000倍。
这一预测是在运行开始后不久做出的,没有使用任何部分结果。拟合的比例法高度准确地预测了GPT-4的最终损失。
3.2 在HumanEval上扩展能力
在训练前对模型的能力有一个认识,可以改善有关调整的决策、安全和部署。
除了预测最终损失外,我们还开发了方法来预测能力的更多可解释性指标,其中一个指标是HumanEval数据集的通过率。
OpenAI成功地预测了HumanEval数据集的一个子集上的通过率,其方法是从训练的模型中推断出来的训练出来的模型进行推断,其计算量最多减少1,000倍。
对于HumanEval中的单个问题,性能可能偶尔会随着规模的扩大而变差。尽管有这些挑战,我们发现一个近似的幂律关系--EP [log(pass_rate(C))] = α?C-k。
相信准确预测未来的能力对安全很重要。展望未来,OpenAI计划在大型模型训练开始之前,完善这些方法并记录各种能力的性能预估。并且,OpenAI希望这成为该领域的一个共同目标。
4、能力
这简直就是个考试小能手
GPT-4典型的成绩包括:
SAT(美国高考): 1410/1600(前 6%)。
美国统一律师资格考试(MBE+MEE+MPT):298/400(前 10%)。
AP(美国大学预科考试):生物学、微积分、宏观经济学、心理学、统计学和历史的大学预修高中考试:100% (5/5)。
OpenAI在一系列不同的基准上对GPT-4进行了测试,包括模拟最初为人类设计的考试。考试题目包括多项选择题和自由回答题,综合分数由多项选择题和自由回答题的分数结合决定,GPT-4在大多数专业和学术考试中都有与人类水平相当的表现。值得注意的是,它通过了统一律师考试的模拟版本,分数在应试者中排名前10%。
就测试的结果来看,GPT-4模型在考试中的能力似乎主要来自于预训练过程,并没有受到RLHF的明显影响。在多选题上,基础的GPT-4模型和RLHF模型的表现相当。
OpenAI还在传统的基准上评估了预先训练好的基础GPT-4模型,这些基准是为评估语言模型而设计的。
就在考试测试中的表现来看,GPT-4的性能大大超过了现有的语言模型,以及此前最先进的系统,这些系统通常有针对的基准或额外的训练协议。
针对现有的许多机器学习基准测试都是用英语编写的,很难体现在其他语言中的表现,为了初步了解GPT-4在其他语言中的功能,他们也将一套涵盖57个主题的多项选择题的基准测试,采用相关的应用程序转换成了其他语言,并进行了测试,最终结果显示GPT-4的表现要优于GPT 3.5和现有语言模型对测试的大多数语言的语言性能,包括低资源语言。
能看懂一些图的笑点了
GPT-4在理解用户意图的能力方面较此前的模型有明显改善。
GPT-4可以说已经能看懂一些图梗了,不再仅仅是对话助手。当然离大家期待的看懂视频还有一段距离。现在能看懂图片的笑点,比如这张…
左一:一台iPhone插上了带有VGA的连接器
右一:“Lightning Cable”适配器的包装,上面有VGA连接器的图
右二:VGA连接器的特写,上面有VGA连接器的图片,但可以看到,头是个Lightning的…
笑点在于将VGA端口插在iPhone上的荒谬…很冷吧…搞机圈博主们的压力大不大…
4.1 视觉输入
对GPT-4而言,训练后的对齐(Alignment)是提高性能和改善体验的关键。从技术上看,人类反馈强化学习(RLHF)微调仍然是GPT-4的要点。考虑到LLM领域的竞争格局和 GPT-4 等大型模型的安全隐患,OpenAI暂时还未公布GPT-4的模型架构、模型大小、训练技术。
这张图片:GPT-4认为,不同寻常的地方在于,一名男子正在行驶中的出租车车顶上的熨衣板熨衣服…
再比如这个,这到底是鸡块?还是地图?还是用鸡块拼成的世界地图?
GPT-4接受由图像和文本组成的提示,这与纯文本设置平行,让用户指定任何视觉或语言任务。具体来说,该模型生成的文本输出给出由任意交错的文本和图像组成的输入。在一系列领域中,包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。
为语言模型开发的标准测试时间技术(如少量提示、思维链等),使用图像和文本时也同样有效。
在一组狭窄的学术视觉基准上的初步结果可以在GPT-4博客中找到,计划在后续工作中发布更多关于GPT-4的视觉能力的信息。
5、局限性
尽管GPT-4功能强大,但它与早期GPT模型一样,有相似的局限性。最重要的是,它仍然不完全可靠(它会“幻觉”事实并犯推理错误),应非常小心。
在使用语言模型输出时,特别是在高风险的上下文中,使用准确的协议(例如人工审查,附加上下文,或完全避免高风险使用满足特定应用的需求。
GPT-4在TruthfulQA等公共基准上取得了进展,该基准测试模型的测试能将事实从一组不正确的陈述中分离出来,与统计上有吸引力的事实错误的答案相匹配。GPT-4基本型号为在这项任务上只比GPT-3.5略胜一筹。然而,在RLHF训练后,较GPT-3.5有很大的改进,GPT-4抗拒选择一些常见的谚语,但仍然会错过一些微妙的细节。
GPT-4有时会使简单的推理出现错误,似乎不符合在这么多领域的能力,或者轻信用户明显的虚假陈述。它可能像人类一样在困难的问题上失败,例如在产生的代码中引入安全漏洞。
GPT-4也可能在其预测中轻易的犯错,在可能犯错的时候不注意反复检查。虽然预训练的模型是高度校准的,但在后期的训练过程中,校准度降低了。
GPT-4在其输出中存在各种偏差,OpenAI已经在努力纠正,但这需要一定的时间,他们的目标是使GPT-4同我们建立的其他系统一样,有合理的默认行为,以反映广大用户的价值观,允许这些系统在一些广泛的范围内进行定制,并获得公众对这些范围的意见。
6.风险和缓解措施
GPT-4具有与小型语言模型类似的风险,例如,产生有害的建议、有缺陷的代码或不准确的信息。
聘请领域专家进行对抗性测试:为了了解这些风险的程度,OpenAI聘请了来自长期人工智能(AI)校准风险、网络安全、生物风险和国际安全领域的50多位专家对该模型进行对抗性测试。从这些专家那里收集的建议和培训数据为OpenAI制定缓解措施和对该模型进行改进提供了参考。
模型辅助的安全管道:与之前的GPT模型一样,OpenAI利用来自人类反馈的强化学习(RLHF)对该模型的行为进行微调,以产生更符合用户意图的回复。在RLHF之后,该模型在不安全的输入上仍然是脆弱的,并且有时在安全输入和不安全输入上都表现出不受欢迎的行为。此外,该模型在安全输入方面也可能变得过于谨慎。
安全指标的改进:OpenAI的缓解措施已经大大改善了GPT-4的许多安全性能。与GPT-3.5相比,该公司将GPT-4对不允许内容请求做出响应的倾向降低了82%,而GPT-4根据OpenAI的政策对敏感请求的响应频率提高了29%。
OpenAI正在与外部研究人员合作,以改善其理解和评估潜在影响的方式,以及建立对未来系统中可能出现的危险能力的评估。该公司将很快发布关于社会可以采取的步骤的建议,以准备应对人工智能的影响。该公司将很快公布关于社会为应对人工智能影响可以采取的措施的建议,以及预测人工智能可能产生的经济影响的初步想法。
7.总结
GPT-4是一个在某些困难的专业和学术基准上具有人类水平表现的大型多模态模型。它在一系列NLP任务上的表现优于现有的大型语言模型,并且超过了绝大多数已报道的最先进的系统(这些系统通常包括针对特定任务的微调)。
GPT-4由于性能的提高而带来了新的风险,我们讨论了一些方法和结果,以了解和提高其安全性和一致性。虽然还有很多工作要做,但GPT-4代表着朝着广泛有用和安全部署的人工智能系统迈出了重要一步。
关键词: