首页>云计算 > 正文
OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解
来源: 虎嗅网 发布于:2023-05-11 20:01:16

本文来自微信公众号:Founder Park (ID:Founder-Park),作者:Founder Park,头图来自:《Her》

就算在新产品满天飞,商业文明正在被 AI 重建的当下,我们仍然不知道,这些令人惊叹的技术是如何运作的。

AI,语言模型,它是个黑箱(black box),人类无法理解,我们甚至不知道怎样研究才能够理解。


(资料图片仅供参考)

但如果,研究这个黑箱的不是人类,而是 AI 自己呢?

这是一个令人好奇但又非常危险的想法。因为你甚至不知道,这一研究方法产生的结果,是否会彻底颠覆多年来人类对人脑和 AI 的理解

但是有人这样做了。几小时前,OpenAI 发布了最新的研究成果,他们用 GPT-4 解释 GPT-2 的行为,获得了初步的成果。

毫不夸张地说,人们震惊极了:“求求你们让它离觉醒远点吧!”

“AI 理解 AI,然后很快,AI 训练 AI,然后再过几年,AI 创造新的 AI。”

但客观来说,学术界为之感到兴奋:“疯了,OpenAI 刚刚搞定了可解释性问题。”

人与机器之间是 GPT-4

OpenAI 昨日在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)

简单来说,他们开发了一个工具,调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为,这次针对的是 GPT-2,发布于 4 年前的开源大模型。

大模型(LLM)和人脑一样,由“神经元”(neurons)组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。

举例来说,如果有一个针对“漫威超级英雄”的神经元,当用户向模型提问“哪个超级英雄的能力最强”时,这个神经元就会提高模型在回答中说出漫威英雄的概率。

OpenAI 开发的工具利用这种规则制定了一套评估流程。

开始之前,先让 GPT-2 运行文本序列,等待某个特定神经元被频繁“激活”的情况。

然后有三个评估步骤:

第一步,让 GPT-4 针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后,判断这与电影、角色和娱乐有关。

第二步,用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。

最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果,看 GPT-4 猜的有多准。

通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。

最终他们对 GPT-2 中 307200 个神经元全部进行了解释,这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。

超越语言的机器,人类无法理解的机器

据 OpenAI 在博客文章中表示,目前 GPT-4 生成的解释还不完美,尤其要解释比 GPT-2 更大的模型时,表现效果很差,“可能是因为后面的 layer 更难解释”。

对于 GPT-2 解释的评分大多也非常低,仅有 1000 个左右的解释获得了较高的评分(0.8 以上)

OpenAI 可拓展对齐团队的 Jeff Wu 表示,“大多数解释的得分很低,或者无法解释实际神经元那么多的行为。比如,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以辨别的模式。有时候存在明显的模式,但 GPT-4 无法找到它。”

虽然现阶段成绩不好,但是 OpenAI 却比较有信心,他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。

比如通过反复产出解释,并根据激活情况修改解释;或者使用更大的模型作出解释;以及调整解释模型的结构等等。

OpenAI 还提到,这一方法目前还有很多局限性。

使用简短的自然语言进行解释,也许并不匹配神经元可能非常复杂的行为,不能简洁地进行描述。神经元可能会具备多个不同概念,也可能,会具备一个人类没有语言描述甚至无法理解的概念。

最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路,而目前的方法只解释了神经元的行为,并没有涉及下游影响。

解释了神经元的行为,但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释,也只能描述相关性。

整个过程是计算密集型的。

在论文中,OpenAI 表示:“语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情,比如统计结构对下一个token预测任务有用,或者因为模型已经发现了人类尚未发现的自然的抽象,例如在不同领域的类似概念家族。”

它把 LLM 的这种属性,称为 Alien Feature,在生物领域翻译为“异类特征”。

把对齐问题也交给 AI

“我们正试图开发预测‘AI 系统会出现什么问题’的方法,”OpenAI 可解释性团队负责人 William Saunders 对媒体说,“我们希望能够真正做到,让这些模型的行为和生产的回答是可以被信任的。”

Sam Altman 也转发博客文章称:GPT-4 对 GPT-2 做了一些可解释性工作。

可解释性(interpretability)是机器学习的研究子领域,指的是对模型的行为有清晰的理解和对模型结果的理解能力。

简单来说,目的就是解释机器学习模型“如何做到”(how)

2019 年开始,可解释性成为机器学习的重要领域,相关研究有助于开发人员对模型进行优化和调整。针对当下 AI 模型大规模应用时,亟需解决的可信度(trust)、安全性(safety)和决策参考(decision making)等问题。

如果我们不知道 AI 是如何作出决策的,始终把它当作一个黑箱,那么就算 AI 在各种场景下表现得再完美,也无法解决部分人类的信任问题。

OpenAI 这次使用 GPT-4 来解决可解释性的问题,就是希望能够使用自动化的方式,让机器完成 AI 研究。

“这是我们对齐研究的第三支柱的一部分:我们希望自动化对齐研究。令人期待的是,这一方向能让它(对齐)与 AI 发展的步伐相匹配。”

在 2022 年夏天,OpenAI 曾发布文章《我们做对齐研究的方法》(Our approach to alignment research)

文中提到,宏观来看,OpenAI 的对齐研究将由三大支柱支撑:

1. 利用人工反馈训练 AI;

2. 训练 AI 系统协助人类评估;

3. 训练 AI 系统进行对齐研究。

“语言模型非常适合自动化对齐研究,因为它们通过阅读互联网‘预装’了大量有关人类价值观的知识和信息。开箱即用,它们不是独立代理,因此不会在世界上追求自己的目标。”

太快了,连认知都范式革命了

虽然 OpenAI 本意很好,但是这样的研究成果着实吓坏了网友。

OpenAI 的推文下梗图横飞,有不少人在认真地建议 OpenAI 搞慢点。

“用我们不理解的东西,解释另一个我们不理解的东西,这合理吗?”

“护栏都被你撤了”

“这太迷人了,但也让我感到极度不适。”

“自然创造了人类来理解自然。我们创造了 GPT-4 来理解自己。”

“我们要怎么判断解释者是好的?这就像... 谁监督着监督者?”(who watches the watchers)

还有人看到了更深的一层:

“大模型很快就能比人类更好地解释他们自己的思维过程,我想知道我们未来要创造多少新的词汇,来描述那些 AI 发现的概念(概念本身也不准确)?我们还没有一个合适的词描述它们。或者,我们是否会觉得这些概念有意义?它们又能教会我们如何认识自己呢?”

另一网友回应道:“人类本身对自己行为的解释,大多是谎言、捏造、幻觉、错误的记忆、事后推理,就像 AI 一样。”

本文来自微信公众号:Founder Park (ID:Founder-Park),作者:Founder Park

关键词:

猜你喜欢

  • OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解
  • 当前时讯:可乐半年后可能断货?怎么回事?
  • 今亮点!观察|AI救电视有戏吗?
  • 焦点精选!12日西安开通S12路社区巴士线路 接驳地铁1号线枣园站
  • 来容声健康冰箱开启“隐身魔法”,快手挑战赛等你来战
  • 电竞新物种 氘锋150W全能充发布 可为电竞本150W快充-全球快讯
  • 环球快讯:红魔五周年发布会带来超多硬核装备 变形金刚信仰加持红魔8 Pro+
  • 首发高通第二代S3音频适配器平台 氘锋全场景电竞TWS耳机发布|每日快播
  • 天天观速讯丨全国共有309家网约车平台公司取得网约车平台经营许可
  • 中国海诚:副董事长徐大同拟减持不超13.66万股 |微资讯
  • “这是针对俄罗斯国家元首的恐怖主义行动”_世界今亮点
  • 理想汽车公布一季度财报 季度营收和交付量创历史新高|热推荐
  • 前瞻性拉满!落地折叠技术,OPPO竟与谷歌“不谋而合”
  • 【全球聚看点】谷歌I/O 2023汇总:AI和折叠屏将成为手机新的潮流
  • 全球微动态丨更智能的安卓14正式发布,OPPO ColorOS首批适配
  • 再添荣誉,海信真空璀璨503冰箱斩获德国IF工业设计奖|天天快消息
  • 紧跟Android 14 Beta版发布,vivo推出开发者适配版本 热推荐
  • 再添6名国家级白酒评委!洋河技术“梦之队”实力有多“硬”?
  • 净化等级标准abcd_净化等级标准
  • 速递!对德国的评价有失偏颇,其实德国一向是很务实的