ChatGPT“官方检测器”终于来了：用魔法打败魔法？-世界观点

来源: 虎嗅网　发布于：2023-02-01 16:02:56

本文来自微信公众号：硅星人（ID：guixingren123），作者：VickyXiao，原文标题：《用魔法打败魔法：抓住AI枪手，ChatGPT检测器“千呼万唤始出来”》，题图来自：视觉中国

OpenAI的聊天机器人ChatGPT自从发布以来，正变得越来越强大，从接受普通网友的“调戏”，到“低空飞过”明尼苏达大学法学院和沃顿商学院的课程考试，甚至通过了医学考试，以至于开始成为学校老师的“公敌”。如果不加以限制，ChatGPT将会变成史上最强大的作弊工具——帮助学生们写作业，甚至是完成考试论文。

正如我们之前所说的，越来越多的学校和老师已经表达了对ChatGPT作弊能力的担忧。纽约市和西雅图的公立学校已经禁止学生和教师在学区的网络和设备上使用ChatGPT。

(相关资料图)

但是，靠着老师和学校的盯梢，想要让学生们避开ChatGPT的诱惑，几乎是不可能的事。所以，打开了潘多拉盒子的OpenAI，只好自己出马，用魔法来打败魔法。

用魔法打败魔法

今天，OpenAI官宣推出一个新工具，立马又上了头条：一个名为AI Text Classifier的文件检测器，来帮助人们检测一段文本是由人类自己创作，还是由AI编写的。

不过有点戏剧性的是，这个检测器也同样是基于GPT模型。根据OpenAI的介绍，这个AI文本分类器是一个经过微调的GPT模型，可以检测一段文本是否是来自于市面上的各种AI工具，包括但不限于ChatGPT。

该工具包含一个文本框，用户可以在其中输入至少1000个字符长的文本，点击提交后，每个文档会被判断为“非常不可能”“不太可能”“不清楚是否是”“可能是”AI生成的。

根据OpenAI的说明，这个检测器也有不少限制，包括：

至少需要1000个字符，即大约150~250个单词。
结果也并不能保证完全准确；它可能会错误标记AI生成的文本和人工编写的文本。
人类用户可以简单编辑AI生成的文本，以避开检测。
检测器有可能会错判儿童写的文本和非英语文本，因为它主要是针对成人书写的英语内容进行训练的。

那到底ChatGPT和ChatGPT检测器，谁厉害？硅星人进行了测试。

我们先要求ChatGPT写一篇超过1200字的关于无人驾驶汽车的文章，然后全文输入检测器，检测器很准确地识别出来，将其判断为“可能由AI生成”。

图片来源：ChatGPT

但是随后，我们又用ChatGPT 生成了一篇同样主题的972字的文章，自己在文章后加入了一两句无关紧要的话，以满足检测器1000字的要求，就这样小小的操作，检测器就受到了迷惑，返回的结果表示“无法判断是否由AI生成”。

在硅星人的小样本量测试上，这个检测器虽然有一定程度的准确性，但是要迷惑它，对于狡猾的人类来说，简直是轻而易举。

OpenAI显然也意识到了这个工具的局限性，因为它在博客里强调，不要仅仅凭借这个检测器来确定内容的真实性，“在确定文档是否由AI生成时，检测结果可能会有所帮助，但不应成为唯一的证据。”

OpenAI在这个检测器里，使用了来自多个来源的 AI 生成的文本样本和人工编写的样本来训练模型。

AI生成的文本样本方面，他们使用了包括OpenAI在内的 5 个不同机构开发的 34 个模型生成的文本来进行训练。而人工编写的文本有三个来源，包括一个新的维基百科数据集、2019 年收集的WebText 数据集，以及训练InstructGPT时收集的部分数据。

OpenAI也对检测器在进行测试时的准确性进行了详细说明：

大约5%的人工撰写的文本和2%的人工智能生成的文本，被判定为“非常不可能由AI生成”；
大约15%的人工编写文本和10%的人工智能生成的文本，被归为“不太可能是AI生成”；
大约50%的人工编写的文本和34%的人工智能生成的文本，被归为“不清楚是不是AI生成”；
大约21%的人工编写的文本和28%的人工智能生成的文本被归为“可能是 AI 生成”；
大约9%的人工编写的文本和26%的人工智能生成的文本，被归为“可能由 AI 生成”。

可以看出来，想要靠这个检测器全部抓住AI枪手，可能真的有些困难了。

检测器成为刚需

正如前文所说的，ChatGPT在学校里已经如野火一般蔓延开来。一款简单易用的检测器成为老师们翘首以盼的东西。

早在OpenAI推出自己的检测器之前，一位年仅22岁的普林斯顿大学的学生Edward Tian，就自行开发了一款检测器——GPTZero。

同样的，用户只需将文本复制并粘贴到GPTZero中。检测器会从文本的复杂性、创造性和变化性几个方面来进行评估。然后，GPTZero会给出一个分数，并最终得出一个结果：该文本是由ChatGPT生成的，还是由人类撰写的。

Edward Tian主修计算机科学，辅修新闻学，他利用寒假的一部分时间创建了GPTZero，可以“快速有效地”破译一篇文章是人类还是ChatGPT撰写的。他在Twitter上称，创建该机器人的动机是为了对抗他认为越来越多的AI剽窃行为。

图片来源：Twitter

为了确定文章是否由机器人编写，GPTZero使用两个指标：“困惑度（Perplexity）”和“突发性（Burstiness）”。

一个指标是用困惑度衡量文本的复杂性。如果GPTZero对文本感到困惑，那么该文本具有很高的复杂性并且更有可能是人工编写的。然而，如果文本对机器人来说更熟悉——因为它已经接受过此类数据的训练——那么它的复杂性就会很低，因此更有可能是由 AI 生成的。

另外一个指标是用突发性比较句子的变化。人类倾向于以更大的突发性写作，例如会综合使用一些较长或复杂的句子与较短的句子，而AI的句子往往更统一。

1月3日，该网站上线，一周内立马就有超过3万人试用，以至于程序都崩溃了，更有超过700万人在Twitter上观看了演示视频。老师们也马上注意到这款工具，纷纷联系他。现在，他正在开发一款专为教育工作者设计的工具，已经有3.3万名教师加入了这款还未开发完成的工具的等待名单（waitlist）。

当然，Edward Tian也承认，他的检测也并非百分之百准确，一些用户也报告了GPTZero检测的错误结果，不过他说他仍在努力提高模型的准确性。