说自己“牛”，GPT-4真不是王婆卖瓜-世界要闻

来源: 虎嗅网　发布于：2023-03-16 08:59:48

本文来自微信公众号：字母榜（ID：wujicaijing），作者：毕安娣，头图来自：视觉中国

扔给聊天机器人一张图表，它不但能看懂，还能给你如此这般做一番运算，发来一段对图表的解读。

(资料图片仅供参考)

你不服气，又扔过去一张无厘头的梗图，它不但能看懂这张图里有车有人，还能告诉你之所以好笑是因为“这个男人在出租车上面熨衣服”。

这不是畅想，而是OpenAI最新发布的大型多模态GPT-4已经具备的能力。北京时间3月15日凌晨，OpenAI正式发布了该模型。

简单来说，GPT-4与前代相比可以接受的文本输入上限更高，回答的准确性提高，能够生成歌词、创意文本等多样化风格的内容。最最最令人振奋的是，GPT-4有强大的识图能力，可以解读图片。

过去ChatGPT能做到的，新模型做得更好了；ChatGPT做不到的，新模型也可以做到了。

开通了ChatGPT Plus的付费用户已经可以选择GPT-4模型，其他用户则可以加入候补名单等待。但目前Plus用户只能使用文本输入，读图的功能尚未全面开放。

外界用极大的热情迎接了GPT-4。在消息公布之后，OpenAI官网一度发生拥堵，很多用户在社交媒体表示这下秒开了Plus服务。“GPT-4”登上推特美国、日本等地区热榜，也登上了国内的微博热搜榜、抖音热榜社会榜等。

颠覆ChatGPT的，果然还是OpenAI自己。

一

GPT-4究竟有多厉害？

在官方演示视频中，OpenAI总裁兼联合创始人格雷格·布罗克曼（Greg Brockman）用笔和纸画了个网站展示给GPT-4，后者仅用1到2秒的时间，就生成了网页代码、制作出了几乎与图中一模一样的网站。

GPT-4可接受的文字输入长度提升到了2.5万个单词，允许长内容创建、扩展对话以及文档搜索和分析等。在高级推理能力上，GPT-4也有提升。它可以更准确地解决难题，具有更广泛的常识和解决问题的能力。

OpenAI表示，GPT-4在专业和学术方面表现出接近于人类的水平。其给出的例子称，在模拟律师考试中，GPT-4的得分能排进前10%左右，而GPT-3.5的得分只能排在倒数10%左右。

而且GPT-4不仅是能对文本或图片进行单独的识别，而是可以接受图文混排的内容。

“请记住，GPT-4不仅仅是一个语言模型，它还是视觉模型。实际上，它可以灵活地接受如文档中那样任意散布的图像和文本。”演示视频中出现包含各种图片和文字的电脑屏幕截图时，格雷格如是强调。

在OpenAI官方介绍显示，GPT-4可以对插入了多个图表的论文进行解读，并用精炼的语言总结论文的内容。

OpenAI表示，公司花了6个月的时间，利用ChatGPT的经验教训以及对抗性测试调整GPT-4，使其在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。

“至少对我们来说，GPT-4训练运行前所未有的稳定，成为首个能够提前准确预测其训练性能的大型模型。”

但OpenAI也表示，GPT-4并非完美，仍然不能完全摒除人工智能的“幻觉”，而且训练数据的时间依旧停留在2021年9月，可能会出现推理错误：“有时会出现简单的推理错误，会轻信用户的虚假陈述，会像人类一样解答不了难题。”

二

值得一提的是，GPT-4在不同语种上的能力表现也大幅提升。

过去使用基于GPT-3.5的ChatGPT时，要特别注意中文的表达规范、流畅，即便如此它依然会时不时地突然用英文作答，好像一着急就要“蹦母语”。

根据OpenAI的技术报告，GPT-4的中文准确度已经达到了80.1%，这个数字比GPT-3.5的英文表现还要好，后者只有70.1%。

为了看看GPT-4的中文能力究竟如何，字母榜也简单地问了几个问题。

我们先将一段报道GPT-4推出的英文发给ChatGPT，要其翻译。这部分GPT-3.5和GPT-4的整体区别存在但是不明显。如GPT-4翻译为“人工智能驱动的法语或西班牙语的对话”，GPT-3.5翻译成了“法语或西班牙语的AI驱动对话”。

当我们进一步提出要求时，新模型的表现开始明显好于前代。比如“给年轻的朋友转述这个消息”，GPT-4的回答很本土化：“嘿，哥们”“得告诉你个牛X的事儿”“这货还能识别图片”。

再让它针对老年朋友编辑个信息，它的回答则有那种正经的味道，如“亲爱的朋友”“告诉你个好消息”“感叹时光荏苒啊”。

反观GPT-3.5，回答得就略显生硬了，虽然也努力地加入了语气词等，但是整体文本还是欠缺重新梳理，依旧是对原文本的简单复制。

当我们让GPT-4模仿莎士比亚转达这个消息时，其回答颇为惊艳：“哉！众生皆惊，乃OpenAI新奇之作——GPT-4诞生矣！其智慧之光，如同破晓之阳，识图问答皆无往不利……”但GPT-3.5则显示发来一大段英文，当我们要求用中文时，文本不能说和莎翁有什么关系，最多是有点译制片腔调：“哦！快来听听这个消息……”

接下来，是社交媒体文案比拼。我们让ChatGPT将之前的消息压缩为100字左右的小红书文案，GPT-4直接给出了完整的标题、文案甚至是话题标签。而且文本中插入了很多小红书常见的emoji表情，达到了可以直接拿来用的程度。

GPT-3.5虽然也知道小红书的风格是更亲和的，但是文本简洁度明显差很多，也不懂得emoji的奥妙。

我们还让ChatGPT为一款游戏手机的新颜色起名字，GPT-3.5给出的10个名字中，只有1个不带“绿”字，如翡翠光芒绿、草原之绿、碧海琉璃绿，和游戏的联系也不紧密。GPT-4给出的名字则可以直接取用：极速碧辉、虚拟翠穹、绿焰战魂、绿光战神。

为结束这段小小的测试，我们假设李白穿越到现代，并和ChatGPT进行了一场对话，让它以李白的角色作一首诗：

仙人抚我顶，托我跃千年。一觉醒来世事变，灵犀探尽尘间尘。玉宇琼楼矗立地，铁马火车踏空间。时光如梦，逐浪逝，李白惊叹人间情。

这“仙人抚我顶，托我跃千年”可比GPT-3.5开头给出的“深闺无物我独来，相见ChatGPT意外来”顶多了。

三

去年11月30日，ChatGPT上线得静悄悄，OpenAI的官方推特账号发布了一篇文章，宣布产品发布的好消息。

短短不到三个月之后，当OpenAI发布新一代大型多模态模型GPT-4时，情况大有不同：

OpenAI在推特、YouTube等平台发布了宣传短视频、产品介绍短视频，还由公司总裁兼联合创始人格雷格亲自进行了长达近半小时的直播。

除此之外，OpenAI还在官网发布了长达98页的技术报告，并同步开放了GPT-4的API（应用程序编程接口）以帮助开发人员构建应用和服务。

GPT-4让OpenAI的商业前景广阔了起来。在针对C端每月20美元的订阅使用以外，外部合作也有更多可能性。

已经有多个合作伙伴接入了GPT-4。微软确认了必应的聊天机器人使用的正是GPT-4：“如果您在过去五周内的任何时间使用过新版必应，那么您已经体验过GPT-4的早期版本。”

语言学习软件多邻国（Duolinguo）宣布将在其付费订阅MAX版本中，为学习者提供AI驱动的新功能。比如学习者可以和软件中的“世界人物”进行角色扮演，练习对话技巧。AI会在对话后给出反馈，告诉学习者其回答的准确性和复杂性如何，还会对未来的对话予以提示。

另一款产品BeMyEyes也将搭载GPT-4，而且侧重的是其图像识别和解读的能力。BeMyEyes不是一款新应用，它推出于2015年，为视障人士服务：没有视力障碍的人可以申请成为平台志愿者，接听视障人士的视频通话，通过摄像头远程帮助视障人士识别物品、阅读文本等。这款应用在中国也有使用者，小红书、豆瓣等平台都有相关讨论。

可以想见，有了GPT-4的读图能力，视障人士有望在平台获得更及时、私密的帮助。

对于其他想要合作的开发者，需要进入GPT-4的API接口申请页面，填写姓名、邮件、公司组织编号以及使用计划等问题。

已经有公司迫不及待。

人工智能公司DoNotPay的CEO乔舒亚（Joshua Browder）在推特上表示，正在致力于用GPT-4打击骚扰电话，将其称为“一键诉讼”。针对骚扰电话和自动拨号软件起草起诉书，要求对方赔偿1500美元：“想象一下，你接了个电话，按了一个键，然后1000词的起诉书就写好了。”

此前，这家公司基于包括ChatGPT和Davinci在内的文本生成器，训练和开发了“全球第一个AI律师”。本来有计划今年2月在美国出庭辩护，却因争议不得不搁置。

有人兴奋，有人发愁。谷歌此前以聊天机器人巴德（Bard）迎战与ChatGPT深度合作的微软，但还没对外公开发布产品，就因为演示页面中的错误一夜蒸发千亿市值。

而就在GPT-4发布之前，谷歌才宣布了一个新消息，称将推出一系列AIGC（人工智能生成内容）的功能，将AI应用到包括谷歌文档（Docs）、邮箱（Gmail）等的生产力工具当中，并于月底提供给“可信赖的开发人员”。然而这个消息还没掀起多大波浪，就被GPT-4的出世冲淡了。

另一边，在国内，百度也将于3月16日举行文心一言发布会。这是百度备受瞩目的大语言模型产品。转眼间，扳手腕的对象从GPT-3.5升级成了GPT-4，实在不算是个好消息。

对于ChatGPT和微软的竞争对手来说，GPT-4再一次抢了先机。对于你我来说，究竟是应当兴奋于科技的发展，还是恐惧于被替代，不妨先让子弹飞一会儿。

本文来自微信公众号：字母榜（ID：wujicaijing），作者：毕安娣

关键词：