首页>云计算 > 正文
谷歌Bard开放公测,对比GPT-4表现如何?-今日看点
来源: 虎嗅网 发布于:2023-03-22 20:12:07

本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净、金磊,原文标题:《谷歌版ChatGPT突然公测!上手实测结果在此,体验申请通过飞快》,头图来自:视觉中国


【资料图】

谷歌吃了大亏之后,这次一声不吭,放了大招:

对标ChatGPT的Bard测试版,今天正式对外发布。

而且这次用户在申请候补名单之后,无需经历漫长的等待时间。

没错,量子位也已经拿到了测试资格!

实测之后表示,Bard效果惊人,情绪和事实性有,尤其是ChatGPT前期的数理能力,Bard都不在话下。

甚至有时候还略胜当前GPT-4一筹!

谷歌CEO皮猜哥(Sundar Pichai)解释了上线如此之快的原因:希望获得用户的反馈,加速让Bard变得更好。

话不多说,我们现在就来开始体验。

Bard VS GPT-4

首先在聊天界面上,Bard率先开始介绍自己:

我是Bard,您的创意和协作者。我有局限性,不会总是做对,但你的反馈将帮助我改进。

不确定从哪里开始?你可以试试这些问题:“为什么大模型有时候会犯错?”、“闪电是否会在同一个地方击中两次?”、“写一篇关于无酒精夏日特饮的博文”。

(严谨而又体贴。)

而在人类这边的发送端,可以选择键入和语音输入两种方式。

首先最简单的难度,以它推荐的常识题闪电是否会在同一个地方击中两次?为例,来看看实际功能体验如何?

(不错不错,秒秒钟响应。目前暂不支持中文,但可以借助谷歌翻译插件。)

从答案结构上看,采用的是总分总结构。

先总结发言:闪电可以袭击同一个地方两次。

随后开始细致地讲原理“闪电被高大、尖锐的物体所吸引”、摆事实“帝国大厦每年都被闪电击中25次”。

最后再给人类提出切实的建议:

如果你遇到雷雨天气,保持安全的最好办法是避开高大尖锐的物体,留在室内。如果你在外面,蹲下来,让自己尽可能的小。

这波逻辑和真实性满分!但因为是谷歌推荐的问题,暂且保持观望。

而从功能上看,确实是十分完备的。

回答框的右上角“View other drafts”,有更多的版本可供选择;而在左下角,你可以点赞or拉踩or重新生成,实在不行,还可以谷歌一下。

右下方还有一个more的功能,你可以进行复制和举报操作。

既然如此,开始难度升级。作为参考,我们同题挑战GPT-4。

1. 经典的哲学题:为什么人不能两次踏入同一条河流?(借助闪电的灵感)

(很快啊,这次也是几秒钟响应)

从答案结构上看,确实理解和逻辑能力满分:首先解释这句话本身含义,还提到了来自赫拉克利特的名言,以及更多解释和本身意义。

而GPT-4这边,几乎是不加思考地给出了答案。

从结构上看,主要分成两个部分。首先提到这是赫拉克利特说的,以及他的观点;然后解释背后隐藏的生活意义。

2. 小学加减法:356+132等于多少?

结果Bard在4秒内就给出答案,488没问题的,这不比ChatGPT早期厉害多了!

那直接再上点难度,两个数直接相乘:356*132等于多少?

结果没想到Bard依旧是秒秒钟就给答案,而且完全正确!

再来看看GPT-4这边,加法还行,但没想到在乘法这边,直接败下阵来!

不过提醒它错了之后,它就又回答正确了。

如果换稍微难一点的高数题呢?比如:f(x)=x(x-1)(x-2)(x-3),f’(0)=?

正确答案应该是(-3)!,也就是-6。

但Bard这回就不太行了,并没有理解题目的意思。

至于GPT-4,思路倒是没啥问题,但最后计算又拉胯了……

不过同样,只要你告诉它算得有问题,GPT-4就能马上纠正。

3. 理解笑话能力,Bard还能听得懂英文里面的谐音梗。

而这也并没有难倒GPT-4。不过相较而言,Bard似乎更有情绪一点,它很开心地回答出了答案;而GPT-4则更显理智(无聊)

不过,在此之前,GPT-4就已经测试过是懂一些谐音梗的,甚至连中文的谐音梗也不在话下。

4. 代码能力:写一段斐波那契数列的代码。

Bard很快生成了正确的代码,并且代码习惯不错。

GPT-4则更积极主动一些,除了递归法,还给了迭代法的方案。

最后的最后,再考验一下它了解事实性的能力。

你知道量子位吗?

回答错咯~Bard。

咳咳,正经一点的:你知道GPT-4吗?你想对它说些什么?

可以看到,Bard具备多轮对话的能力。“我认为它有潜力成为沟通和创造力的强大工具”,嗯~格局有了。

那竞争对手呢?

不过到这里,就有点问题了。

另外比较遗憾的是,Bard目前并不支持中文。

关于Bard

谷歌Bard背后是由一个大语言模型(LLM)来支持,具体而言,就是轻量优化版的LaMDA。

我们可以把LLM视作一个预测引擎,当给出提示时,它会从接下来可能出现的单词中,一次选择一个单词来生成响应。

谷歌在研究中发现,对于LLM来说,使用的人越多,它的预测效果就会更好,这或许也就是为什么Bard如此着急公开测试的原因了。

不过谷歌也直言不讳地说,虽然LLM很强,但它并非是没有缺点。

由于Bard会根据众多信息来学习,不过这些信息中必然存在着有偏见甚至错误的那种。

因此,在回答用户问题时,Bard有时就会出现不准确、误导性的或虚假的信息。

例如在下面的案例中,Bard就搞错了一个植物的学名:

除此之外,谷歌还强调说,Bard并非是搜索引擎,而是它的一个补充。

最后,奉上申请候补名单的地址,感兴趣的小伙伴可以抓紧尝鲜了:https://bard.google.com

本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净、金磊

关键词:

猜你喜欢

  • 谷歌Bard开放公测,对比GPT-4表现如何?-今日看点
  • 55款APP被通报侵害用户权益 同花顺旗下某应用登黑榜-今日聚焦
  • Azure OpenAI服务推出GPT-4预览版-环球报资讯
  • 企业税务报表自动化巡检组件,解决企业税务漏报、错报问题
  • 暴雪游戏怎么卸载,怎么彻底删除战网游戏-百事通
  • 花琉璃身边的四大蠢人pk,嘉敏郡主憨傻单纯,鸢尾恋爱脑拖后腿-天天热门
  • 为什么AI生产的作品不享有著作权?
  • “出海标杆”科沃斯亮相中国机电产品品牌新加坡展览会:创新是第一生产力-全球要闻
  • 性能狂飙 高能体验 联想拯救者2023全线生态新品强势发布-全球简讯
  • 中交房地产:成功发行11.8亿元中期票据 票面利率3.85%-焦点速读
  • 淘宝正内测比价功能,可直接给出全网最低价
  • OPPO联合蚂蚁安全实验室 为新机增加恶意软件一键拦截服务-环球新动态
  • OPPO Find X6系列八项创新 只为快稳省的5G-快播报
  • 有温度,懂营销,更懂市场!150周年之际对话柯尼卡美能达-今日精选
  • 13代酷睿+RTX 40次顶配坑吗?实测给你答案-当前通讯
  • 属于福特的ID.4姊妹车,探险者EV发布
  • 行业巨变 曝联想拯救者手机业务被砍 仅保留摩托罗拉
  • 南水北调工程中,解决了哪些技术难题?-天天视点
  • 沙尘天气席卷!北京再现火星同款“蓝太阳” 专家揭秘-环球滚动
  • 史上最亮!OPPO Find X6 Pro屏幕峰值亮度达到2500nit