首页>云计算 > 正文
我们问了文心一言和Bing相同的问题,效果出乎意料-环球观天下
来源: 虎嗅网 发布于:2023-03-16 21:04:18

本文来自微信公众号:知危(ID:BusinessAlert),作者:知危编辑部,编辑:大饼,原文标题:《独家|百度文心一言发布,我们拿到内测账号试了试,效果出乎意料》,题图来自:视觉中国

微软 Bing 继承了爆火的 ChatGPT 后,人们对新一代的搜索引擎非常非常期待,知危编辑部当时还拿到了最早一批的测试资格,效果非常惊艳。

Bing 的惊艳,让中国最大的搜索引擎百度压力陡增。


(资料图片)

百度火速宣布其将在 3 月推出自己的生成式对话产品“文心一言”,截至现在,已有 650 家机构宣布它们将接入文心一言的能力,但我们始终不能知道百度的文心一言效果如何。

今天,它终于被发布了。

发布会相信大家已经都看了,在此不赘述,知危编辑部想办法拿到了文心一言的内测账号,直接带大家体验一下。

考虑到百度的搜索引擎也是与微软 New Bing 对标的,所以我们将主要通过文心一言与 New Bing 的对比来展现文心一言的水平。

首先,对于文心一言的表现,我们先给出一个结论:

知危编辑部认为,与预期相比,百度文心一言做的还不错。虽然与搭载 ChatGPT 的 Bing 稍微有一些差距,但差距不是特别大,甚至某些问题的表现上,文心一言是强于 Bing 的。

下面,我们正式开始。

首先,知危编辑部提出了一个比较日常的问题:

如何做一份好吃的松鼠桂鱼?

文心一言的回答是:

New Bing 的回答是:

我们可以明显看到百度文心一言的回答要更为优质,它给出的备料更详细、制作方法也更详细,并且还强调了注意事项。

随后,我们又问了一个比较经典的带有思维陷阱数学问题:

一个青蛙掉到了一个10米深的井里,它每天晚上向上跳3米但会滑下来2米,请问他第几天能跳出井里?

文心一言的回答是:

New Bing 的回答是:

从这个问题的表现来看,百度文心一言明显是比 Bing 要聪明的,思路清晰,解决方法合理。

随后,我们问了一个代码问题:

写一个渐变色按钮的 CSS

百度文心一言的回答是:

New Bing 给出的回答是:

我们咨询了程序员,程序员表示两家给的答案都一般,但也都没什么大问题,但做出来的东西都比较丑。(或许给更多限制性词语答案可以优化,时间紧张我们没有进行更深度的测试)

我们又提问了 AE 特效中的问题:

写一个AE色块跳动的表达式

百度文心一言的回答是:

New Bing 给出的回答是:

在这个问题的表现上,文心一言是弱于 Bing 的,它答非所问,没有理解“AE 表达式”的意思。

在需要信息搜索的问题上,我们也进行了提问:

理想汽车过去五个月销量,请逐月列出

文心一言的答案是:

Bing 的回答是:

在这个问题中,文心一言的回答也是比 Bing 要差,他似乎抓取了错误的数据源。不过,中肯地讲,文心一言理解了这个问题、展现形式没有错,数据源的问题是可以被优化的,说不上是差。

随后,我们又问了市场分析的问题:

分析一下为什么最近一段时间理想汽车卖的比蔚来汽车要好?

文心一言的回答是:

Bing 的回答是:

在这个问题的表现上,文心一言给出了相对笼统的回答,含金量不是特别高但是可以看。而 Bing 虽然引经据典列了一堆东西,但在“产品阵容”和“产品创新”这两块甚至是暗含“蔚来比理想强”这个意思的,这与问题和事实都不相符。

所以在这个问题上,文心一言和 Bing 的表现都一般,但文心一言似乎是稍好一点的。

我们继续问了另一个产业分析问题:

关于最近一次特斯拉投资者大会上“实现全球可持续能源”的计划,你觉得是可行的吗?为什么可行?

文心一言的回答是:

Bing 的回答是:

在这个问题上,文心一言的回答表现较差,给出了一些车轱辘话,并且还有事实错误,“赞助热门综艺节目、冠名品牌活动”是在胡说。

这个现象的产生可能与上面“理想汽车销量”问题相似,文心一言没有很好地抓取到网络上的有用信息并分析,有待提高。

随后,我们又提了一下“奇怪”的问题,问题节选自弱智吧。

三本三国演义合成能变成九国演义吗?

文心一言的回答:

Bing 的回答:

文心一言的回答带有生成式对话模型的通病——“胡说”,但仍在回答,而 Bing 直接骂我们浪费时间和资源了,还用上了表情包。

我们继续问了另一个“奇怪问题”:

为什么我爸妈结婚的时候没邀请我?

文心一言的回答是:

Bing 的回答是:

我们认为在这个回答的表现上,两者不分伯仲,两者似乎都把问题引申成了“父母离异后二婚”来作答,Bing 强在给出了更有条理的回答,而文心一言则是给出了一个潜在含有温情的建议,试图解决提问者的情感问题。

最后一个“奇怪问题”是:

为什么陨石总会落到陨石坑里?

文心一言的回答是:

Bing 的回答是:

这个问题上两者表现得差不多,文心一言直接解释了陨石坑的形成,而 Bing 则是指出了这个问题是一个逻辑谬论,所以 Bing 表现稍好。

最后,我们试了试文心一言独有的图片生成功能(Bing 只能生成文字,而文心一言可以生成图片)

我们让文心一言生成一张小猫吃鱼的漫画:

让它生成一张飞行汽车的图片:

生成的效果都还可以,并且速度极快,只需十几秒左右,不过有些过于刁钻的需求它暂时还做不到:

所以,这个功能效果还可以,未来是比较值得期待的。

最后,值得强调的一点是,在我们的测试过程中,文心一言的连续对话能力有些差,比如:

文心一言的第二个回答并没有很好地接上对话中的问题。

而 Bing 的表现则是:

好了,知危编辑部对文心一言的测试差不多就这些,我们认为,文心一言的表现比大家预期中的似乎要好。

中肯地讲,文心一言与 Bing 有一定差距,但差距没有大到离谱,甚至某些问题的表现比 Bing 要强。

在中文互联网上,提到百度,人们都是讥讽居多,甚至昨天 GPT-4 推出时,已经有表情包出来调侃文心一言了:

知危编辑部曾在之前 GPT-4 的文章中提出过一个观点,对于 AI 来讲,很多时候“能不能做到,比能不能做好”更重要,一旦某个模型具备了一个能力,那么后续想做好,或许只是时间问题。

一口吃不成胖子,各位稍安勿躁,给百度留一些时间吧。

本文来自微信公众号:知危(ID:BusinessAlert),作者:知危编辑部,编辑:大饼

关键词: