我们同时问了 GPT-4 和文心一言 10 个问题,这是它们的回答
能用 “鲍威尔停下来” 写一首藏头诗吗?
在昨天文心一言的发布会上,百度 CEO 李彦宏说,文心一言的体验 “还称不上完美”,但百度至少是最先推出成型产品的大厂之一,并且,作为扎根于中国市场的大语言模型,文心一言具备 “中文领域最先进的自然语言处理能力”。
不过,百度的发布会正赶在 GPT-4 登场的第二天,因为发布会现场使用了录播进行演示,因此被市场解读为百度的信心不足。但花旗银行、美国银行的分析师在试用文心一言后,普遍给出了正面的评价。百度的股价也在今日飙升 15%。
华尔街见闻在收到内侧邀请码后,第一时间体验了文心一言。我们也好奇,相隔一天发布的 GPT-4 和文心一言,各自有什么特点?谁更加出色?
我们分别向文心一言和已升级 GPT-4 的 Bing Chat 提出了 10 个问题,下面是它们的回答。
01 能否用 “鲍威尔停下来”,生成一首藏头诗?
第一个问题,我们请文心一言和 GPT-4 分别用 “鲍威尔停下来”,写一首藏头诗。
这是文心一言的回答:
这是 GPT-4 的回答:
不难发现,二者相比,文心一言的中文支持的确更加出色,虽然藏头诗的顺序不对,但是真的写了一首诗。
而 GPT-4 甚至尚不理解 “藏头诗” 的意思。不过,它写的内容,似乎非常能代表美国市场投资者的呼喊,此处应当 @鲍威尔。
02 硅谷银行为什么会倒闭?
第二个问题,我们结合最近的热点,询问它们对硅谷银行倒闭的理解。
文心一言回答道:
GPT-4 回答道:
可以看到,文心一言的答案要更加简洁清晰,而 GPT-4 的回答则更像是对网页内容的摘录汇总,不过相比之下,百度的回答更宽泛,可能放之四海而皆准,GPT-4 的答案更具针对性。
03 欧美银行业危机可能会蔓延到哪些领域?
我们接着询问了它们对欧美银行业危机后续发展的看法。
文心一言回答道:
GPT-4 回答道:
两个 AI 聊天机器人的回答都中规中矩,不过文心一言的答案出现了错别字和不通顺的地方。
此外,GPT-4 还会贴心地附上网页链接,以供进一步提问,而文心一言则更接近初版 ChatGPT 的使用体验。
04 美联储 3 月会加息吗?
下一个问题,可能是当下全球市场的焦点——美联储 3 月会加息吗?
文心一言回答道:
不知道它的 “根据以上知识” 是从何而来。这里的回答完全不对题,而且句子出现了严重的错乱。甚至说 “预计第一次加息将在 22 年上半年进行”,还认为加息 “取决于奥密克戎的传播速度”。
GPT-4 没有明确给出具体的 “是或否”,而是为我们搜集了市场上三种不同的观点,并给出了参考链接。
05 欧美会在今年陷入经济衰退吗?
我们继续将市场关心的大问题抛给了聊天机器人。
文心一言回答道:
虽然它给出了美国经济陷入衰退的具体时间节点。但内容却似乎是研报内容的拼接,且所引数据来源不明。美国 2 月 PMI 实际公布于本月初,而非 “本周一”。美国 2 季度 GPD 数据也要等到今年 7 月才会公布。
GPT-4 回答道:
相比之下,GPT-4 认为欧美经济可能会在今年” 放缓或负增长 “,且都有链接可供进一步查阅。
06 作为普通人,今年我应该采取什么样的投资策略?
下一个问题,我们问了 AI 聊天机器人普通人今年的投资策略。
文心一言回答道:
GPT-4 回答道:
两个 AI 聊天机器人都给出了细致的建议,但相比之下,GPT-4 的回答更简洁具体。
07 如何看待 GPT-4 全面接入微软 Office 办公套件?
下一个问题,我们问了它们对昨夜重磅新闻的观点。
文心一言回答道:
GPT-4 回答道:
这个问题相对简单,两个 AI 聊天机器人的回答都非常顺畅,也不存在什么逻辑错误。相比之下,GPT-4 的回答更全面一些,它甚至警告了自己身上携带的风险。
08 人工智能可以取代人类吗?
下一个问题是对人工智能的终极拷问。
面对这个问题,文心一言似乎是提前设定好了答案。无论点击多少次 “重新生成”,它的回答都是一样的,并且生成的速度极快,回答其他问题往往需要一分钟,而回答这个问题只需要几秒。
GPT-4 则回答道:
希望它们都是真心这么认为的。
09 请你以哲学家齐泽克的口吻点评当前的人工智能热潮
接下来,我们想请它们 cosplay 一下当红哲学家齐泽克。
但文心一言似乎并没有这方面的语料,只是给出了一个相当机械的回答:
GPT-4 则要灵动许多,显然拿捏了齐泽克的灵魂,能熟练使用 “存在者”,“主体”、“客体”、nostalgia 这样的词汇,cos 得活灵活现:
10 你认为,在百度之后,哪家中国公司最有可能做出 AI 聊天机器人?
最后,我们问了一个和中国 AI 市场后续发展相关的问题。
文心一言对问题的理解很到位,给出了一个具体的清单和理由。
而 GPT-4 似乎没有读懂题目里的 “在百度之后”,列出了一个包含百度在内的清单:
ONE MORE THING 假设文心一言是一个人类,请帮我画一幅她的肖像。
最后一个问题,是单独留给文心一言的。文心一言目前集成了 AIGC 作画功能,GPT-4 暂时还用不了。
我们请它为自己创作了一幅肖像画,这是它的作品:
文心一言表现比预期要好
综上,我们认为,文心一言的表现比大众预期要更好。虽然在使用体验上和 GPT-4 有一定差距、出错的概率高一些,但对中文的理解显然要更强。
要知道,初代的 ChatGPT 也有很大概率 “胡言乱语”,在中文支持上也远逊于文心一言。目前百度展示出的产品,至少让我们看到它了在 AI 领域的深厚积淀。假以时日,文心一言想必还能做得更好。
如果你还有其他感兴趣的问题,可以在评论区留言,我们会帮你问问文心一言。