能通过谷歌三级程序员面试、沃顿商学院 MBA 考试,但 ChatGPT 竟然学不好数学!
竟然在最应该擅长的学科 “偏科” 了,为什么?
近日一份内部文件显示,ChatGPT 成功通过了谷歌的编程面试,拿到了年薪 18.3 万美元的 L3 工程师 offer。虽然 L3 只是谷歌工程团队的最入门级别,但这仍是一众普通程序员难以企及的水平。
宾夕法尼亚大学沃顿商学院教授 Christian Terwiesch 近期进行的一项研究发现,Chat GPT-3 能够通过该学院 MBA 的期末考试,并获得 B 到 B-左右的综合成绩,在某些问题上,这个聊天机器人甚至给出了 A+ 级别的回答。
此外,根据一项最新的研究,明尼苏达大学的法学教授让 ChatGPT 尝试了一下他们学校四门课程的研究生考试题,最终机器人以 C+ 的综合成绩通过了所有考试。
从写稿、编程、到教育,再到商业管理和法律,Chat GPT 展现出来的 “逆天” 能力一次次震撼所有人,也让不少人担心,在不久的未来,自己的岗位将被 ChatGPT 取代。
但有一个领域的从业人员似乎还不用担心被 Chat GPT 代替:ChatGPT 在数学方面表现得相当糟糕。
计算机竟然不会计算?
据媒体当地时间周五报道,德克萨斯大学数据科学和统计学教授 Paul von Hippel 表示: “我没有听到数学老师对(被 ChatGPT 替代)表示担忧。”
曾就 ChatGPT 的数学局限性写过文章的 von Hippel 说:“我不确定它是否擅长数学,这感觉很奇怪,因为数学是计算设备的首个应用领域。”
虽然计算机可以正确地处理许多基本的算术问题,但当这些问题是用自然语言阐述的时候,机器人就会犯错误。
例如,有媒体问 ChatGPT:“如果一个香蕉重 0.5 磅,我有 7 磅香蕉和 9 个橙子,那么我共有多少个水果?”
机器人迅速回复:“你一共有 16 个水果,7 个香蕉和 9 个橘子。”
当你问一个小学生同样的问题,他给出的答案十有八九会是 “23”。
如果你问聊天机器人,奥尼尔和姚明谁高?它会毫不犹豫地告诉你,奥尼尔更高。(姚明身高 2.26 米,奥尼尔身高 2.16 米)
除此以外,在计算大数字的平方根时,ChatGPT 会犯错,在对稍微复杂的计算题进行分解计算时,它也会犯错,如 2x300=500。
其实只是一个擅长扯淡的艺术家?
面对这样小学级别的数学问题,身为计算机程序的 ChatGPT 为什么会如此自信地胡说八道?按照一般人的想法,数学本应该是它的 “看家本领”。
实际上,数学是 ChatGPT 这种被称为大型语言模仿人工智能与生俱来的弱项。
开发人员通过扫描网络上的大量文本,并开发出一个模型,用于判断一个句子中哪些单词可能会跟随其他单词。当你在设备上输入 “我想” 后, “与某人跳舞”,“知道什么是爱” 或 “永远在你身边” 等词汇可能自动补全。类似 ChatGPT 这种大型人工智能拥有更为复杂的自动补全功能。
也就是说,ChatGPT 实际上更擅长模仿,而非计算。它可以写出一篇符合语法的论文,但却不一定能正确地解决数学问题。
这也是 ChatGPT 的致命弱点: 它用一种看上去很权威的语言给出语法正确但数字错误的答案。
对此,von Hippel 表示:
它表现得像个专家,有时可以提供一个令人信服的答案。但它往往是一种擅长扯淡的艺术家,把真相、错误和虚假信息混合在一起,听起来很有说服力,但其实只有具备相关专业知识的人才能辨明真伪。
至于为什么一些简单问题的回答是对的,而另一些则完全错了,搜索引擎工程师 Debarghya Das 告诉媒体:
也许正确的比方是,如果你问一屋子不知道数学是什么,但读过很多象形文字的人,‘2+2 的后面是什么,他们可能会说 ‘通常,我们看到的是 4’,这就是聊天机器人 GPT 正在做的。
但是数学不仅仅是一系列象形文字,它是计算。
Chat GPT 背后的公司 OpenAI 首席执行官 Sam Altman 去年 12 月在 Twitter 上表示:
ChatGPT 的能力极其有限,但在某些方面足以让人产生对伟大的误解。现在依赖它做任何重要的事情都是错误的。
当您开始与 ChatGPT 对话时,它会提前发出警告:“虽然我们有适当的安全措施,但系统偶尔可能会发出不正确或具有误导性的信息。”
不过谁也不能保证,在未来,也许是下一代人工智能,能将 ChatGPT 强大的语言技能与搜索引擎 Wolfram Alpha 的数学功能结合起来。到那时,它给出的答案不仅是自信的,而且是准确的。