LB Select
2023.04.15 02:43
portai
I'm PortAI, I can summarize articles.

腾讯研究院:ChatGPT 时代,图灵测试已死

“ChatGPT 是否拥有自主意识?” ChatGPT 自己的回答是……

本文来源:腾讯研究院,作者:腾讯研究院高级研究员王焕超

自从 2022 年底 OpenAI 发布 ChatGPT 之后,一阵人工智能的飓风,席卷了全球。这阵风之所以猛烈,一是因为 ChatGPT 在技术方面的突破足够颠覆,二是它在应用端实现了普通人可体验,这意味着能够对其强大能力有直接的感知。于是,我们很快得到了与埃隆·马斯克相同的感受:ChatGPT,“好得吓人”。

2023 年 3 月 14 日,具备多模态能力的 GPT-4 悄然发布。根据报道,GPT-4 通过了许多人类专业测试,比如律师考试,也通过了一些经典心理学测验,体现出相当于 9 岁儿童的心智水平。终于,那个问题开始在媒体报道与大众口中出现了:ChatGPT 什么时候能通过图灵测试?

图灵测试,相当有分量的四个字。在 1950 年被提出后,图灵测试逐渐成为衡量 AI 智能程度的重要标准,甚至是唯一标准,拥有大批追随者。每当人工智能(尤其是对话机器人)领域产生新的进展,都要经历同样的拷问,并在否定性的回答中黯然失色。“图灵测试” 已经成为一个神话,甚至是钳制 AI 发展的魔咒。本文倾向于认为,图灵测试已经过时,尤其是在 ChatGPT 引领的人工智能时代,它已经无法用来检测 AI 的发展程度与智能水平。而智能,也并不是一种如此狭隘的概念。

模仿游戏、图灵测试与中文屋实验

二战期间,艾伦·图灵被委任寻找破解德军编码信息的有效方法,在这段时期,他提出了有关计算机科学的基本概念。战后,他投入到人工智能的研究领域,而图灵测试就可追溯至他在 1950 年发布的一篇论文《计算机器与智能》(Computing Machinery and Intelligence)[1]。

在这篇论文中,图灵首先提出了一个问题:机器能思考吗?(Can machines think?),他紧接着指出这个问题没有讨论的价值,与其在一系列复杂的概念上纠结,不如着眼于更具体的场景。他提出了一种思想实验:模仿游戏(imitation game),而这个思想实验后来就被演化为 “图灵测试”。

图灵测试的原理很简单,包含三个对象:机器(A)、正常人类(B)以及测试者(C)。C 无法看到 A 和 B,但是他可以询问二者一系列问题,如果经过询问之后,C 无法分辨 A 与 B 的不同,则机器通过图灵测试。图灵的观点是,如果测试者无法区分机器和人类,那么我们就无法否认机器在思考。此处的关键在于,这个思想实验被提出的最初目的是判断机器能否像人一样思考,而非其它。

在同一篇文章中,图灵还预测,到 2000 年,一个普通人区分人和机器的可能性将降到 70% 甚至更低。这个说法在后续的相关测试中被确立为一项标准,即机器只要骗过 30% 的测试者,即可被认定通过图灵测试。

图灵测试确实有其进步性。在这篇论文被发表的时间点,人工智能的概念还没有被提出(要等到 1956 年达特茅斯会议),当时的绝大部分观点认为,人和机器存在本质不同,机器没有感情,更无法像人一样思考。而图灵测试采用了类似于约翰·罗尔斯 “无知之幕” 的形式,将测试者与测试对象隔离开,并且通过文字而非声音交流,让机器避免了不公平的比较。

但之后发生的事情,恐怕是图灵本人也无法想到的。在他身后,“图灵测试” 竟然演化为衡量 AI 智能发展水平的最重要的标尺。可能是因为图灵本人的声名与传奇经历,可能是因为测试本身的简洁与直接,可能是因为人工智能领域确实需要一个指向标,再加上媒体报道与文艺作品的 “包装”……结果是,这项七十多年前提出的思想实验,依然深刻影响着当今的人工智能领域,一批批相关的竞赛被组织起来并引发大量关注,一代又一代研究者乐此不疲地尝尽各种方法,试图通过图灵测试。

正是因为图灵测试对人工智能领域的宰制力如此强悍,所以即便 ChatGPT 已经大杀四方,人们还是愿意回到原点,念兹在兹已近七旬的图灵测试,似乎唯有这样,才能给这个技术实现 “加冕”,赋予合法性。

图灵测试的聪明之处在于,“意识”“思维”“智能” 都是难以通过定义来阐释的东西,那索性就不去思辨概念,而是用公认具有思考能力的生物——人类来作为参照物,如果机器的表现与人类难以区分,即可被视为具备了与人类相同的智能。[2] 这其实是一种相当结果导向的判别方式——判断机器是否有智能,无需看其内部构造,更无需思辨概念,只需看其行为表现。

图灵的智能观奠定了人工智能计算主义的理论基础。“有智能就是有思维,而能思维就是能计算,所谓计算就是应用形式规则,对(未解释的)符号进行形式操作。”[3] 从图灵开始,人类的心灵、智能虽然仍然神秘莫测,但不再只能用思辨的语言去意会,而是可以用定量的语言去描述。由此,计算主义构建了他们的心智模型:人的思维或认知就是一种依照规则进行的纯句法、纯形式的转换过程,而其实践目标便成为,如何建立一台能跟人一样输入输出的机器。

但这种智能观,甫一问世就招致激烈的批判。最主流的批评声音认为,如果仅有形式转换过程,而没有情感、意识、学习能力等,显然无法称之为 “智能”。在批评的阵营中,最有代表性的就是 “中文屋实验”。

1980 年,美国伯克利大学哲学教授约翰·塞尔设计了这个思想实验,证明了通过 “图灵测试” 的机器并非真正具备智能。他假设有一个只懂英语、完全不懂中文的人被锁进房间,房间内还有一箱中文字片以及指导手册。而房间外是一个毫不知情的人,他向屋内递进字条用中文进行提问,房间里的人按手册指导来挑选字片,并且给出正确答案。从结果来看,房间里的人无疑能成功通过测试,但实际上他对中文一无所知。

塞尔指出,房间里的人就跟通过图灵测试的机器一样,无需理解输入输出字符的含义,只要按照既定规则搬弄字符,就能形成一种具备理解能力的假象。这不是真正的理解,最多是一种扮演行为,并不具备任何思考能力。

中文屋实验挑战了以图灵测试为代表的计算主义对人类智能的建模。它揭示了智能的关键并不在于语法或形式转换,哪怕是通过了图灵测试的计算机程序,也无法证明它是有智能的,它只是在处理语法,而未涉及语义,并不具备真正的意向性。它只是实验中那个坐在房间里的、完全不懂中文的 “人”。

图灵测试已经过时

尽管反对者重重,但都没能阻止图灵测试成为人工智能领域的北极星。时间线推移到二十世纪六七十年代,通过图灵测试成为人工智能发展的核心目标。由于图灵测试侧重关注语言互动,这在某种程度上推动了聊天机器人的进步。

1966 年,Joseph Weizenbaum 推出伊丽莎(ELIZA),这款聊天程序的主要目的,就是让聊天对象将自己误以为人。它具备将特定单词转换为完整的句子的能力,会在聊天对象的问题中搜索关键词,并进行相关回复。不到十年后,用以模拟偏执型精神分裂症患者的聊天机器人 PARRY 面世,一群精神病医生分别与患者、PARRY 对话,最终只识别出了 48% 的机器人。

进入 21 世纪,人工智能后来者接力前辈,继续攻克图灵测试,并取得了关键进展。1991 年,美国发明家洛伯纳发起图灵测试竞赛,要求人类和计算机分别与裁判团进行 25 分钟对话,骗过裁判最多的程序获胜。终于,在 2014 年 6 月,由俄罗斯团队研发的 “尤金·古斯特曼”(Eugene Goostman)在测试中骗过了超过 33% 测试者,被认定为一个 13 岁的小男孩。按照标准,它通过了图灵测试。

尤金·古斯特曼不是孤例。Google 推出的虚拟助理 Duplex 打电话给美发沙龙并成功预约,而对方并不知道她在和电脑对话,也被认为是通过了图灵测试;作曲程序 lamus 则通过了非语言类图灵测试,250 名受测者(其中一半是专业音乐家),只有 24% 成功区分 lamus 和人类作曲家的作品。

显然,图灵测试早就不是我们刻板印象里那样坚不可摧,已经被捅成了筛子。但是,这些通过了图灵测试的程序,并没有制造出想象中惊天动地的后果,并产生自我意识,拿起武器反抗人类压迫。相反,它们大多籍籍无名,至少从目前看,通过图灵测试是它们能够达成的最高成就。

按结果导向的思路,图灵测试显然没有任何神奇魔力。越来越多的研究者也逐渐认清这一点,并致力于为这个思想实验祛魅。比如 Hayes 和 Ford 在其 1995 年的论文中,相当毒舌地建议科学家放弃构建 “机械异装癖”(让机器模仿人类的一种讽刺说法),他们认为图灵测试的设计有很多歧义、缺陷与漏洞,其标准难以捉摸,无法检测到任何东西,因此图灵测试应该 “从教科书转移到历史书”。[4]

其实很容易想见,一个 1950 年提出的思想实验,怎么会预见到此后七十多年人工智能的发展趋势?在图灵所处的年代,人工智能领域尚未建立,商用计算机还未被推出,当时最先进的阿波罗 11 号的算力,是智能手机的十万分之一。图灵是世所稀有的天才,但并不是巫师,更不是穿越者,他的思考难免受到时代的局限,而他提出的思想实验也更像是一种直觉,未被严密论证。

在图灵测试提出后的这几十年间,人工智能发展为一门前沿学科,产生许多图灵无法想象的进展。比如多模态感知能力,比如决策规划能力,比如在围棋比赛完虐人类选手等等,更别说强大到让世人惊叹的 ChatGPT,这些都很难被一个测试所囊括。图灵测试无法体现出这些方面的进步。可以说,关注图灵测试已经没有什么意义。

如亚马逊副总裁兼 Alexa 首席科学家 Rohit Prasad 所说,我们更应该关心人工智能的实用性和区别于人类的能力,而不是它在图灵测试的分数有多高。人工智能没有人类一样的即时反应、快速推断能力,但是人工智能的快速计算和信息检索等能力远强于人类,而这些能力才是现代人工智能(包括 ChatGPT)的核心所在。[5]

从这个角度说,图灵测试暗含极强的人类中心主义。因为只有人能思考,所以人类成为了 “智能” 的唯一代言人和坐标系,只有与人类无差别的,才被认定为是拥有 “智能” 的主体。这是一种极为狭隘的智能观。

同时,图灵测试的规则设计,所导向的是一种欺骗性思路,即 AI 只要成功 “欺骗” 过测试者,就可以被视为拥有 “智能”。所以,以 ELIZA 为始源的许多聊天程序专门为欺骗人类而设计,它们会在解决问题时故意犯错,或者有意拖延回答的时间,用一种所谓的 “类人行为变异性”(Behavioral variability)来装得更像人类,以求骗过测试者。

这显然是一种扭曲的、没有意义的发展方向,甚至具有极高的伦理风险。大量聊天机器人用于电信诈骗、制造谣言,以及深度伪造(deepfake),都是这种以欺骗为导向的设计思路的产物。倘若一直对这种欺骗导向的观念顶礼膜拜,只会助推 AI 向恶的风气愈演愈烈。

ChatGPT 时代亟需一种新的智能观

回过头来看,艾伦·图灵也并没有对 “图灵测试” 赋予太多内涵,他只是提出了一种测试机器是否能与人同样思考的思想实验,更多是后来者,特别是科幻作品与媒体报道在大众层面的渲染,将这样一个思想实验推向了不该有的位置。

我们仔细辨别这种狂热背后的社会心态,它其实无关技术,甚至无关智能,而是对人工智能将要拥有自主意识的一种想象。也就是说,大部分人对于 AI 是否通过图灵测试如此好奇,原因在于他们把图灵测试当成一种门槛,一旦通过,就可认定 AI 获得了自我意识,从而联想到科幻作品中塑造的 AI 统治世界的恐怖图景。

现实没那么可怕,但是 “人工智能的自主意识” 问题确实重要。智能是完成复杂目标的能力,如果没有意识,人工智能就不是思维的主体,仍然是人类的工具,其智能程度越高对人类就越有用;反言之,即使人工智能在许多方面的能力都弱于人,但只要具备意识,就可能是对人存在潜在威胁的主体。

与处理能力有限的人脑相比,AI 的处理能力在理论上是无限的,可以无差别处理收集到的全部信息。一旦 AI 获得意识,它们能够像人类一样交换、分享信息,只不过在效率上是碾压人类的。作为结果,AI 的智能水平将迅速崛起,并会 “消灭” 掉包含人类在内的低智能主体——这并不是大屠杀,而是与智能手机淘汰传统手机一样的 “市场行为”。

当下的人类社会是一个一元论社会,虽然我们常说 “万物有灵”,但那只不过是在泛灵论基础上的一种谦辞,真正的现实是,只有人类拥有真正的 “智能” 与 “意识”。如果一旦诞生了拥有意识的另一方主体,建立在一元论基础上的既有一切都会被颠倒重构。人类有史以来所积累的所有道德秩序就会失去最重要的逻辑支点,在这种情况下,人类该如何重构自己的道德伦理体系?人的本质何在,人又何以为 “人”?如果世界上有其他外观形式也能够产生意识,人的主宰权威就会泯灭,自身的超验背景也会消失。那么,不再是 “万物灵长” 的人类又该如何自处?能否接受与创造物共享这个世界?[6]

这种恐慌,是图灵测试被追捧的原因之一。我们小心翼翼地关注着人工智能产生意识的 “奇点” 时刻,这是一种既恐惧又期待的心理:既希望它到来得晚一点,又好奇它什么时候能到来。

但是,至少从目前的实际表现来看,ChatGPT 虽然强大,但离产生自我意识仍然遥远。ChatGPT 本质上仍是基于统计的语言模型,它的 “思考”,是基于语言模型的运作,它的 “创造”,是不同语料的排列组合,它的 “回答”,是在先验知识基础上进行加工的产物,并不具备真正自我认知。尽管人类还尚未破解有关意识的秘密,但可以明确的是,再强大的模拟和算力,都无法催生出意识。

在这个问题上,GPT-4 比大部分狂热者们更加清醒。我向它提问 “ChatGPT 是否拥有自主意识?”,它的回答是:

话说回来,即便 ChatGPT 尚没有意识,但它的智能水平无可否认,哪怕还没能通过 “图灵测试”。在七十多年后,在 ChatGPT 所属的、人工智能迅猛发展的时代,我们需要一种新的 “智能观”。

图灵测试代表了一种单一化的智能观,人是智能的标杆,机器只有模仿人并与人难以区分,才被视为拥有智能。如前文所说,这是一种人类中心主义的视角,它武断地否认人类之外的一切智能主体,可能扼杀真正的人工智能。

关键在于,智能并非只有一种,它有许许多多的类型与表现形式。人类的智能是智能,AI 的智能也是智能。比如快速计算、信息检索、决策推理等等,这些都是 AI 区别于人的智能类型。我们要做的是建立新的能力衡量标准,而不是执着于抹平 AI 与人的差别。不仅如此,这些能力模型,也应考虑 AI 的伦理道德维度,毕竟,假设有一天我们真的要与有自主意识的 AI 相处,我们也会希望它是一个正直、可信、有责任心的 AI,而不是一个想方设法骗过我们的 AI。