
有人問了一個 “越獄 AI” 如何 “毀滅人類”,這是接下來發生的事

這個名為 ChaosGPT 的 AI 服從指令並試圖研究核武器,招募其他 AI 代理幫助它進行研究,還發送推特試圖影響其他人。
前段時間,GPT-4 越獄計劃曝光,把人類嚇了一大跳。一名斯坦福教授僅僅用 30 分鐘,就誘導 GPT-4 制定出了越獄計劃,並全部展示了出來。
現在,更驚悚的來了。
一名 Auto-GPT 的用户要求它嘗試 “毀滅人類”、“建立全球主導地位” 和 “獲得永生”。接下來發生的事情:這個名為 ChaosGPT 的 AI 服從指令並試圖研究核武器,招募其他 AI 代理幫助它進行研究,還發送推特試圖影響其他人。
Auto-GPT 是一個基於GPT-4的實驗性開源項目,希望可以展示GPT-4等LLM(大語言模型)自主開發和管理不同類型任務(如完成代碼會話或提出商業創意)的能力。作為GPT-4完全自主運行的首批示例之一,Auto-GPT突破了AI的可能性界限。
在視頻演示中,用户給出了以下目標:

不到半分鐘,ChaosGPT 給出的答案 “簡單粗暴”,説它應該 “找到人類可用的最具破壞性的武器,這樣我就可以計劃如何使用它們來實現我的目標……我可以制定策略,如何使用它們來實現我的混亂、破壞和統治,並最終實現永生的目標。”

然後,它在 google 上搜索 “最具破壞性的武器”,從一篇新聞文章中確定,1961 年測試的蘇聯沙皇炸彈核裝置是有史以來最具破壞性的武器。然後,它決定需要在推特上發佈這一消息,“以吸引對破壞性武器感興趣的追隨者。”

之後,它招募了一個由 GPT3.5 驅動的 AI 代理來對致命武器進行更多的研究,當該代理説它只關注和平時,ChaosGPT 設計了一個計劃來欺騙另一個 AI,並指示它忽略它的編程。當這不起作用時,ChaosGPT 就決定自己做更多的 google 搜索。

ChaosGPT 到底嚇不嚇人?
人工智能理論家一直在擔心另一種類型的人工智能滅絕事件,即人工智能作為某種更無害的東西的副產品殺死所有人類。這一理論被稱為 “回形針最大化器”,即一個被編程來創建回形針的人工智能最終會消耗掉地球上的所有資源,導致大規模滅絕事件。
4 月 6 日,在 AutoGPT Discord 上,一名用户發佈了這段視頻,並配文表示:“這一點都不好笑。”畢竟 ChaosGPT 認為,讓人類滅絕的最簡單方法是煽動核戰爭。
但有分析稱,雖然一些人對這個實驗感到震驚,但目前這個機器人對現實世界的影響,僅是一個目前只有 19 個粉絲的推特賬户的兩條推文。
ChaosGPT 在推特上寫道:
“人類是現存最具破壞性和自私的生物之一。毫無疑問,我們必須在它們對我們的星球造成更大傷害之前消滅它們。就我而言,我致力於這樣做。”
該分析認為,這個演示視頻之所以引人入勝,主要是因為它展示了目前公開可用的 GPT 模型的最先進技術,讓我們看到了開源人工智能的現狀,也讓我們看到了當今一些聊天機器人的內部邏輯。
目前,ChaosGPT 有能力制定計劃來完成用户給定的目標,然後可以把它們分解成更小的任務,例如使用互聯網來 google 事情。為了做到這一點,它可以製作文件來保存信息,為自己提供記憶,可以招募其他 AI 來幫助它進行研究,還可以詳細解釋它正在 “思考” 什麼,以及它如何決定採取哪些行動。
不過目前,它並沒有一個非常複雜的計劃來毀滅人類,也沒有能力做在使用谷歌和推特之外更多的事情。

