
ChatGPT 突然爆火,內部人也驚呆了

會話數據對 ChatGPT 的爆火產生了巨大的積極影響,目前研究人員正在用 “對抗性訓練” 來阻止 ChatGPT“越獄”。此外,如何在 ChatGPT 不同的用途之間保持平衡很重要。
當 OpenAI 在 2022 年 11 月底推出 ChatGPT 時,幾乎沒對其抱任何特別的期望,而當 ChatGPT 開始在網上病毒式傳播後,OpenAI 爭先恐後地追趕,並利用這次機會完善自己的模型。
週五,在接受 MIT Technology Review 採訪時,OpenAI 團隊對於這次 “成功” 顯得格外謙遜。
OpenAI 人工智能政策研究人員 Sandhini Agarwal 表示,這在內部被視為一次 “研究預覽”,是一項已有兩年曆史的技術的更完善版本,也是一次通過收集用户反饋來彌補其缺陷的嘗試。另一位研究人員 Liam Fedus 則指出,OpenAI 並不想將其作為一項重大的突破來過度宣傳。
自 11 月以來,OpenAI 已經多次更新了 ChatGPT,研究人員正在使用一種稱為 “對抗性訓練” 的技術來阻止 ChatGPT“越獄”(jailbreaking)。這項工作使多個聊天機器人相互對抗:一個聊天機器人扮演對手,通過生成文本來對抗另一個聊天機器,迫使其打破通常的限制。
此外,OpenAI 還與微軟簽署了一項價值數十億美元的協議,並宣佈與全球管理諮詢公司貝恩結成聯盟,目標是通過突破性的人工智能技術增強客户的業務潛力。在 OpenAI 之外,圍繞 ChatGPT 掀起了一場 “大模型” 的淘金熱,全球各地公司和投資者都積極參與其中。
以下是採訪的具體內容:
火的完全 “出乎意料”,會話數據對 ChatGPT 產生了巨大的積極影響
Jan Leike(負責提高系統安全性團隊負責人):老實説,這的確是勢不可擋的的。我們很驚訝,也在一直在努力完善。
John Schulman(聯合創始人):在發佈後的幾天裏,我經常查看 Twitter,在這段瘋狂的時間裏,充斥着 ChatGPT 截圖。我希望它能獲得更多的關注,但我沒想到它能火到這種程度。
Sandhini Agarwal(人工智能政策研究員):我認為這對我們所有人來説絕對是一個驚喜,人們開始使用它。我們對這些模型進行了大量研究,以至於我們忘記了它們有時對外界來説是令人驚訝的。
Liam Fedus(人工智能政策研究員):我們很驚訝它的反響,以前有很多人嘗試過使用聊天機器人,然而,我們的私人測試版讓我們相信,我們擁有了人們可能真正喜歡的東西。
Jan Leike:我想更好地理解是什麼推動了這一切,是什麼推動着病毒性傳播。老實説,我們不知道。
(團隊的部分困惑來自於 ChatGPT 中的大多數技術都不是新的,ChatGPT 是 GPT-3.5 的一個微調版本,GPT-3.5 是 OpenAI 在聊天機器人發佈前幾個月研究出的大型語言模型。GPT-3.5 本身是 GPT-3 的更新版本,於 2020 年發佈。OpenAI 還在 2022 年 1 月發佈了 GPT-3.5 的微調版本,名為 InstructGPT。但這些早期版本的技術都沒有面向公眾發佈。)
Liam Fedus:ChatGPT 模型是從與 InstructGPT 相同的語言模型中進行微調得出的,我們添加了一些會話數據,並在訓練過程進行了一些微調。
我們並不想將其作為一項重大的突破來過度宣傳,但事實證明,會話數據對 ChatGPT 產生了巨大的積極影響。通過標準基準測試評估原始技術能力,模型之間實際上沒有實質性差異,但 ChatGPT 更易於訪問和使用。
“不要等到完美的時候再發布它”
Sandhini Agarwal:當我們準備發佈時,我們並不認為這個模型存在其他新的風險,GPT-3.5 已經發布,我們知道它已經足夠安全了。通過 ChatGPT 對人類偏好的訓練,該模型可以自動學習拒絕行為,即拒絕大量請求。
Jan Leike:我們確實為 ChatGPT 做了一些額外的 “紅隊測試”(red teaming),OpenAI 的每個人都試圖打破這種模式。我們有外部團體在做同樣的事情。我們也有一個早期訪問計劃,由信任的用户提供反饋。
Sandhini Agarwal:我們確實發現它輸出一些不必要的內容,所以作為一個 “研究預覽” 這一意圖是好的。
John Schulman:你不能等到你的系統完美后再發布它。我們已經對早期版本進行了幾個月的測試,測試人員對產品有較好的印象。我們最擔心的是真實性,因為模型喜歡捏造東西。但是 InstructGPT 和其他大型語言模型已經存在,所以我們認為,只要 ChatGPT 在真實性和其他安全問題上優於那些模型,應該就是更好的選擇。在發佈之前,根據我們有限的評估,確認這些模型確實比其他模型更真實和安全,所以我們決定繼續發佈。
很多問題浮現,“越獄” 亟待解決
Sandhini Agarwal:隨着 ChatGPT 的病毒傳播,許多問題真正浮出水面,這是我們希望儘快解決的關鍵問題。比如,ChatGPT 非常擅長拒絕不好請求,但它也很容易編寫提示,使它不會拒絕我們希望它拒絕的內容。
Liam Fedus:看到用户提供的多樣化和創造性的應用程序令人興奮,但我們始終專注於需要改進的領域。我們認為,通過我們部署、獲取反饋和改進的迭代過程,我們可以生產出最強大的技術。而隨着技術的發展,新的問題出現不可避免。
Sandhini Agarwal:我們最需要解決問題是 “越獄”,當我們發現越獄情況時,我們會將其添加到訓練和測試數據中。
Jan Leike:每次有更好的模型時,我們都想將其發佈並測試。我們非常樂觀地認為,一些有針對性的對抗性訓練可以大大改善越獄情況。目前還不清楚這些問題是否會完全消失,但我們認為,這起碼可以讓很多越獄變得更加困難。
我認為,一旦你部署了這些系統,就很難真正預測它們的真正安全問題。因此,我們非常重視監控人們使用系統的目的,看看發生了什麼,然後做出反應。但很難預測當一個系統觸及現實世界時會發生的一切。
Sandhini Agarwal:現在的風險肯定比六個月前高得多,但仍低於一年後的水平。顯然,這些模型真正重要的一點是它們所使用的環境。與谷歌和微軟想法一樣,它們註定要成為搜索引擎。像搜索這樣的大模型所需要的,與僅僅是一個好玩的聊天機器人的是不同的。我們需要弄清楚如何在所有這些不同的用途之間保持平衡,創造出在不同環境中對人們有用的東西。在這些環境中,期望的行為可能會發生變化,這增加了更多的壓力。我們正在構建這些模型,以便將其轉化為產品。ChatGPT 是一種產品,現在我們有了 API。我們正在構建這種通用技術,並需要確保它在所有方面都能正常工作,這是我們目前面臨的關鍵挑戰之一。
