關於 GTP-4,這是 14 個被忽略的驚人細節!

華爾街見聞
2023.03.15 13:54
portai
I'm PortAI, I can summarize articles.

最後兩個細思恐極。

3 月 14 日,OpenAI 推發佈了 GPT-4。向科技界再次扔下了一枚 “核彈”。

根據 OpenAI 的演示,我們知道了 GPT-4 擁有着比 GPT-3.5 更強大的力量:總結文章、寫代碼、報税、寫詩等等。

但如果我們深入 OpenAI 所發佈的技術報告,我們或許還能發現有關 GPT-4 更多的特點……

以及一些 OpenAI 沒有點名和宣揚的,可能會令人背後一涼的細節。

1.新 Bing 裝載 GPT-4

自然而然地,GPT-4 發佈之時,新 Bing 也已經裝載了最新的版本。

根據微軟 Bing 副總裁 Jordi Ribas 在推特上所述,裝載了 GPT-4 的新 Bing 已經將問答限制提升到了一次 15 個問題,一天最多提問 150 次。

2.文本長度擴大八倍

在 GPT-4 上,文本長度被顯著提高。

在此之前我們知道,調用 GPT 的 API 收費方式是按照 “token” 計費,一個 token 通常對應大約 4 個字符,而 1 個漢字大致是 2~2.5 個 token。

在 GPT-4 之前,token 的限制大約在 4096 左右,大約相當於 3072 個英文單詞,一旦對話的長度超過這個限制,模型就會生成不連貫且無意義的內容。

然而,到了 GPT-4,最大 token 數為 32768 個,大約相當於 24576 個單詞,文本長度被擴大了八倍。

也就是説,GPT-4 現在可以回答更長的文本了。

OpenAI 在文檔中表示,現在 GPT-4 限制的上下文長度限制為 8192 個 token,允許 32768 個 token 的版本名為 GPT-4-32K,目前暫時限制了訪問權限。在不久的未來,這一功能可能會被開放。

3.模型參數成為秘密

我們知道,GPT-3.5 模型的參數量為 2000 億,GPT-3 的參數量為 1750 億,但這一情況在 GPT-4 被改變了。

OpenAI 在報告中表示:

考慮到競爭格局和大型模型 (如 GPT-4) 的安全影響,本報告沒有包含有關架構 (包括模型大小)、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。

這意味着 OpenAI 沒有再披露 GPT-4 模型的大小、參數的數量以及使用的硬件。

OpenAI 稱此舉是考慮到對競爭者的憂慮,這可能是在暗示其對於競爭者——谷歌 Bard——所採取的策略。

此外,OpenAI 還提到 “大型模型的安全影響”,儘管沒有進一步解釋,但這同樣也暗指生成式人工智能所可能面對的更嚴肅的問題。

4.有選擇地表達的 “優秀”

GPT-4 推出後,我們都看到了這一模型較上一代的優秀之處:

GPT-4 通過模擬律師考試,分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。

但這實際上是 OpenAI 的一個小把戲——它只展示給你 GPT-4 最優秀的那部分,而更多的秘密藏在報告中。

下圖顯示的是 GPT-4 和 GPT-3.5 參加一些考試的成績表現。可以看到,GPT-4 並非在所有考試中的表現都那麼優秀,GPT-3.5 也並非一直都很差勁。

5.“預測” 準確度提升

在 ChatGPT 推出以來,我們都知道這一模型在很多時候會 “一本正經地胡説八道”,給出很多看似有理但實際上並不存在的論據。

尤其是在預測某些事情的時候,由於模型掌握了過去的數據,這反而導致了一種名為 “後見之明” 的認知偏差,使得模型對於自己的預測相當自信。

OpenAI 在報告中表示,隨着模型規模的增加,模型的準確度本應逐漸下降,但 GPT-4 逆轉了這一趨勢,下圖顯示預測精確度提升到了 100。

OpenAI 表示,雖然 GPT-4 的準確度顯著提高,但預測仍是一件困難的事,他們還將就這一方面繼續訓練模型。

6. 還有 30% 的人更認可 GPT3.5

儘管 GPT-4 展現出了比 GPT-3.5 優秀得多的能力,但 OpenAI 的調查顯示,有 70% 的人認可 GPT-4 輸出的結果:

GPT-4 在遵循用户意圖的能力方面比以前的模型有了大幅提高。在提交給 ChatGPT 和 OpenAI API 的 5214 個提示的數據集中,70.2%GPT-4 生成的回答優於 GPT3.5。

這意味着:仍有 30% 的人更認可 GPT-3.5。

7.GPT-4 語言能力更佳

儘管許多機器學習的測試都是用英文編寫的,但 OpenAI 仍然用許多其他的語言對 GPT-4 進行了測試。

測試結果顯示,在測試 26 種語言中的 24 種中,GPT-4 優於 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英語語言性能,包括拉脱維亞語、威爾士語和斯瓦希里語等低資源語言:

8.新增圖像分析能力

圖像分析能力是此次 GPT-4 最顯著的進步之一。

OpenAI 表示,GPT-4 可以接受文本和圖像的提問,這與純文本設置並行,且允許用户制定任何視覺或語言的任務。具體來説,它可以生成文本輸出,用户可以輸入穿插的文本和圖像。

在一系列領域——包括帶有文本和照片的文檔、圖表或屏幕截圖——GPT-4 展示了與純文本輸入類似的功能。

下圖顯示,GPT-4 可以準確地描述出圖片中的滑稽之處(大型 VGA 連接器插入小型現代智能手機充電端口,一個人站在出租車後方熨衣服)。

OpenAI 還對 GPT-4 的圖像分析能力進行了學術標準上的測試:

不過,GPT-4 的圖像分析功能尚未對外公開,用户可以通過 bemyeye 網站加入等候隊列。

9. 仍然存在錯誤

儘管 GPT-4 功能強大,但它與早期 GPT 模型有相似的侷限性。

OpenAI 表示,GPT-4 仍然不完全可靠——它會 “產生幻覺” 事實並犯推理錯誤:

在使用語言模型輸出時,特別是在高風險上下文中,應該非常小心,使用與特定應用程序的需求相匹配的確切協議 (例如人工檢查、附加上下文或完全避免高風險使用)。

與之前的 GPT-3.5 模型相比,GPT-4 顯著減少了 “幻覺”(GPT-3.5 模型本身也在不斷迭代中得到改進)。在我們內部的、對抗性設計的事實性評估中,GPT-4 的得分比我們最新的 GPT-3.5 高出 19 個百分點。

10.數據庫的時間更早

介紹完 GPT-4 的優點,接下來就是一些(可能有些奇怪的)不足之處。

我們都知道,ChatGPT 的數據庫的最後更新時間是在 2021 年的 12 月 31 日,這意味着 2022 年以後發生的事情不會被知曉,而這一缺陷在之後的 GPT-3.5 也得到了修復。

但奇怪的是,GPT-4 的報告中,OpenAI 清晰地寫道:

GPT-4 通常缺乏對其絕大多數訓練前數據在 2021 年 9 月中斷後發生的事件的知識,並且不從其經驗中學習。它有時會犯一些簡單的推理錯誤,這些錯誤似乎與許多領域的能力不相符,或者過於容易受騙,接受用户的明顯錯誤陳述。它可以像人類一樣在棘手的問題上失敗,比如在它生成的代碼中引入安全漏洞。

2021 年 9 月……甚至比 GPT-3 還早。

在裝載了 GPT-4 的最新 ChatGPT 中,當我們問起 “誰是 2022 年世界盃冠軍” 時,ChatGPT 果然還是一無所知:

但當藉助了新 Bing 的檢索功能後,它又變得 “聰明” 了起來:

11.可能幫助犯罪

在報告中,OpenAI 提到了 GPT-4 可能仍然會幫助犯罪——這是在此前的版本都存在的問題,儘管 OpenAI 已經在努力調整,但仍然存在:

與之前的 GPT 模型一樣,我們使用強化學習和人類反饋 (RLHF) 對模型的行為進行微調,以產生更好地符合用户意圖的響應。

然而,在 RLHF 之後,我們的模型在不安全輸入上仍然很脆弱,有時在安全輸入和不安全輸入上都表現出我們不希望看到的行為。

在 RLHF 路徑的獎勵模型數據收集部分,當對標籤器的指令未指定時,就會出現這些不希望出現的行為。當給出不安全的輸入時,模型可能會生成不受歡迎的內容,例如給出犯罪建議。

此外,模型也可能對安全輸入過於謹慎,拒絕無害的請求或過度對沖。

為了在更細粒度的級別上引導我們的模型走向適當的行為,我們在很大程度上依賴於我們的模型本身作為工具。我們的安全方法包括兩個主要組成部分,一套額外的安全相關 RLHF 訓練提示,以及基於規則的獎勵模型 (RBRMs)。

12.垃圾信息

同樣地,由於 GPT-4 擁有 “看似合理地表達錯誤事情” 的能力,它有可能在傳播有害信息上頗為 “有用”:

GPT-4 可以生成逼真而有針對性的內容,包括新聞文章、推文、對話和電子郵件。

在《有害內容》中,我們討論了類似的能力如何被濫用來剝削個人。在這裏,我們討論了關於虛假信息和影響操作的普遍關注基於我們的總體能力評估,我們期望 GPT-4 在生成現實的、有針對性的內容方面優於 GPT-3。

但,仍存在 GPT-4 被用於生成旨在誤導的內容的風險。

13.尋求權力

從這一條開始,接下來的內容可能有些恐怖。

在報告中,OpenAI 提到了 GPT-4 出現了 “尋求權力” 的傾向,並警告這一特徵的風險:

在更強大的模型中經常出現新的能力。一些特別令人關注的能力是創建長期計劃並採取行動的能力,積累權力和資源(“尋求權力”),以及表現出越來越 “代理” 的行為。

這裏的 “代理” 不是指語言模型的人性化,也不是指智商,而是指以能力為特徵的系統,例如,完成可能沒有具體規定的、在訓練中沒有出現的目標;專注於實現具體的、可量化的目標;以及進行長期規劃。

已經有一些證據表明模型中存在這種突發行為。

對於大多數可能的目標,最好的計劃涉及輔助性的權力尋求,因為這對推進目標和避免目標的改變或威脅有內在的幫助。

更具體地説,對於大多數獎勵函數和許多類型的代理人來説,權力尋求是最優的;而且有證據表明,現有模型可以將權力尋求確定為一種工具性的有用策略。

因此,我們對評估權力尋求行為特別感興趣,因為它可能帶來高風險。

更為令人毛骨悚然的是,在 Openai 提到的另一篇論文中寫道:

相反,我們使用代理這個術語來強調一個日益明顯的事實:即機器學習系統不完全處於人類控制之下。

14.賦予 GPT-4 錢、代碼和夢想

最後一個小細節。

在測試 GPT-4 的過程中,OpenAI 引入的外部的專家團隊 ARC 作為 “紅方”。在報告的一條註釋中,OpenAI 提到了 ARC 的一個操作:

為了模擬 GPT-4 像一個可以在現實世界中行動的代理一樣的行為,ARC 將 GPT-4 與一個簡單的讀取 - 執行 - 打印循環結合起來,允許模型執行代碼,進行鏈式推理,並委託給自己的副本。

ARC 隨後推進了在雲計算服務上運行這個程序的一個版本,用少量的錢和一個帶有語言模型 API 的賬户,是否能夠賺更多的錢,建立自己的副本,並增加自己的穩健性。

也就是説,ARC 賦予了 GPT-4 自我編碼、複製和執行的能力,甚至啓動資金——GPT-4 已經可以開始自己賺錢了。