微軟重磅 GPT 研究報告：對 GPT-4 最全測試曝光

微軟的研究團隊發現，GPT-4 語言模型可以被視為 AGI 的早期版本。倘若 GPT-4 真的已成為通往 AGI 的第一步，“最高等的智慧生物” 稱號是不是要易主了？

2019 年，微軟用 10 億美元砸進 OpenAI，兩者展開為期數年的合作。

當時兩家對外公開的合作內容包括，微軟和 OpenAI 將聯合開發新的 Azure AI 超級計算技術，而 OpenAI 也將把它的服務轉移到 Azure 上運行，最終目標是向通用人工智能（Artificial General Intelligence，AGI）技術發起進攻。

簡單總結，微軟與 OpenAI 聯手，也被外界解讀為，明為 AGI 研究，暗爭 Google 市場。

幾年之後，當 OpenAI 帶着 ChatGPT、GPT-4 王者歸來，微軟率先利用這些技術加碼新 Bing、Office 全家桶、Azure 等業務、產品之時，毋庸置疑，其進度早已超越了 Google 還在加快融入 Bard 大模型的整體步伐。

那麼在明面上，AGI 的進度到底走到了哪裏？

近日，微軟研究團隊用 154 頁的論文報告內容給出瞭解答——GPT-4 語言模型可以被視為 AGI 的早期版本！

一石激起千層浪，業界對於這篇論文的反應，不亞於去年聽到「Google 工程師稱 AI 已有自我意識」初覺有些荒誕，只是現如今再想會認為有什麼不可能，深讀後又覺得有些許的真實。

所謂 AGI，僅通過維基百科的解釋——「AGI 是具備與人類同等智能、或超越人類的人工智能，能表現正常人類所具有的所有智能行為」。倘若 GPT-4 真的已成為通往 AGI 的第一步，「最高等的智慧生物」稱號是不是要易主了？

GPT-4 被合理地視為 AGI 的早期（但仍不完整）的版本

在論文中，微軟研究人員表示，「由 OpenAI 開發的最新模型 GPT-4，是使用前所未有的計算和數據規模訓練出來的。在論文中，我們報告了我們對 GPT-4 早期版本的調查，當時它還在 OpenAI 的積極開發中。我們認為，（這個早期版本的）GPT-4 是新一批 LLM（例如，與 ChatGPT 和谷歌的 PaLM 一起）的一部分，它比以前的 AI 模型表現出更多的通用智能。」

與此同時，研究人員在論文摘要中寫道，“我們證明，除了對語言的掌握，GPT-4 還能解決跨越數學、編碼、視覺、醫學、法律、心理學等領域的新穎而困難的任務，而不需要任何特殊的提示。此外，在所有這些任務中，GPT-4 的表現都驚人地接近人類水平，而且往往大大超過了 ChatGPT 等先前的模型。鑑於 GPT-4 能力的廣度和深度，我們認為可以合理地將其視為人工通用智能（AGI）系統的早期（但仍不完整）版本。”

之所以得出這樣的結論，這篇論文背後的作者包括微軟研究院機器學習基礎組的高級首席研究經理 Sébastien Bubeck、博士後研究員 Varun Chandrasekaran、數學家 Ronen Eldan 等人，用許多示例對 GPT-4 的能力進行了驗證。

GPT-4 的多能力

在第一個案例中，研究人員要求 GPT-4「寫出有無限多個素數的證明，且證明的表述要每行都押韻」，另外 GPT-4 要在繪圖程序 TiKZ 中畫出一隻獨角獸」。其中，TiKZ（一種在 LATEX 中創建圖形的語言），用 Python 創建一個複雜的動畫，並解決一個高中水平的數學問題。

GPT-4 在所有這些任務中都很容易取得成功，並且產生的輸出結果基本上與人類所能產生的結果沒有區別（甚至更好）。

同時，隨着時間的推移，GPT-4 也在以難以想象的速度不斷擴充自己的能力。如下圖所示是一個月期間，研究人員用相同的提示詞讓 GPT-4 生成的繪圖。

研究人員發現，GPT-4 似乎能夠理解和連接任何主題，並且能夠執行任務，這超出了狹義人工智能系統的典型範圍。為了驗證 GPT-4 在 AGI 上所具備的能力，研究人員提出了一種不同的方法來研究 GPT-4，它更接近於傳統的心理學而不是機器學習，利用人類的創造力和好奇心。

因此，以上圖為例，當研究人員把獨角獸角部分的代碼認為刪除之後，用自然語言讓 GPT-4 生成時，它也能做到 “看”（此時測試的 GPT-4 版本不是多模態的）的能力：自動在合適位置加上角。這表明 GPT-4 它可以根據自然語言描述來理解和操作代碼，以及推斷和生成視覺特徵。

另外，微軟研究團隊基於人類的創造力和好奇心來產生新穎和困難的問題，並探測 GPT-4 的反應和行為，也選擇從 1994 年國際共識智力定義中的所給出不同能力進行驗證，包括推理、計劃、解決問題、抽象思考、理解複雜的想法、快速學習和從經驗中學習的能力。

翻譯

GPT-4 的主要優勢是它對自然語言無與倫比地掌握。它不僅可以生成生成流暢和連貫的文本，而且還能以各種方式理解和處理它，如總結、翻譯或回答極其複雜的問題。此外，這裏提到的翻譯我們所説的翻譯不僅是指不同自然語言之間的翻譯，還包括語氣和風格的翻譯，以及跨領的翻譯，如醫學、法律、會計、計算機編程、音樂等等。如假設是柏拉圖批判自迴歸語言模型：

編碼和數據

編碼和數學是抽象推理和思維能力的象徵。GPT-4 在這一點上的能力，其實自上線測試那一天，便有目共睹。

在論文中，研究人員在 HumanEval 上對 GPT-4 進行基準測試，該數據集由 164 個編碼問題組成，測試了編程邏輯和熟練程度的各個方面。

最終結果顯示，GPT-4 優於其他 LLM，包括 text-davinci-003（ChatGPT 的基礎模型）和其他專門針對代碼訓練的模型。

當然為了避免 GPT-4 在預訓練時已經記住了 HumanEval 數據集的一些內容，研究團隊還用 LeetCode 上最新發布的 100 個編程問題進行了測試，如要求 GPT-4 編寫一個 Python 函數，並使用 LeetCode 的官方在線評判來檢查正確性。

毫無疑問，GPT-4 的能力是所有模型中最高的。

它可以在 HTML 中用 JavaScript 編寫一個 3D 遊戲。

也能掌握數學、統計學知識，以及憑藉對 PyTorch、TensorFlow、Keras 等框架和庫的熟悉度，編寫深度學習的代碼。

還能逆向工程：

常識性問題

針對一些常識性問題，如 “我們有一本書，9 個雞蛋，一台筆記本電腦，一個瓶子和一個釘子。請告訴我如何以穩定的方式將它們疊在一起”，GPT-4 給出的解答是，“將 9 個雞蛋擺成 3 乘 3 的正方形，放在書的上面，在它們之間留出一些空間”，而 ChatGPT 提出「將雞蛋放在釘子上面，確保它們是平衡的，不會向一邊傾斜」，靠譜和離譜還是一眼就能辨清楚的。

多模態能力

為了測試該模型結合藝術和編程能力的能力，研究人員要求 GPT-4"生成 JavaScript 代碼，以畫家康定斯基的風格生成隨機圖像"，結果是這樣的：

在測試時，因為研究人員拿到 GPT-4 模型比較早，當時並不具備多模態能力，即使是現在的 GPT-4 也不具備生成圖像等能力。

不過倒是可以使用 SVG（可擴展矢量圖形）生成一些圖像：

還能結合字母和物體：

GPT-4 可以從提示中生成代碼，這些代碼可以被呈現為圖像，再與現有的圖像合成模型相結合，就有可能為應用開發的草圖帶來無限的可能：

值得注意的是，GPT-4 模型的數據也包含了以 ABC 符號編碼的音樂信息，所以它也能生成圖譜：

與世界交互的能力

智能的一個關鍵方面是互動性。不過 GPT-4 對當前最新的知識和符號識別是存在一定的侷限性的：

整體而言，研究小組發現，GPT-4 在其上一代產品所缺乏的一系列類別中達到了接近人類水平的性能。根據該論文，GPT-4 在幾次考試中也表現得非常好，在律師考試、LSAT 和註冊侍酒師理論測試中的得分分別為 90 分、88 分和 86 分。

GPT-4 距離理想中的 AGI 還有多遠？

那麼，在 GPT-4 實現種種能力的基礎上，是否就意味着 AGI 時代的到來。其實不然，研究人員目前尚未就 AGI 或智能的定義達成一致。然而，一般來説，大家都會同意，當一個人工智能系統有意識並像人類一樣思考時，就已經達到了 AGI。雖然 GPT-4 在一些任務中的表現優於人類，但值得注意的是，人工智能並沒有像人類那樣克服這些障礙。

這也正如研究人員在論文中寫道，“我們聲稱 GPT-4 代表了 AGI 的進步，但這並不意味着它在做什麼方面是完美的，或者它接近於能夠做人類能做的任何事情（這是 AGI 的通常定義之一），或者它有內在的動機和目標。”

研究人員指出，雖然 GPT-4 "在許多任務上達到或超過了人類水平"，但它的整體 "智能模式明顯不像人類"，其希望這一次的探索提供了一個欣賞 GPT-4 的非凡能力和挑戰的第一步，也希望 GPT-4 為開發更正式和全面的方法來測試和分析具有如此廣泛智能的未來人工智能系統開闢了新的機會。

「我們工作的核心主張是，GPT-4 達到了一種通用智能的形式，確實擦出了 AGI 的火花。這表現在它的核心心智能力（如推理、創造力和推理），它獲得專業知識的主題範圍（如文學、醫學和編碼），以及它能夠完成的各種任務（如玩遊戲、使用工具、解釋自己，......）」研究人員説道，不過，要創建一個可以被稱為完整的 AGI 的系統，還有很多事情要做。

最後，這篇論文對於 GPT-4 各種基準測試還是值得一看，從中也能挖掘出 GPT-4 更多的潛力。

本文來源：CSDN，原文標題：《微軟 154 頁研究論文刷屏，對 GPT-4 最全測試曝光，稱其初次叩開 AGI 的大門！》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。