
OpenAI:20% 算力投入,四年內控制超級智能

為了控制、引導超級智能對齊問題,OpenAI 組建了一支人工智能對齊團隊 Superalignment。同時該團隊也是對 OpenAI 現有工作的補充,可提升 ChatGPT 等產品的安全性,在 4 年內解決超級智能對齊問題。
7 月 6 日, OpenAI 在官網宣佈,將組建一支由 Ilya Sutskever(OpenAI 聯合創始人兼首席科學家)和 Jan Leike 領導的人工智能對齊團隊,用來引導、控制超級智能,同時提升 ChatGPT 等產品的安全性。
OpenAI 表示,4 年之內將解決這些難題,並將目前 20% 的算力用於該項目。

超級智能將是人類發明的最具影響力的技術之一,可以幫助我們解決世界上許多難題。但超級智能的巨大力量也可能非常危險,並導致人類失去控制權,甚至滅絕人類。雖然超級智能還很遙遠,但 OpenAI 認為,10 年之內就很有可能實現。
目前,OpenAI 還沒有一個明確的解決方案來引導或控制超級人工智能。當下可控制的人工智能技術,例如,根據人類反饋進行強化學習,依賴於人類監督的 AI 能力等。
但人類無法可靠地監督,比我們聰明多的 AI 系統, 因此,我們目前的對齊技術無法擴展到超級智能,需要新的科學技術突破。
4 年內解決超級智能對齊問題
為了控制、引導超級智能對齊問題,OpenAI 組建了一支由 Ilya Sutskever(OpenAI 聯合創始人兼首席科學家)和 Jan Leike 領導的人工智能對齊團隊——Superalignment。
超級智能對齊從根本上來説是一個機器學習問題,所以,OpenAI 尋求全球優秀的機器學習人才加入這個團隊共同實現這一偉大目標。
同時該團隊也是對 OpenAI 現有工作的補充,可提升 ChatGPT 等產品的安全性,包括非法濫用、經濟破壞、虛假信息、偏見和歧視、數據隱私和其他可能出現的問題。
OpenAI 的方法
建立一個大致達到人類水平的自動對齊系統。然後,可以使用大量算力來擴展工作,並調整超級智能。
1、開發可擴展的訓練方法:為了針對人類難以評估的任務提供訓練方法,可以通過人工智能系統來協助評估,其他人工智能系統 (可擴展的監督)。此外,OpenAI 希望瞭解和控制其模型,將監督應用到無法監督的任務(泛化)上。
2、驗證生成的模型:為了驗證系統的一致性,OpenAI 將自動搜索有問題的行為 (穩定性)和有問題的內部結構(自動可解釋性)。
3、對整個對齊管道進行壓力測試:可以通過故意訓練未對準的模型,來測試整個安全流程,並確認技術檢測到最差的未對準類型(對抗性測試)。
OpenAI 預計,隨着對超級智能對齊瞭解越來越多,研究重點將會發生重大變化,可能會增加全新的研究領域。未來,會分享更多有關技術研究路線圖的信息。
關於 AI 對齊
AI 對齊是指,使人工智能系統的目標和行為,與人類價值觀和目標保持一致。這是 AI 安全和倫理中的一個重要環節。
AI 對齊問題涉及到如何設計和實施人工智能系統,以便它們執行的任務或做出的決策能夠反映出設計者或用户的意圖和價值觀。這個問題在高級 AI(例如,通用人工智能或超級人工智能)中更為重要。
因為這些 AI 可能具有極大的自主性和能力,如果它們的目標與人類的目標不一致,可能會帶來嚴重的後果。
解決 AI 對齊問題需要在倫理、決策理論、機器學習等多個領域進行深入的研究。例如,需要研究如何在沒有明確指示的情況下,讓 AI 推斷出人類的價值觀,以及如何設計可以安全地學習和改進其行為的 AI 系統。
本文來源:AIGC 開放社區,原文標題:《OpenAI:4 年內控制超級智能,提升 ChatGPT 等安全》
