
重磅內幕:OpenAI 即將開源新模型!開源社區的繁榮,全靠大廠 “施捨”?

OpenAI 再次開源,是科技大廠的 “施捨” 還是開源社區的 “救贖”?
就在剛剛,根據 The Information 的最新爆料,OpenAI 即將發佈一款全新的開源大語言模型。
雖然目前還不清楚,OpenAI 是不是打算利用即將開源的模型,來搶佔 Vicuna 或其他開源模型的市場份額。
但幾乎可以肯定的是,新模型的能力大概率無法與 GPT-4 甚至 GPT-3.5 相競爭。
畢竟,270 億美元的估值也決定了,OpenAI 最先進的模型將會被用於商業目的,儘管前兩個版本的 GPT 都是開源的。
對此,OpenAI 的發言人沒有回應置評請求。
羊駝家族開源大爆發
十天前,谷歌的一份內部文件泄漏。在這篇名為《我們沒有護城河,OpenAI 也沒有》的文章裏,作者沉痛控訴了開源對於谷歌和 OpenAI 的沉重打擊。
的確,在這次軍備競賽中,谷歌和 OpenAI 似乎都不是贏家,因為開源社區正在吃掉屬於它們的「利益」。
ChatGPT 一出,引爆了全球的 LLM 革命。然而,OpenAI 不 Open,很多公司和開發者只能看着乾着急。
此時,Meta 站出來發佈了 LLaMA,為全世界開發者謀了一把福利。
本來呢,Meta 承諾的是 LLaMA 會對非商用的研究用例開源,可是誰能想到,僅在發佈一週後,LLaMA 的權重忽然在 4chan 上泄漏了,瞬間就引發了數千次下載。
這場「史詩級泄漏」,直接讓開源 LLM 領域變了天。短短几周內,各種 ChatGPT 平替就以迅雷不及掩耳之勢呈爆炸式增長。
Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat……簡直堪稱是「羊駝家族」大爆炸。
其實,早在羊駝之前,開源模型就曾破滅過 OpenAI 的野心。
當時,剛剛發佈的 Dall-E 2 憑藉着驚豔的文生圖效果,在網上引起了不小的轟動。
然而,當 OpenAI 還在試圖兜售 API 時,一款開源替代突然橫空出世——Stable Diffusion。
隨着 Stable Diffusion 的迅速崛起,Dall-E 2 也很快就被開發者們拋在了腦後。
開源大模型,要顛覆硅谷大廠?
UC Berkeley 的計算機教授 Ion Stoica 正是使用 Meta 的研究開發 Vicuna 的學者之一。
為了提高 Vicuna 的能力,Stoica 和同事們正在努力增加模型中的計算數量,這將有助於處理涉及推理的任務,比如寫代碼。
開發 Vicuna 的是一個伯克利的團隊,每年的預算為數百萬美元,其中大約 50 萬美元來自包括微軟、谷歌和亞馬遜在內的上市公司。
UC Berkeley 的計算機教授 Ion Stoica 表示,現在的免費 AI 模型,在性能上已經「相當接近」谷歌和 OpenAI 的專有模型了,毫無疑問,大多數開發者最終都會選擇免費模型。
一方面,開源模型可以讓開發者使用自己的數據來解決特定的問題。
另一方面,像 Vicuna 這種模型的訓練成本甚至可以低至幾百美元,而且還不用向大廠支付昂貴的使用費。
https://lmsys.org/blog/2023-03-30-vicuna/
如果 Stoica 的看法正確,開源 AI 必將顛覆谷歌、OpenAI、微軟等出售專有模型使用權的大廠的商業計劃。
Vicuna 的質量和開源 AI 的寒武紀大爆發,讓谷歌工程師 Luke Sernau 警告同事,谷歌在努力追趕 OpenAI 時,太過關注專有軟件了。
如果免費、高質量的平替沒有使用限制,誰會去付費使用帶有條條框框的谷歌產品呢?開源 AI 的發展正在超越我們,谷歌應該在開源社區中建立自己的領導地位,並放棄對我們模型的部分控制。
這份備忘錄迅速在整個行業內引起了共鳴——即使 Sernau 或許高估了開源 AI 的能力,低估了它們的成本和風險,但大多數從業者都同意,Meta 非常有可能從中獲益。
比如,Meta 在內部會使用 AI 模型進行內容推薦和廣告定位,當開發者改進 Meta 的模型時,Meta 就可以把這些改進納入自己內部的 AI。
Meta CEO 小扎對此籌謀已久。
4 月,在他與分析師的一次電話會議中,他曾這樣談到公司的策略——
如果行業能夠在我們使用的基礎工具上達成標準化,那麼我們就能從其他人的改進中受益,這樣會更好。
谷歌倒是沒有完全採用專有的方式來處理 AI 軟件。
早在 2020 年,谷歌就發佈了一個開源語言模型 T5,讓開發者可以構建能夠執行翻譯和摘要任務的軟件。隨後,谷歌又發佈了一個更先進的 Flan-T5。
但是,根據 Stoica 和其他從業者的説法,Meta 發佈的軟件能夠在谷歌模型的基礎上做出顯著改進,這讓開發者選擇 Meta 模型的可能性大大增加了。
不過,Stoica 表示,谷歌在開源軟件方面仍有兩個優勢。
1. 如果谷歌利用其不向外部開放的用户數據,模型在某些專業領域(如內容推薦)的表現可能會更好。
不過,谷歌發言人表示,公司並沒有在現有用户數據上訓練其基礎模型。
2. 搜索公司在管理大規模計算機基礎設施方面的專長,意味着它能夠以更低的成本來運行模型,包括為雲客户提供服務。
與此同時,OpenAI 在收集數百萬人與 ChatGPT 互動方式的數據上,已經搶得了先機,這會更有助於 OpenAI 改進 AI 軟件,更不用提它和微軟的合作協議。
開源的繁榮,是大廠的「施捨」?
不過,這種建立在開源基礎上的繁榮,是不穩定的。
目前大多數的開源,仍然依賴於資金雄厚的大公司發佈的巨型模型。如果 OpenAI 和 Meta 決定關閉業務,繁榮的開源社區,可能就會變得蕭條。
比如,現在許多開源平替是基於 Meta 的 LLaMA 構建的。
而其他模型使用的是名為 Pile 的大型公共數據集,由開源非營利組織 EleutherAI 整理。
EleutherAI 之所以存在,是因為 OpenAI 的開放性意味着一羣開發者能夠逆向瞭解 GPT-3 是如何製作的,然後在空閒時間裏創建自己的模型。
但一切都可能改變。
OpenAI 已經不再 Open,Meta 也在考慮限制開源,防止初創公司利用開源代碼做壞事。
Meta AI 的執行董事 Joelle Pineau 表示,現在向外部人員開放代碼是正確,但他並不確定,在未來五年內 Meta 還會採用相同的策略。
如果這種 Close 的趨勢繼續下去,那麼不僅開源社區會被拋棄,下一代的 AI 突破也會重新回到那些最大、最不差錢的 AI 實驗室手中。
顯然,AI 大模型的製造和使用方式的未來,正處於一個十字路口。
如果 OpenAI 曾經吝嗇,就不會有如今的開源盛況
其他人也在權衡,這種開源的自由競爭帶來的回報更大,還是風險更大。
就在 Meta AI 發佈 LLaMA 的同時,Hugging Face 推出了一個門禁機制,下載平台上的模型之前,用户必須申請訪問並獲得批准,這是為了限制那些有合法理由的人。
「我並不是一個開源的佈道者,」Hugging Face 的首席倫理科學家 Margaret Mitchell 説。「我能看到不開源的意義。」
大模型廣泛使用的一個弊端,就是可能造成 AI色情產品的泛濫。
Mitchell 曾在谷歌工作,並創立了 AI 道德團隊,她對於模型被濫用的風險十分了解。因此,她贊成 Meta AI 以有控制的方式發佈模型。
同時,OpenAI 也在關閉水龍頭。GPT-4 發佈時,並沒有公佈架構(包括模型大小)、硬件、訓練計算、數據集構建、訓練方法等細節,理由是「鑑於像 GPT-4 這樣的大規模模型的競爭格局和安全影響」。
這種限制反應了 OpenAI 心態上的變化。聯合創始人兼首席科學家 Ilya Sutskever 表示,OpenAI 過去的開放性是一個錯誤。
OpenAI 的政策研究員 Sandhini Agarwal 説:「以前,如果某樣東西是開源的,也許一小羣修理工會關心。但現在,整個環境已經改變。開源真的可以加速發展,導致競爭。」
時間倒回三年前,如果 OpenAI 在公佈 GPT-3 的細節時,就秉持着同樣的原則,那就不會有 EleutherAI 的出現,也就不會有蓬勃的開源創新。
今天,EleutherAI 在開源生態系統中發揮着舉足輕重的作用。Pile 被用來訓練多個開源項目,包括 Stability AI 的 StableLM。
但隨着 GPT-4、5、6 被鎖死,開源社區可能會再次被落在幾家大公司後面。
他們會困在上一代模型中,如果想取得進步,只能閉門造車。
本文作者:Aeneas 好睏,本文來源:新智元,原文標題:《重磅內幕:OpenAI 即將開源新模型!開源社區的繁榮,全靠大廠「施捨」?》
