What is Open Source AI? The official definition is finally here Meta Llama model did not pass the test

華爾街見聞
2024.10.28 17:42
portai
I'm PortAI, I can summarize articles.

長期致力於定義和 “管理” 所有開源事務的開放源代碼倡議(OSI),週一發佈了其開源 AI 定義(OSAID)1.0 版。根據 OSAID,AI 模型若要被視為開源,必須提供足夠的信息,使任何人都可以 “實質性地” 重建該模型。模型還必須披露與其訓練數據相關的任何重要細節,包括數據的來源、處理方式以及獲取或許可的方式。然而,Meta 並不認可這一定義,認為不存在單一的開源 AI 定義。

開源 AI 終於有了 “官方” 定義。

長期致力於定義和 “管理” 所有開源事務的開放源代碼倡議(OSI),週一發佈了其開源 AI 定義(OSAID)1.0 版。根據 OSAID,AI 模型若要被視為開源,必須提供足夠的信息,使任何人都可以 “實質性地” 重建該模型。模型還必須披露與其訓練數據相關的任何重要細節,包括數據的來源、處理方式以及獲取或許可的方式。

OSAID 還列出了開發者使用開源 AI 時應享有的使用權,例如可以為任何目的使用和修改模型,而無需獲得他人許可。

OSI 執行副總裁 Stefano Maffulli 表示,制定開源 AI 官方定義主要目的是,讓政策制定者和 AI 開發者達成一致。

“監管機構已經在關注這一領域。我們明確向各方利益相關者和社區進行了推廣,甚至還試圖聯繫那些經常與監管機構交流的組織,來獲取早期反饋。”

“開源 AI 是一種允許你完全理解其構建方式的 AI 模型,這意味着你可以訪問所有組件,比如用於訓練和數據過濾的完整代碼。最重要的是,你應該能夠在其基礎上構建。”

OSI 並不強制施壓開發者遵守 OSAID 定義,但打算對那些不符合該定義卻被描述為 “開源” 的模型進行標記。“我們希望當有人試圖濫用這個術語時,AI 社區會説,‘我們不承認這是開源’,並加以糾正。” Maffulli 説道。

Meta:我反對

目前,許多初創企業和大型科技公司,尤其是 Meta,稱其 AI 模型發佈策略為 “開源”,但很少符合 OSAID 的標準。研究人員發現,許多 “開源” 模型實際上只是名義上開源,但實際訓練模型所需的數據是保密的,而且運行這些模型所需要的計算能力超出了許多開發者的能力範圍。

例如,Meta 要求月活躍用户超過 7 億的平台獲得特殊許可才能使用其 Llama 模型。Maffulli 公開批評 Meta 將其模型稱為 “開源” 的做法。而谷歌和微軟在與 OSI 討論後,已經同意不再將不完全開放的模型稱為 “開源”,但 Meta 並未這麼做。

此外,長期宣傳其模型為 “開源” 的 Stability AI 要求年收入超過 100 萬美元的企業獲得企業許可,而法國 AI 新創公司 Mistral 的許可證則禁止將某些模型和輸出用於商業用途。

Meta 自然不認同這一評估。儘管該公司參與了定義的起草過程,但對 OSAID 的措辭表示異議。Meta 發言人稱,Llama 的許可條款和隨附的可接受使用政策對有害應用提供了防護。Meta 還表示,在加州 AI 相關法規正在演變之際,該公司對共享模型細節的做法是 “謹慎的”。

“我們在許多方面與 OSI 的夥伴立場一致,但我們以及業內其他公司都不同意他們的新定義,我們認為沒有單一的開源 AI 定義,因為過去的開源定義無法涵蓋當今迅速發展的 AI 模型的複雜性。我們讓 Llama 免費公開使用,並通過許可和使用政策來確保安全。無論技術定義如何,我們將繼續與 OSI 和其他行業團體合作,增加免費 AI 使用的便利程度。”

分析認為,Meta 不願公開訓練數據,很可能與其自身及大多數 AI 模型的開發方式有關。

AI 公司從社交媒體和網站上收集大量圖像、音頻和視頻等數據,並以這些 “公開可用數據” 訓練模型。在如今競爭激烈的市場中,數據集的收集和優化方法被視為競爭優勢,公司常以此為由拒絕披露。

但訓練數據的細節也可能讓開發者面臨法律風險。作者和出版商聲稱,Meta 使用了受版權保護的書籍進行訓練。藝術家們也對 Stability AI 提起訴訟,指控其使用其作品而未給予認可,將其行為比作盜竊。

因此,OSAID 的開源 AI 定義,可能會給那些試圖順利解決訴訟的公司帶來問題,特別是如果原告和法官認為該定義足夠合理而在法庭上引用。