
坚持不用 GPU!Meta 又要 All in 自研 AI 芯片?

因為一系列的決策失誤,Meta 已經在 AI 領域大幅落後於硅谷同行,如今要自研 AI 芯片,Meta 能走多遠?
就在整個硅谷都在以自家公司拿到多少塊英偉達的 AI 芯片(A100 GPU)為傲時,有這麼一家倔強的公司,堅持不用英偉達的 GPU,決定自研 AI 芯片。
這家公司就是 Facebook 的母公司 Meta。
5 月 18 日本週四,Meta 披露了旗下數據中心項目支持 AI 工作的細節,提到已經打造一款定製芯片,簡稱 MTIA,用於加快生成式 AI 模型的訓練。這是 Meta 首次推出 AI 定製芯片。Meta 稱,MTIA 是加快 AI 訓練和推理工作負載的芯片 “家族” 的一分子。
MTIA 全稱為 Meta 訓練和推理加速器。MTIA 是一種 ASIC,也就是將不同電路集成在一塊板上的芯片,可以將它進行編程,執行一項或多項任務。看起來和 GPU 的功能類似,對不對?
和現在全球都在搶着用的英偉達 A100 GPU 相比,Meta 自稱這款芯片也有優勢。Meta 稱,MTIA 採用開源芯片架構 RISC-V,它的功耗僅有 25 瓦,遠低於英偉達等主流芯片廠商的產品功耗。
而且,為了凸顯自己在 AI 領域早有佈局,Meta 稱,第一代 MTIA 芯片在 2020 年就已經設計完成,採用的是 7 納米工藝。Meta 説,打造第一代 MTIA 芯片的目的是提高內容推薦模型的效率,以便更精準地為用户推薦廣告等內容。此外,第一代 MTIA 可以將內部 128MB 的內存擴展到高達 128GB。在 Meta 設計的基準測試中,它處理了低等和中等複雜度的 AI 模型,效率高於 GPU。
對於投資者關於 Meta 為什麼不直接採用 GPU 的質疑,Meta 的軟件工程師 Joel Cohurn 特別介紹稱,Meta 並非不是沒有嘗試過 GPU,而是在最初使用 GPU 執行推理任務時,發現 GPU 不太適合這種工作。用 GPU 固然可以大幅優化軟件,但對真實模型的效率很低,現實配置時難度大、成本高。所以 Meta 認為,靠人不如靠己,需要搞個 MTIA。
不過,Meta 也承認,儘管在處理中低複雜程度模型時效率更高,但 MTIA 芯片在處理高複雜度 AI 模型時卻問題多多。
Meta 間接承認,要想讓 MTIA 達到英偉達 A100 的水平,尚有差距。Meta 表示,這款芯片在內存和網絡領域的工作還未完成,隨着 AI 模型發展,這些工作會出現瓶頸。目前,MTIA 的重點放在 Meta 應用家族的推理方面,而不是訓練。不過 Meta 強調,MTIA“大大” 提高了單位瓦特的推薦負載運行效率,讓公司能運行加強版的、更尖端的 AI 工作負載。
Meta 本週四並未披露配置新芯片的時間表,也未説明具體有什麼計劃開發可能訓練模型的芯片。
Meta 在 AI 領域已經落後同行
去年底 ChatGPT 大火之後,AI 成為全球科技界最熱門的話題。AI 芯片的主流製造商英偉達賺得盆滿缽滿,一度被視為已經落伍的微軟藉着投資 OpenAI 成功逆襲,向來宣稱在 AI 領域投資諸多的谷歌倉促發布 Bard 應戰,以及一眾互聯網大廠面對英偉達的 “霸權” 紛紛宣佈要自研 AI 芯片……
這中間,獨獨沒有 Meta 的蹤影。
上個月,有媒體爆出一個大瓜,Meta 如今居然還在用 CPU 來跑 AI!
這不僅僅是因為英偉達的 A100 定價頗高,更是因為 Meta 之前 All in 元宇宙留下的後遺症。扎克伯格決定把全部身家賭在元宇宙上這一戰略,直接榨乾了 Meta 的算力。不管是 AI 的部署,還是對競爭對手威脅的應對上,Meta 的潛力都遭到了極大的削弱。
更不要説去年以來,Meta 連續不斷的裁員,讓整個公司人心惶惶,絲毫沒有戰鬥力應對突如其來的 AI 大潮。
這些失誤,引起了前 Meta 董事會成員 Peter Thiel 的注意,隨後,他於 2022 年初辭職。據內部人士透露,在離開前的一次董事會會議上,Thiel 告訴扎克伯格和其他高管們,他們對 Meta 的社交媒體業務太自滿,並且過分關注元宇宙了,這讓公司很容易被競爭對手撼動。
在去年夏末,扎克伯格曾召集高管們,花了五個小時,對 Meta 的計算能力進行分析。他們需要知道,在開發尖端的 AI 方面,Meta 有多大的能力?
出來的結果,讓所有人倒吸一口涼氣。
根據去年 9 月 20 日的公司備忘錄顯示,儘管 Meta 對 AI 研究進行了大筆高調的投資,然而主要業務需要的 AI 友好型硬件和軟件系統都非常昂貴,在這些方面公司的進展相當緩慢。緩慢到,已經阻礙了 Meta 跟上大規模創新的步伐。
哪怕是 Meta All in 的元宇宙,要想維持增長,也必須越來越多地依靠 AI。
Meta 基礎設施負責人 Santosh Janardhan 強調,無論是開發 AI 的工具,還是工作流程,Meta 都已經遠遠落後於其他對手。
要想追上英偉達有多難?
想要搞 AI 自研芯片的科技大廠不止 Meta 一家,但是想要做到英偉達這麼成功、達到與之比肩的地位,還有很多路要走。
目前 AI 領域最常見的芯片是英偉達的 A100。根據 New Street Research 的數據,英偉達佔據了可用於機器學習的圖形處理器市場的 95%。
A100 非常適合支持 ChatGPT、Bing AI 或 Stable Diffusion 等工具的機器學習模型,它能夠同時執行許多簡單的計算,這對於訓練和使用神經網絡模型非常重要。
A100 背後的技術最初用於在遊戲中渲染複雜的 3D 圖形,它通常被稱為圖形處理器(GPU),但如今 A100 配置和目標是機器學習任務,並在數據中心運行,而不是在個人電腦中運行。
市場對 A100 的需求可謂巨大。對 AI 公司來説,一塊 A100 是難以支撐起他們的 AI 夢想的。許多數據中心使用一個包含八個 A100 的協同工作系統。該系統是英偉達的 DGX A100,建議售價接近 20 萬美元。
New Street Research 的一項估計認為,Bing 搜索和 ChatGPT 的模型可能需要 8 個 A100 GPU 才能在不到一秒的時間內響應用户問題。這意味着,微軟將需要超過 2 萬個 DGX 系統,這意味着微軟在 AI 基礎設施建設上的支出就可能高達 40 億美元的基礎設施支出。如果谷歌想實現同樣的 AI 轉型,那麼將在 DGX 上花費 800 億美元。
更讓硅谷其他公司不敢有所懈怠的是,英偉達並不因為 A100 的巨大成功而自滿。
當前,英偉達已經開始開始量產下一代 AI 芯片 H100。A100 在 2020 年推出,H100 則在 2022 年開始量產,當然,價格也高於 A100。英偉達表示,H100 是其第一款針對變壓器進行優化的數據中心 GPU,這是許多最新和頂級人工智能應用程序使用的一項越來越重要的技術。
面對當前英偉達在 AI 芯片領域一家獨大的局面,當前在自研 AI 芯片領域步子邁得最大的是微軟。
本月早些時候,微軟正在提供財務支持以加強 AMD 研發 AI 芯片的努力,並與之合作開發代號為 Athena 的自研 AI 芯片,這是微軟在自研 AI 芯片方面多管齊下、多重下注的一部分。
有分析認為,此舉反映了微軟對芯片行業的介入持續深化。在過去幾年裏,該公司一直在英特爾前高管 Rani Borkar 的領導下建立一個芯片部門,該部門目前擁有近 1000 名員工。據其中一位知情人士稱,其中數百名員工正在從事 Athena 項目,微軟已在該項目上投入了約 20 億美元。
但這並不預示着微軟和英偉達的分裂。微軟打算與英偉達保持密切合作,該公司的芯片是訓練和運行 AI 系統的主力軍。微軟還試圖獲得更多英偉達芯片,這進一步凸顯了微軟和其他公司面臨的 AI 芯片的緊迫短缺。
4 月中旬,據媒體援引兩位知情人士的話説,微軟早在 2019 年就開始開發內部代號為 Athena 的 AI 芯片。其中一位知情人士稱,一些微軟和 OpenAI 的員工已經開始測試並使用這些芯片。微軟希望該芯片的性能優於目前從其他供應商處購買的芯片,從而節省其在昂貴的 AI 業務上的時間和成本。
如此看來,Meta 想要趕上英偉達,甚至趕上其他硅谷同行的步伐,還有很長的路要走。
