
OpenAI 自研芯片,有何獨特之處?

八卡服務器的成本控制在 10 萬美元之下或非遙不可及。
近日,路透社報道稱 OpenAI 正在考慮自研芯片。根據報道,自從去年開始,OpenAI 已經開始在為人工智能模型訓練芯片缺貨(即 Nvidia GPU 供貨緊張)的問題開始考慮對策,而目前正在積極準備自研芯片以滿足未來對於人工智能芯片的需求。
事實上,不久之前 OpenAI 的 CEO Sam Altman 曾公開表示 Nvidia GPU 缺貨對於 OpenAI 以及整個人工智能行業都存在着很大的影響。另外,從今年開始 OpenAI 開始招募硬件相關的人才,官方網站上有數個軟硬件協同設計的職位在招聘,同時在今年九月 OpenAI 還招募了人工智能編譯器領域的著名牛人 Andrew Tulloch 加入,這似乎也在印證 OpenAI 自研芯片方面的投入。OpenAI 官方對此事拒絕發表評論,但是如果這件事最後落地的話,OpenAI 將會是繼谷歌、亞馬遜、微軟、特斯拉等之後有一個加入自研芯片行列的硅谷科技巨頭。

OpenAI 為什麼要自研芯片
如前所述,OpenAI 自研芯片的主要動力是因為 GPU 缺貨。更具體地説,是因為無論是購買 Nvidia 的 GPU,還是使用基於 GPU 的雲服務,價格都太貴,尤其是考慮到 OpenAI 未來模型訓練需要的算力可能還會指數級提升。
OpenAI 從數年前開始就佈局生成式人工智能,而在去年的 GPT-3 以及去年下半年的 ChatGPT 公佈後,由於這些生成式大語言模型的能力在過去數年內得到了大幅提升並且到達了可以和人類實現有意義的對話的地步,OpenAI 一舉成為了人工智能領域的領頭羊,而生成式人工智能也成為了預計未來幾年內對於人類社會影響最大的技術。根據路透社的報道,OpenAI 去年錄得收入 2800 萬美元,而總體虧損為 5.4 億美元;而 OpenAI 巨大的虧損背後,主要原因就是由於算力開銷。值得注意的是,5.4 億美元的損失還是在生成式人工智能火爆前夕的 2022 年;在未來算力開銷可望會指數級提升,這主要由於:
大模型競爭更激烈,模型進化速度變快,需要的算力快速提升:除了 OpenAI 之外,谷歌等科技巨頭也在力推自己的大模型,這使得大模型的進化速度顯著變快,未來預計一個季度到半年就要更新一代,而最尖端模型需要的算力估計每年都會上升一個數量級
大模型應用場景變得更廣:目前,微軟和谷歌已經在搜索和代碼編寫領域開始使用大模型,預計在未來會有更多的大模型應用場景,包括自動任務處理、多模態問答等等,而這些會讓不同的模型數量大大提升,同時也大大提升了模型部署需要的總算力。
根據美國金融公司 Bernstein 的分析,如果 ChatGPT 的訪問量達到谷歌搜索十分之一的水平(而這也是 OpenAI 未來的重要目標之一),那麼每年 OpenAI 的 GPU 開銷將達到 160 億美元。而這樣的開銷,可能是未來 OpenAI 進一步規模化的一個重要瓶頸。
那麼,OpenAI 如果要自研芯片,那麼將能把成本節省多少呢?目前,一台使用八卡 Nvidia H100 GPU 的服務器採購成本約為 30 萬美元,加上雲服務商的溢價使用這台服務器三年的總成本為 100 萬美元左右(這是 AWS 的官方報價,其他雲服務商提供的價格應該在同一數量級);如果 OpenAI 能用自研芯片把這樣的八卡服務器的成本降低到 10 萬美元以下,將會大大降低其成本。另一方面,如果自研芯片成功的話,在大規模部署的情況下單張加速卡的成本控制在 1 萬美元以下應該很有希望,也即八卡服務器的成本控制在 10 萬美元之下並非遙不可及。
OpenAI 自研芯片,有何獨特之處
目前,自研芯片的科技公司已經有不少,那麼 OpenAI 如果自研芯片會和谷歌、亞馬遜等科技公司的自研芯片有什麼不同呢?
首先,OpenAI 的自研芯片純粹是為了自己的模型訓練使用,這一點和谷歌、亞馬遜等自研芯片並且目標放在雲端服務器上供客户使用的商業模型不一樣。對於谷歌、亞馬遜等自研芯片供雲服務客户使用的場合來説,由於用户使用模型的場景並不明確,使用的軟件棧不確定、具體訓練的模型也不確定,因此需要在芯片設計上滿足兼容性的需求,而這樣兼容性的考慮往往會以犧牲每個訓練任務的效率和性能為代價。相反,OpenAI 自研芯片只是為了自己使用,而且訓練的模型非常明確:就是以 Transformer 為基本組件的大語言模型,而且使用的軟件棧也完全控制在自己手裏,因此可以確保設計有非常高的針對性。
第二點不同在於 OpenAI 對於模型有非常深入的理解。OpenAI 在生成模型領域是領軍企業,目前 GPT 系列模型仍然是大語言生成式模型中性能最好的模型,而且 OpenAI 在生成式模型領域有着多年積累,因此 OpenAI 對於目前生成式模型的各種設計方案有着深入的理解,這意味着 OpenAI 有足夠的能力和積累做芯片 - 模型協同設計,能夠根據芯片的特性去設計相應的模型,同時也可以根據模型的需求去明確芯片的設計指標,包括如何在計算單元、存儲和芯片間互聯之中做最優化的折衷等。最關鍵的是,OpenAI 對於未來幾年的生成式大模型的路線圖有着行業中最明確的規劃,這意味着即使自研芯片需要數年的時間,也不用過於擔心芯片真正量產後已經無法趕上模型更新的局面。從這個角度來説,OpenAI 的自研芯片和谷歌以及亞馬遜都有很不一樣的地方,但是和特斯拉的 Dojo 系列自研模型訓練芯片卻有相似之處;而和特斯拉又不一樣的是,OpenAI 對於模型訓練的需求顯然會遠高於特斯拉,而這樣的自研芯片的重要程度對於 OpenAI 來説也會更高。

這些 OpenAI 的獨特之處,讓它有機會能實現使用非常規專用設計完成的高性能芯片。最近,Nvidia 在官方博客中對於其 GPU 的性能提升規律做了分析:Nvidia 的 GPU 算力在不到十年提升了 1000 倍,根據分析在 1000 倍算力提升中,計算精度的優化(即使用 16 位甚至 8 位浮點數來取代原本的 32 位浮點數計算)並且搭配專用的計算模塊實現了 16 倍的性能提升,而芯片架構領域和編譯器的協同優化又提供了 12.5 倍的性能提升,而另一方面半導體工藝帶來的性能提升僅僅只有兩倍。由此可見,在高性能計算芯片領域,算法和芯片架構協同設計(包括模型算法和編譯器算法)才是主要的性能提升動力(也即 Huang‘s Law),而從這一角度來説,OpenAI 確實處於一個非常有利的地位,憑藉着其對於算法的深刻理解,OpenAI 可望可以充分利用 Huang’s Law,從而在未來幾年內實現高性能計算芯片的設計。
OpenAI 自研芯片的挑戰
OpenAI 自研芯片除了有自己的優勢之外,當然也有挑戰。
OpenAI 自研芯片的目標明確,就是用於大模型的高算力芯片。高算力芯片的首要挑戰就是其複雜度,從芯片設計角度,高性能計算芯片中的計算單元、存儲訪問以及芯片間的互聯都是需要仔細考慮。例如,為了能滿足大模型的需求,芯片大概率會使用 HBM 內存;為了實現芯片的高能效比和規模化,預計會在先進工藝上搭配芯片粒等技術實現高良率;大模型通常會使用分佈式計算,因此芯片間的互聯就顯得至關重要(Nvidia 的 NVLINK 和 InfiniBand 技術對於 GPU 來説非常重要,OpenAI 也需要類似的技術)。這些芯片設計組件每一個都需要有相當經驗的團隊來實現,而把這些組件集成在一起也需要非常優秀的架構設計來確保整體性能。OpenAI 如何在短時間內組建一個有經驗的團隊來做這些具有挑戰性的設計將是一個重要的挑戰。
除了芯片設計之外,如何確保軟件和硬件協同工作,或者換句話説如何設計一個高性能的編譯器以及相關軟件生態是 OpenAI 的另一大挑戰。目前,Nvidia GPU 的一個重要優勢就是因為其 CUDA 軟件系統,經過十多年的積累後已經有很高的性能以及兼容性。OpenAI 的自研芯片中,編譯器系統也需要實現 CUDA 這樣的高性能才能完全利用芯片的算力。與其他針對雲服務的科技公司自研芯片不同,OpenAI 的芯片主要是供自己使用,因此無需太擔心生態和對於用户模型支持度的問題,但是在編譯性能上也需要達到和 Nvidia 的 CUDA 接近才行。事實上 OpenAI 在這個領域從早些時候已經開始有投入;今年七月 OpenAI 公佈了自己的基於開源 Triton 語言的人工智能模型編譯方案,可以把 Python 代碼通過編譯為使用開源 Triton 語言的中間代碼(intermediate representation,IR),然後再使用 Triton 編譯器和 LLVM 編譯器編譯到 PTX 代碼,從而可以直接在支持 PTX 的 GPU 以及人工智能加速器上運行。從這個角度看,OpenAI 對於編譯器的投入或許就是其自研芯片的先聲。

最後,芯片的具體生產也會是一個挑戰。如前所述,OpenAI 大概率會使用先進工藝節點和高級封裝技術來實現,因此如何確保生產的良率,以及更重要的是,如何在高級封裝和先進工藝節點產能仍然有可能緊張的幾年內獲得足夠的產能以量產,也是一個需要解決的問題。
考慮到這三個挑戰,我們認為,OpenAI 目前自研芯片的計劃可能會是多步走。首先,在技術團隊和生產問題沒有完全解決前,OpenAI 可以選擇和微軟(其最大股東,同時也有自研芯片計劃 Athena)以及 Nvidia(或者 AMD)合作,選擇半定製化芯片,例如 OpenAI 提供芯片需要支持的一些指標,甚至提供一些 IP,而可以和這些合作方一起把芯片設計和生產出來。而在技術團隊和生產問題解決後,OpenAI 可以選擇大力投入自研的全定製芯片,從而完成最佳的性能和可控性。
文章來源:李飛 半導體行業觀察 原文標題:《OpenAI 自研芯片,有何獨特之處?》
