
谷歌稱其 AI 超級計算機比 Nvidia A100 芯片系統更快、更環保

路透 4 月 4 日 - Alphabet 旗下谷歌週二公佈其用於訓練人工智能模型的超級計算機的新細節,稱這些系統比 Nvidia(輝達/英偉達) 的同類系統更快更省電。
路透 4 月 4 日 - Alphabet (GOOGL.O) 旗下谷歌週二公佈其用於訓練人工智能模型的超級計算機的新細節,稱這些系統比 Nvidia(輝達/英偉達) (NVDA.O) 的同類系統更快更省電。
谷歌已經設計自家芯片,名為 Tensor Processing Unit(TPU)。該公司 90% 以上的人工智能培訓工作都使用這些芯片,即通過模型輸入數據,使其在用類似人類的文字回覆查詢或生成圖像等任務中發揮作用。
谷歌的 TPU 現在已經是第四代了。谷歌週二發表一篇科學論文,詳細介紹其如何利用自家定製開發的光學交換器將 4,000 多個芯片串聯成一台超級計算機,以幫助連接各個機器。
改善這些連接已經成為建造人工智能超級計算機的公司之間競爭的一個關鍵點,因谷歌的 Bard 或 OpenAI 的 ChatGPT 等大型語言模型的技術規模已經爆炸性增長,意味着它們大到無法無法存儲在單個芯片上。
這些模型的運算必須被分攤到數以千計的芯片中,然後這些芯片必須一起工作數週或更長時間來訓練模型。谷歌的 PaLM 是迄今為止其公開披露的最大的語言模型,該模型訓練工作是分攤到兩台搭載 4,000 個芯片的超級計算機上進行,歷時 50 天。
谷歌表示,其超級計算機可以很容易地在運行的同時重新配置芯片之間的連接,可幫助避免問題,並可進行調整以提高性能。
谷歌研究員 Norm Jouppi 和谷歌傑出工程師 David Patterson 在一篇關於該系統的博文中寫道:“電路切換使我們很容易繞過故障的組件…這種靈活性甚至允許我們改變超級計算機互連的拓撲結構,以加速機器學習模型的性能。”
雖然谷歌現在才公佈其超級計算機的細節,但其已從 2020 年起就在該公司位於奧克拉荷馬州 Mayes 的一個數據中心上線。谷歌表示,初創公司 Midjourney 使用該系統來訓練其模型,該系統在輸入幾句話的文本後會生成新的圖像。
谷歌在論文中説,對於同等規模的系統,其芯片比基於 Nvidia A100 芯片的系統快 1.7 倍,省電 1.9 倍;第四代 TPU 問世時,同時在市場上的產品為 A100。
Nvidia 的一位發言人不予置評。
谷歌表示,沒有將其第四代產品與 Nvidia 目前的旗艦產品 H100 芯片進行比較,因為 H100 是在谷歌的芯片之後上市的,而且是用更新的技術製造的。
谷歌暗示可能正在開發一種新的 TPU,與 Nvidia H100 競爭,但沒有提供細節,Jouppi 告訴路透,谷歌的 “未來芯片有着穩健的規劃”。(完)
*如欲參考原文報導,請點選 即可擷取瀏覽*
(編審 張明鈞)
