一個大模型訓練成本要上億美元,為何開發 AI 如此燒錢?

華爾街見聞
2024.05.06 13:41
portai
I'm PortAI, I can summarize articles.

AI 的成本上升主要源於兩個因素:模型規模擴大和數據中心建設,這導致了開發成本的攀升。微軟、谷歌和 Meta 等科技巨頭已經投入了數十億美元用於人工智能的研發,並計劃繼續加大投資力度。人工智能的成本上升讓投資者感到意外,但在科技行業內,這一預期一直存在。全球對人工智能服務的需求不斷增長,需要建設更多的數據中心來支持這一需求。

據國外媒體報道,在生成式人工智能熱潮持續近 18 個月後,一些科技巨頭正在逐步證實,人工智能確實具備成為真正的收入驅動因素的潛力。然而,這一進程也伴隨着巨大的資金投入。

微軟和谷歌母公司 Alphabet 最新公佈的季度財報均顯示,由於企業客户在人工智能服務上的投入增加,其雲計算業務實現了顯著的收入增長。儘管 Meta 在將人工智能技術轉化為收益方面稍顯滯後,但它表示,其相關努力對提高用户參與度和廣告定位有積極影響。

為了獲取這些早期收益,這三家科技巨頭已經投入了數十億美元用於人工智能的研發,並計劃繼續加大投資力度。

微軟在 4 月 25 日宣佈,最近一個季度資本支出高達 140 億美元,並預計這些成本還將 “大幅增加”,部分原因即是對人工智能基礎設施的投資。這一數字比去年同期增長了 79%。

Alphabet 表示,該公司上個季度的資本支出為 120 億美元,同比增長 91%,並預計今年剩餘時間的支出將 “達到或超過” 這一水平,因為該公司正專注於人工智能帶來的機會。

與此同時,Meta 也提高了今年的投資預期,現在預計資本支出將在 350 億至 400 億美元之間。若以該區間的上限計算,將同比增長 42%。Meta 還特別指出,其在人工智能研究和產品開發方面進行了積極投資。

人工智能成本上升讓許多投資者感到意外。尤其是 Meta 的股價,在支出預測增加和銷售增長低於預期的雙重打擊下大幅下跌。但在科技行業內,人工智能成本上升的預期一直存在。這主要源於兩個關鍵因素:人工智能模型規模的不斷擴大,導致開發成本日益攀升;同時,全球對人工智能服務的需求不斷增長,需要建設更多的數據中心來支持這一需求。

正在試驗這些人工智能服務的企業可以選擇支付定製費用給 OpenAI 或谷歌等公司。然而,一旦這些系統啓動並運行,每次用户使用聊天機器人或要求人工智能服務分析銷售數據時,都會增加額外的成本。但更為昂貴的工作是為這些人工智能系統建立堅實的基礎設施。這些努力正是這些科技巨頭當前和未來投資的重點。

大語言模型變得越來越大

如今,備受矚目的人工智能產品,如 OpenAI 的 ChatGPT,其核心驅動均源自大語言模型。這些系統通過攝入海量的數據,涵蓋書籍、文章以及在線評論等,旨在為用户提供最精準的查詢回應。許多業界領先的人工智能公司堅信,通往更高級別人工智能(甚至可能是在多個任務上超越人類的人工智能系統)的必經之路,就是不斷擴大這些大語言模型的規模。

為此,需要持續獲取更多的數據、更為強大的算力支持,以及對人工智能系統進行更長時間的訓練。在 4 月初的一次播客採訪中,OpenAI 的競爭對手 Anthropic 的首席執行官達里奧·阿莫代伊(Dario Amodei)指出,當前市場上人工智能模型的培訓成本已高達約 1 億美元。

他進一步表示:“目前正在訓練的模型,以及預計在今年晚些時候或明年年初不同時間推出的模型,其成本已接近 10 億美元。而在我看來,到了 2025 年和 2026 年,這一成本將飆升至 50 億或 100 億美元。”

芯片和計算成本激增

在開發人工智能技術的過程中,芯片成本佔據了很大比重。這些芯片並非傳統意義上讓英特爾聲名遠揚的中央處理器(CPU),也非驅動數十億智能手機的小型化移動芯片。為了滿足大語言模型的訓練需求,人工智能公司高度依賴圖形處理單元(GPU),它們以驚人的速度處理着龐大的數據集。然而,這些芯片不僅面臨供應短缺的困境,其價格更是高昂至極,最尖端的芯片主要由英偉達製造。

英偉達的 H100 圖形芯片,作為訓練人工智能模型的黃金標準,其預估售價高達 3 萬美元,但市場上一些經銷商的報價更是成倍增長。大型科技公司對這類芯片的需求巨大。此前,Meta 的首席執行官馬克·扎克伯格(Mark Zuckerberg)曾公開表示,該公司計劃在年底前採購 35 萬枚 H100 芯片,以支持其人工智能研究工作的推進。即便考慮到大宗購買的優惠,這也將是一筆龐大的開支,數額高達數十億美元。
當然,企業並非只能通過購買實體芯片來完成這項工作,租用芯片同樣是一種選擇,但成本同樣不菲。以亞馬遜的雲計算部門 AWS 為例,他們將以每小時約 6 美元的價格向客户出租由英特爾製造的大型處理器集羣。相較之下,一組英偉達 H100 芯片的使用成本則接近每小時 100 美元。

上個月,英偉達推出了名為 Blackwell 的新處理器,其處理大語言模型的速度實現了質的飛躍,預計價格將與包括 H100 在內的 Hopper 系列相近。英偉達表示,訓練一個擁有 1.8 萬億參數的人工智能模型需要大約 2000 個 Blackwell GPU。據外媒報道,這與 OpenAI GPT-4 相差不大。相較之下,使用 Hopper GPU 完成同樣的任務則需要 8000 個。然而,這種顯著的效率提升可能很快被業界對構建更大規模人工智能模型的追求所抵消。

數據中心建設

購買了這些芯片的公司,還需考慮如何妥善安置它們。為此,Meta、亞馬遜、微軟和谷歌等頂尖雲計算公司以及其他計算能力租賃提供商正競相建立新的服務器設施。這些建築通常是根據特定需求定製的,內部整齊排列着硬盤、處理器、高效的冷卻系統、大量的電氣設備和備用發電機。

據研究機構 Dell'Oro Group 的估算,今年企業預計將在數據中心的建設和裝備上投入高達 2940 億美元,這一數字相較於 2020 年的 1930 億美元有顯著增長。這種迅猛的擴張在很大程度上得益於數字服務的廣泛崛起,包括流媒體視頻的流行、企業數據量的爆炸式增長以及社交媒體信息流的激增。然而,值得注意的是,越來越多的投資正被用於購買昂貴的英偉達芯片和其他支持人工智能繁榮所需的專業硬件。

交易和人才爭奪戰

儘管芯片和數據中心佔據了人工智能技術研發成本的主要部分,但一些人工智能公司也投入鉅額資金,從出版商那裏獲取數據許可。

OpenAI 已經與幾家歐洲出版商達成了協議,將他們的新聞內容納入 ChatGPT,並用於訓練其人工智能模型。儘管這些交易的具體財務條款尚未公開,但之前已有媒體報道,OpenAI 同意向德國出版商 Axel Springer 和美國主流網絡媒體 BI 支付數千萬歐元,以獲取其新聞文章的使用權。這家初創公司還與《時代》、CNN 和福克斯新聞就內容授權進行了談判。

儘管 OpenAI 在獲取許可協議方面表現得更為積極,但大型科技公司也在積極尋找獲取語言數據的方法,以構建引人注目的人工智能工具。據報道,谷歌與 Reddit 達成了一項價值 6000 萬美元的數據授權協議。而外媒消息稱,Meta 的員工也在探討收購圖書出版商 Simon & Schuster 的可能性。

同時,科技公司也陷入了激烈的人工智能人才爭奪戰。去年,流媒體巨頭 Netflix 曾一度發佈廣告,招聘人工智能產品經理一職,年薪高達 90 萬美元。

更便宜的替代方案

微軟在推動大語言模型的熱潮上走在了大多數公司的前列,但最近,它表示將嘗試一種不同的策略。該公司展示了三種計算能力較低的小型人工智能模型。

微軟強調,大語言模型 “仍將是解決眾多複雜任務的黃金標準”,例如在 “高級推理、數據分析和上下文理解” 等領域。然而,對於某些客户和應用場景來説,較小的模型可能已經足夠滿足需求。其他公司,如由兩名前谷歌員工創立的初創企業 Sakana AI,也專注於小型模型的研發。

“你並不總是需要一輛跑車,” Forrester Research 專注於人工智能研究的高級分析師羅文·柯倫(Rowan Curran)指出,“有時,一輛小型貨車或皮卡就足夠了。這不會是一個被廣泛使用的模型類別,適合所有人在所有情況下使用。”

然而,就當前而言,人工智能領域的傳統觀念仍傾向於規模越大越好,但這無疑將伴隨着高昂的成本。

文章來源:騰訊科技,原文標題:《一個大模型訓練成本要上億美元,為何開發 AI 如此燒錢?》