From the perspective of Token, calculating the demand for AI computing power

華爾街見聞
2025.07.03 02:07
portai
I'm PortAI, I can summarize articles.

本報告分析了 AI 推理算力需求的增長趨勢,指出推理算力需求的增長速度快於單位算力成本的下降。隨着 AI 應用用户數量的增加,推理端算力需求持續上升。報告提到,Google 和微軟的 Token 調用量顯著增長,預計未來推理端算力支出將加速增長。

本報告旨在提供一個推理算力需求從用户滲透到 Token 調用、再到硬件支出的分析框架,我們通過對 Google 與微軟(OpenAI)未來 Token 調用量、算力總需求和未來硬件支出節奏的測算,得出結論:推理算力需求增長速度快於單位算力成本的降低。我們持續看好推理端算力需求的加速增長。

核心觀點

推理算力需求增長或快於算力單位成本下降

總算力支出受到算力需求與成本的共同影響。隨 AI 應用用户數量的不斷增長及 Agent 的滲透不斷提升,推理端算力需求不斷上升;同時,由於硬件的迭代與 infra 算法的不斷改進,模型推理的單位成本不斷下降,模型推理價格目前已下降到 2023 年初的 1/100 以下,目前市場對未來推理端算力支出節奏存在分歧。本報告旨在提供一個推理算力需求從用户滲透到 Token 調用、再到硬件支出的分析框架,我們通過對 Google 與微軟(OpenAI)未來 Token 調用量、算力總需求和未來硬件支出節奏的測算,得出結論:推理算力需求增長速度快於單位算力成本的降低。我們持續看好推理端算力需求的加速增長。

海內外大廠 Token 調用量增長迅速,推理算力需求快速增長

海外 CSP 廠商來看,根據 25 年 5 月 Google I/O 大會數據,Google 的 Token 月均調用量從 24 年 4 月的 9.7 萬億增長至 25 年 4 月的 480 萬億,增長 50 倍。根據微軟 FY25Q3 電話會數據,Azure AI 基礎設施在 25 年一季度處理了超 100 萬億 Token,較去年同期增長 5 倍,其中 3 月份單月 Token 調用量達 50 萬億。國內互聯網大廠來看,25 年 5 月字節火山引擎 Token 日均調用量為 16.4 萬億(月均 508T),是 24 年 5 月的 137 倍。我們認為,海內外大廠 Token 調用量已出現明顯加速拐點,推理端算力需求快速增長。

考慮到單位算力成本下降後,Google 算力支出仍有望高增

AI 搜索的滲透是 Google Token 調用量增長的主要驅動,通過對 AI Overview、AI Mode、Gemini 2C 應用和其他推理需求的測算,我們預測 Google 25 年第二季度 Token 總量有望達到 2009 萬億,環比增長 223%,相較於 24Q2 的 71 萬億 Token 增長接近 30 倍。單位算力成本 = 單位價格 / 算力,受軟件算法優化與新版本芯片的部署影響,單位算力成本呈現下降趨勢,根據我們測算,4/5/6 月單位算力成本分別環比下降 14%/13%/13%,下降幅度小於 4/5/6 月算力需求提升的環比增速 56%/38%/32%。根據我們測算結果,Google 25 年二季度推理算力開支仍有望環比增長 100% 以上。

用户使用量與 Deep Research 的滲透有望驅動微軟算力需求高增

微軟 Token 調用量的提升主要源於 OpenAIChatGPT 網頁的訪問量上升及 Deep Research 功能的滲透。考慮到以上兩因素的影響,在我們的預測框架下,微軟 25 年第二季度的總 Token 調用量有望達到 205 萬億,環比增長約 100%。算力成本角度,算法優化帶來模型浮點運算利用率的提升,即同樣數量的芯片能帶來更多的有效算力。根據我們測算,考慮到算法優化帶來的算力成本下降後,微軟年底的推理算力卡需求量仍約為 3 月的兩倍有餘,我們預測微軟的算力硬件需求仍將維持高速增長。

正文

海內外大廠 Token 調用量增長迅速,推理算力需求加速放量

大廠 Token 調用量增長迅速,推理算力需求加速放量。根據 25 年 5 月 Google I/O 大會,24 年 4 月,Google 的產品和 API 每月處理的 Token 總量為 9.7 萬億;25 年 5 月這個數字已超過 480 萬億,足足成長了 50 倍。根據微軟 FY25Q3 電話會表述,Azure AI 基礎設施在本季度處理了超 100 萬億 Token,較去年同期增長 5 倍,其中 3 月份單月 Token 調用量達 50 萬億。

國內來看,以字節為代表的互聯網大廠 Token 調用量同樣增長迅速。根據字節火山引擎春季大會披露,字節火山引擎上 5 月底日均 Token 調用量為 16.4 萬億(月均 508T),是 24 年 5 月的 137 倍,12 月的 4 倍,與 Google 4 月份披露的月均 480T Token 調用基本持平。今年 5 月與去年 12 月 Token 調用分佈對比來看,AI 工具類 Token 消耗快速增長,其中 AI 搜索增長 10 倍,AI 編程增長 8.4 倍。其他場景方面,K12 在線教育場景五個月內 Token 消耗數增長 12 倍;視覺理解模型也推動了 Token 增長,新場景如智能巡檢、視頻檢索等也實現日均百億 Token 突破。我們認為,隨應用場景的不斷豐富,國內推理需求有望加速增長。

北美大廠 Token 調用量與算力需求測算

Google Token 調用量與算力需求測算

Google Token 調用量增長,主要源於 AI 搜索的拓展

Google Token 量快速上漲的原因:AI 搜索(AI Overview)

1) Google 與微軟 Token 調用量差異並不源自於 Chatbot 類產品:Gemini 和 ChatGPT 在調用層面存在一定的相似性,Gemini 在用户數量方面只有 ChatGPT 的 1/3 左右,但 Token 量卻是微軟的 6 倍,因此兩者的 Token 差距並不來自 Chatbot 類應用。

2) Google Token 調用量高增的驅動主要來自於 AI 搜索(AI Overview):搜索是 Google 相比微軟最有優勢的部分,Google 搜索佔市場份額約 90%,年搜索量達到 5 萬億,24 年 5 月推出的 AI Overview 最有可能是導致 Google 和微軟之間 Token 巨大差異的原因。今年第一季度,Google 的 Token 調用量曲線上揚,25Q1/Q2 分別環比增長 81%/56%,根據 Google 電話會,25 年一季度 AI Overview 迎來史上最大規模擴張,包括用户數量的增長和對問題回答的豐富,AI Overview 的擴張是驅動 Token 快速增長的核心。

Google Token 調用量測算

根據我們測算,25 年 5 月和 6 月推理 Token 量將分別達到 659/870 萬億,環比增長 37%/32%。25 年第二季度 Token 總量將達到 2009 萬億,環比增長 223%,相較於 24Q2 的 71 萬億 Token 增長接近 30 倍。

谷歌的推理 Token 主要包含三部分:AI 搜索、Gemini 2C 應用和其他推理需求。對於 Token 量變化,關鍵指標測算如下:

1) AI 搜索: AI 搜索 Token 量 = 月度 AI 搜索次數 單次搜索 Token 消耗

月度 AI 搜索次數 = 月度 Google 搜索次數 AI 搜索滲透率。根據 Google 在 25 年 3 月的披露,Google 每年搜索量達到 5 萬億次,以此預估 3 月份 Google 搜索量。從用户角度,3 月份 AI Overview 的月活躍用户已達 15 億,谷歌搜索月活約 20 億。從關鍵詞觸發角度,根據 Semrush,所有搜索關鍵詞中觸發 AI Overview 的比例約為 13.14%。因此按實際所有搜索中的 AI Overview 所佔的比例來看,滲透率應低於 75%,假設 3 月滲透率為 55%。

單次搜索 Token 消耗:搜索的 Token 消耗在 Chat 和 Agent 之間,假設每次 AI Overview 消耗為 1200 個 Token。AI mode 在 25 年 3 月推出,能夠將原問題拆成多個子問題進行搜索,其 Token 消耗量應為普通 AI Overview 的數倍,假設消耗為 5000Token。

2) Gemini:Gemini Token 量 = 30DAU 人均每日使用次數單次使用 Token 數

DAU = MAU (DAU/MAU)。25 年 3 月 Gemini 的月活和日活分別為 3.5 億和 3500 萬,根據 Google I/O 大會披露,4 月的月活為 4 億。

人均每日使用次數:假設 3 月為 10 次,按中性增長的趨勢推算其他月份情況。

單次使用 Token 數:由於 Agent 和 Chat 單次使用的 Token 數有顯著差異,因此通過假設佔比得到 Gemini 單次使用 Token 的均值。假設 25 年 3 月 Agent 的佔比為 1%。

3) 其他推理需求:假設佔整體 Token 的比例基本不變。

影響 Token 量變化的核心指標:

1) AI 搜索滲透率:月度 Google 搜索量超過 4000 億,因此 AI 搜索滲透率的增長將帶動 Token 調用量快速增加。

2) AI Mode 的佔比:AI Mode 在 25 年 3 月測試,25 年 5 月正式向美國用户推出。相比於傳統搜索,AI Mode 運行多個相關搜索,預測用户感興趣的子問題並生成全面的整合性答案,因此 AI Mode 的 Token 調用量為 AI Overview 的數倍,AI Mode 佔比的增加可以成倍增長 AI 搜索 Token 總量。

3) Gemini Agent 佔比:Agent 的 Token 調用量可能達到 Chat 的數百倍,Agent 功能應用佔比的增加將大幅帶動 Gemini Token 的增長。

Google Token 量快速增長有望帶來資本開支持續高增

我們預計,Google 二季度推理算力需求環比 +223%。假設 Gemini Pro 和 Gemini Flash 在 Token 中佔比保持 50%/50%,推理過程所需要的算力可以由公式 C≈2NBS 來估算,算得 25 年第二季度總算力需求較一季度環比增長 223%。

影響推理算力變化的核心指標:模型參數量和大參數模型調用佔比:在 Token 數佔比相近的情況下,模型參數量直接影響最終的算力需求,單位 Token 下 Gemini Pro 的算力需求是 Gemini Flash 的 17 倍。如果未來大參數模型的應用佔比增長或模型參數增長,都會直接帶動推理算力需求的增長。

我們預計,二季度推理算力資本開支環比 +159%:根據我們測算,25 年第二季度,Token 量的增長將帶給 Google 額外 14.5 億美元的芯片資本開支,環比增長 159%,主要原因是 Token 量的大幅增長。整體推理算力資本開支的增長意味着推理需求的增長(Token 量增長)抵消了芯片迭代和算法優化導致的推理成本下降,我們看好算力資本開支的持續增長。

單位算力成本是影響推理資本開支變化的核心指標。單位算力成本 = 單位價格 / 算力,計算得算力成本呈現下跌趨勢,4/5/6 月單位算力成本分別環比下降 14%/13%/13%。影響單位算力成本的因素主要有:

1) 新款芯片的迭代:可以量化為 新款芯片算力 佔比 / 價格。以 TPU 迭代為例,TPU v7 的 FP16 算力相比 TPU v6 的增長 151%,價格增幅低於算力增幅的情況下,單位算力成本下降。

2) 算法迭代:目前假設每年算法導致推理成本下降為 1/4,如果算法迭代的速度放緩,將導致需要的芯片數增長。

微軟 Token 調用量與算力需求測算

OpenAI Token 調用量增長主要源於用户數量增長與 Deep Research 功能的滲透

不同於 Google 的傳統搜索中 AI 功能的滲透,OpenAI 的 Token 調用量的提升主要源於 ChatGPT 網頁的訪問量上升及 Deep Research 功能的滲透。

1. ChatGPT 部分:根據 Semrush 數據,OpenAI 截至 2025 年 3 月的總月訪問量約為 6 億次,平均訪問時長約為 12min,假設用户平均每 2min 與 ChatGPT 進行一次問題交互,則對應 12min 的訪問時長的單次訪問問題總數為 6 個。假設單問題消耗的 Token 數量為 1000 個,則 OpenAI 的 ChatGPT 部分的 Token 調用總數為總訪問量 x(單次訪問時長/單問題時長)x 單問題 Token 數量=35.9 T Token。目前 ChatGPT 的總訪問量與單次平均訪問時長仍在快速增長,假設總訪問量以 10% 左右的環比增速增長,則預計 2025 年第二季度的 ChatGPT 總 Token 調用量達 153T,較第一季度環比增長 85%。具體測算如下表所示:

2. Deep Research 部分:OpenAI 的 Deep Research 功能於 2025 年 2 月 2 日正式發佈,完整版功能首先面向 Pro 版用户開放,而後進一步開放給了更多等級的訂閲用户。其中,Plus、Team、教育和企業用户每月 10 次查詢機會,Pro 用户每月 120 次查詢機會。本文測算將 OpenAI 的付費用户視作為 Deep Research 功能的核心用户羣體。根據 OpenAI 披露 OpenAI 的 2024 年 12 月的 WAU(周活躍用户)數量為 3 億人,2025 年 2 月的 WAU 為 4 億人,4 月 WAU 為 5 億人,約環比增速 10% 以上。據 OpenAI 披露 2025 年 5 月的付費訂閲用户數量達 3 萬人,約佔總 WAU 的 0.6%。Deep Research 單次回答問題推理時長一般在 5-10min,輸出文字長度與參考網頁數量一般為單次交互的幾十倍以上,據此我們假設單次 Deep Research 的 Token 數為單次交互的 50 倍,即 5 萬 Token。依據付費用户數量每月的 Deep Research 次數額度,我們假設每月每用户使用 Deep Research 的次數為 40 次。測算 2025 年 3 月 Deep Research Token 數量=付費用户數量 x 單次 Deep Research 的 Token 數 x 每月每用户使用 Deep Research 的次數=4.8T Token。

綜上,根據我們測算,OpenAI 3 月的總 Token 調用量約為 40.7 T Token。OpenAI 的 Token 調用為微軟的 Token 消耗總數最大的部分,假設 OpenAI Token 調用佔微軟總 Token 數量的 85%,據此計算微軟 3 月份總 Token 調用量約為 48T,這與微軟披露的 3 月份 Token 數量基本吻合(根據微軟電話會披露,2025 年一季度微軟總 Token 調用量約為 100T Token,3 月單月的 Token 調用量為 50T)。根據我們預測,微軟 25 年第二季度的總 Token 調用量有望達到 205T,環比增長約 100%。

根據我們測算,微軟二季度推理算力需求環比增長 99%。OpenAI 未公佈模型參數量數據,假設與 Google 一樣,一半使用 300B 左右大參數模型(GPT o3),一半使用 20B 左右小參數模型(GPT o4-mini)。利用公式 C≈2NBS 來估算 Token 量增長對於算力需求的影響,計算出 2025 年 3 月整體推理算力需求為 15.3 Trillion TFLOPs。我們預測微軟 2025 年第二季度總算力需求為 65.6 Trillion TFLOPs,環比增長 99%,具體測算過程如下:

根據測算微軟年底的推理算力卡需求量約為 3 月的兩倍有餘。根據英偉達官網,H100 在 FP16 精度下單芯片算力為 989 TFLOPs。隨 infra 算法的優化與改進,推理過程的 MFU(Model FLOPs Utilization,模型浮點運算利用率)呈上升趨勢,中性假設每月提升 1%,根據測算 2025 年 3 月份微軟在推理部分的等效 H100 算力需求為 4.3 萬張,未來月同比增速約為 10% 左右,根據測算微軟年底的推理算力卡需求量約為 3 月的兩倍有餘。

結論:推理算力需求增長速度快於單位算力成本的降低

由於單位推理成本的不斷下降,算力支出存在分歧。算力支出的影響因素可以拆分為算力需求和算力成本兩項。AI 應用用户數量的不斷增長及 Agent 的滲透驅動算力需求不斷上升,同時,由於硬件的迭代與算法改進,驅動推理成本的不斷下降,根據 Artificial Analysis 數據,模型推理價格目前已下降到 2023 年初 1/100 以下,因此對整體的算力支出存在分歧。

根據我們測算,推理算力需求增長速度快於單位算力成本的降低。下圖展示了 Google 25 年 4 月對比 25 年 3 月的情況,25 年 4 月對比 3 月算力需求環比上升 56%,算力成本環比下降 14%,算力需求增長的影響高於算力成本下降的影響,未來算力支出將持續增長。同時,目前 Agent 還處於初期階段,除 Deep Research 以外,更高級的 Agent 應用目前還未納入測算範圍。隨更多 General Agent 的落地帶來交互次數、任務複雜度、使用頻率的提升,同時如屏幕識別等多模態的場景進一步加大 Token 的消耗,我們持續看好推理端算力需求的加速增長。


風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。