Scared Nvidia, burst the AI bubble, how does Wall Street view DeepSeek?

華爾街見聞
2025.01.27 13:51
portai
I'm PortAI, I can summarize articles.

華爾街認為,AI 企業盈利或面臨走低風險、也有將此類比 AI 泡沫破滅時刻,同時還有認為領先 AI 公司不會放棄先進 GPU。對 AI 行業而言,人工智能開發變得更加容易,硬件要求和成本將大幅下降,競爭急劇加劇、科技巨頭 “護城河” 變 “小水坑”。

DeepSeek 一夜爆火,不僅刷屏全球互聯網,還被多次 “擠” 到宕機,甚至暴擊華爾街,分析師驚呼 AI 企業迎來 “斯普特尼克時刻”。

週一美股盤前,美股期貨大跌,納斯達克 100 指數期貨跌 5%,標普 500 指數期貨跌近 3%,道指期貨跌超 1%。

半導體股盤前跌幅擴大,英偉達跌逾 13%,博通跌超 11%,阿斯麥跌近 11%,超微電腦跌超 10%,台積電跌近 10%。整個歐美科技股市值或蒸發 1.2 萬億美元。

美股這一崩潰正是 DeepSeek 引發,就在剛剛過去的週末,DeepSeek 反超 ChatGPT,在能力、成本、開放性等多項數學和推理基準測試中超越業界領先模型,一舉登頂美區蘋果應用商店免費 App 排行第一。

DeepSeek 引發了全網激烈討論,而真正引人注目的是其打破傳統 AI 資本支出規模。

開發該模型僅用 2 個月,花費不到 600 萬美元,相比之下,Meta 團隊僅薪酬就超過 DeepSeek 全部培訓預算,Open AI 每年支出超過 50 億美元,“星際之門” 計劃正生成投資 5000 億美元......

華爾街怎麼看 DeepSeek?DeepSeek 對整個 AI 行業意味着什麼?

華爾街:AI 企業盈利面臨走低風險、美股迎來 AI 泡沫破滅的時刻

傑富瑞分析師 Graham Hunt 團隊指出,科技巨頭們面臨資本支出合理性的質疑,或導致數據中心收入和利潤增長軌跡走低:

由於 DeepSeek 僅以一小部分計算能力就能提供與 GPT-4o 相當的性能,這對建設者來説可能會產生負面影響,因為人工智能參與者面臨着證明不斷增加的資本支出計劃合理性的壓力,最終可能導致數據中心收入和利潤增長軌跡走低。

我們看到至少兩種潛在的行業戰略,中國出現了更高效的訓練模型,這些模型被推動進行創新,進一步加劇中國在人工智能領域的主導地位競爭。對於數據中心建設者來説,關鍵問題是,他們是否繼續採取“不惜一切代價建設” 的戰略,加速模型改進,或者現在是否將重點轉向更高的資本效率,給主要人工智能參與者的電力需求和資本支出預算帶來壓力。短期內市場將採取後者。

短期內降級風險,收益受影響較小。儘管數據中心相關公司容易受到情緒降級的影響,但其收益不會立即受到影響。資本支出計劃的任何變化都具有滯後效應,具體取決於持續時間(>12 個月)和訂單簿中的風險敞口。我們認為現有訂單變更或取消的風險有限,並預計現階段人們的預期將轉向由更高效的模型推動現有投資更高的投資回報率。總體而言,我們仍然看好該行業,規模領導者受益於不斷擴大的護城河和更高的定價能力。

瑞穗則提到,這發生在一個 “痛苦的時刻”:

我們剛剛看到星際之門公告(到 2028 年預計約為 5000 億美元)和 Meta 將資本支出正式提高到 600-650 億美元以擴大 Llama 規模,當然還有微軟 800 億美元的公告……市場現在想知道這是否是市場人工智能泡沫破滅的時刻(例如思科的互聯網泡沫),英偉達是標普 500 指數中權重最大的單一公司,佔 7%。

花旗分析師 Atif Malik 認為, AI 公司不會放棄更先進的 GPU:

雖然 DeepSeek 的成就可能具有開創性,但我們質疑其成就是否是在沒有使用先進的 GPU 對其進行微調和/或通過蒸餾技術構建最終模型所基於的底層 LLM 的情況下實現的。儘管美國公司在最先進 AI 模型上的主導地位可能會受到挑戰,但我們估計在不可避免的更嚴格的環境中,美國公司仍然佔據優勢。因此,我們預計領先的 AI 公司不會放棄更先進的 GPU,最近 AI 資本支出公告表明了對先進芯片的需求。

伯恩斯坦報告認為, DeepSeek 實際上討論的是兩個模型系列,但價格戰的言論足以讓 Mag7 本已不明朗的投資回報率雪上加霜:

第一個系列是 DeepSeek-V3,這是一個混合專家 (MoE) 大模型,通過一系列優化和巧妙的技術,它可以提供與其他大型基礎模型相似或更好的性能,但訓練所需的計算資源卻很少。DeepSeek 實際上使用了 2048 個 NVIDIA H800 GPU 集羣進行訓練約 2 個月。經常引用的 “500 萬美元” 這個數字是通過假設該基礎設施的租賃價格為 2 美元/GPU 小時來計算的,但不包括與架構、算法或數據的先前研究和實驗相關的所有其他成本。

第二個模型家族是 DeepSeek R1,它使用強化學習 (RL) 和其他創新技術應用於 V3 基礎模型,大大提高了推理性能,與 OpenAI 的 o1 推理模型和其他模型競爭激烈,這個模型似乎引起了大部分的焦慮)。DeepSeek 的 R1 論文沒有量化開發 R1 模型所需的額外資源。

V3 的相對效率應該令人驚訝嗎?作為 MoE 模型,我們並不這麼認為……混合專家 (MoE) 架構的意義在於顯著降低訓練和運行成本。對其他 MoE 比較的調查表明,與性能相似的類似大小的密集模型相比,V3 的典型效率約為 3-7 倍;V3 看起來甚至比這更好(>10 倍),可能是因為該公司在模型中引入了一些其他創新,但認為這是一種完全革命性的東西似乎有點誇大其詞,並不值得過去幾天在 Twitterverse 上引起軒然大波。

但價格戰的言論足以讓 Mag7 本已不明朗的投資回報率雪上加霜。DeepSeek 的定價確實遠遠超過了競爭對手,該公司的模型定價比 OpenAI 的同類模型便宜 20 到 40 倍, 當然,我們不知道 DeepSeek 在這方面的經濟效益(而且這些模型本身是開放的,任何想要使用它們的人都可以免費使用),但整個事情提出了一些非常有趣的問題,關於專有與開源努力的作用和可行性,可能值得做更多的研究……

對 AI 行業意義:競爭急劇加劇、科技巨頭 “護城河” 變 “小水坑”、顛覆速度加快

對 AI 行業意義方面,dropbox AI 副總裁 Morgan Brown 做了一系列的總結:

1、首先,介紹一些背景:目前訓練頂級 AI 模型的成本極其高昂。OpenAI、Anthropic 等僅在計算上就花費了 1 億美元以上。他們需要擁有數千個 4 萬美元 GPU 的大型數據中心,這就像需要一整座發電廠來運行一家工廠一樣。

2、DeepSeek 突然出現並説,如果我們花 500 萬美元做這件事會怎麼樣?” 他們不只是説説而已——他們真的做到了。他們的模型在許多任務上匹敵甚至擊敗了 GPT-4 和 Claude。人工智能世界震動了。

3、怎麼做到的?他們從頭開始重新思考一切。傳統 AI 就像是把每個數字都寫成 32 位小數,DeepSeek 是如果我們只使用 8 位小數呢?它仍然足夠準確!砰——所需內存減少了 75%。

4、然後是他們的多標記預測,普通人工智能的閲讀方式就像一年級學生一樣:“這......貓......坐......” DeepSeek 一次讀完整個短語,速度快 2 倍,準確率高 90%。當你處理數十億個單詞時,這一點很重要。

5、但真正聰明的是:他們建立了一個 “專家系統”。他們沒有使用一個試圖瞭解一切的大型人工智能(比如讓一個人同時成為醫生、律師和工程師),而是擁有隻在需要時才醒來的專門專家。

6、傳統模型:所有 1.8 萬億參數始終處於活動狀態,DeepSeek 總共 671B,但一次只能激活 37B。這就像擁有一支龐大的團隊,但只召集每個任務真正需要的專家。

7、結果令人震驚:培訓成本:1 億美元 → 500 萬美元;所需 GPU:100000 → 2000;API 成本:便宜 95%;可以在遊戲 GPU 而不是數據中心硬件上運行。

8、最瘋狂的部分都是開源的,任何人都可以檢查他們的工作,代碼是公開的,技術論文解釋了一切。

9、重要的是,它打破了 “只有大型科技公司才能涉足人工智能” 的模式,你不再需要價值數十億美元的數據中心,幾個好的 GPU 就可以做到這一點。

10、對於英偉達來説,這很可怕。他們的整個商業模式都建立在銷售利潤率高達 90% 的超級昂貴 GPU 的基礎上,如果每個人都能突然用普通的遊戲 GPU 做 AI……那麼,你就知道問題所在了。

11、關鍵在於:DeepSeek 的團隊不到 200 人,但 Meta 的團隊僅薪酬就超過了 DeepSeek 的整個培訓預算……而且他們的模型並不那麼好。

12、這是一個經典的顛覆故事:既有者優化現有流程,而顛覆者重新思考根本方法。

13、影響巨大:人工智能開發變得更加容易;競爭急劇加劇;大型科技公司的 “護城河” 看起來更像水坑;硬件要求(和成本)大幅下降。

14、OpenAI 和 Anthropic 等巨頭不會止步不前。他們可能已經在實施這些創新,但效率精靈已經從瓶子裏出來了——不可能再回到 “只是投入更多 GPU” 的方法了。

15、最後的想法:這感覺就像是我們回顧時會認為的一個轉折點,就像個人電腦讓大型機變得不那麼重要,或者雲計算改變了一切。人工智能即將變得更加普及,成本也更低。問題不在於它是否會顛覆當前的參與者,而是顛覆的速度有多快。

英偉達正面臨前所未有的威脅

此外,還有分析表示,英偉達實際上很難達到市場的高期望。分析表示,英偉達面臨着前所未有的競爭威脅,20 倍預期銷售額和 75% 毛利率的溢價估值越來越難以證明其合理性。該公司在硬件、軟件和效率方面的所謂 “護城河” 都出現了令人擔憂的裂痕,地球上數以千計最聰明的人,在數十億美元的資本資源的支持下,正試圖從各個角度攻擊他們。

在硬件方面,Cerebras 和 Groq 的創新架構表明,英偉達的互連優勢(其數據中心主導地位的基石)可以通過徹底的重新設計來規避。更傳統的是,每個主要的英偉達客户(谷歌、亞馬遜、微軟、Meta、蘋果)都在開發定製芯片,這可能會蠶食高利潤數據中心的收入。

軟件護城河似乎同樣脆弱,MLX、Triton 和 JAX 等新的高級框架正在抽象化 CUDA 的重要性,而改進 AMD 驅動程序的努力可能會解鎖更便宜的硬件替代品。最重要的是,我們看到了 LLM 驅動的代碼轉換的出現,它可以自動將 CUDA 代碼移植到任何硬件目標上運行,從而有可能消除英偉達最強大的鎖定效應之一。

最令人震驚的是 DeepSeek 最近的效率突破,以大約 1/45 的計算成本實現了可比的模型性能。這表明整個行業一直在大量過度配置計算資源。再加上通過思維鏈模型出現的更高效的推理架構,對計算的總體需求可能比目前的預測要低得多。這裏的經濟效益是令人信服的:當 DeepSeek 能夠達到 GPT-4 級別的性能,同時 API 調用費用降低 95% 時,這表明要麼的客户在浪費資金,要麼利潤率必須大幅下降。

台積電將為任何資金充足的客户生產具有競爭力的芯片,這一事實自然限制了英偉達的架構優勢。但從根本上講,歷史表明,市場最終會找到繞過人為瓶頸的方法,從而產生超額利潤。

這些威脅加在一起表明,英偉達在維持其當前增長軌跡和利潤率方面面臨的困難要比其估值所暗示的要大得多。有五個不同的攻擊方向——架構創新、客户垂直整合、軟件抽象、效率突破和製造民主化——至少有一個成功對英偉達的利潤率或增長率產生重大影響的可能性似乎很高。按目前的估值,市場還沒有將這些風險中的任何一個計入價格。