
A Comprehensive Understanding of the GPT-5 Launch Event | Price Slasher, Impressive Programming, New Features Lackluster

在 8 月 8 日的發佈會上,OpenAI 推出了 GPT-5,儘管與前幾代相比顯得平淡,但仍有進步,如極低的幻覺率和增強的上下文能力。GPT-5 的 API 價格僅為 Claude Opus 4.1 的 1/15,具有競爭力。GPT-5 分為多個版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 和 GPT-5 Pro,後者為企業用户提供更強算力和並行計算能力。
北京時間 8 月 8 日凌晨 1 點的發佈會上,GPT-5 總算在萬眾期待中姍姍而至,此時,距離 GPT-4 的發佈已過去了兩年半。
但這一次,比起 ChatGPT 的驚豔亮相、GPT-4 的跨越式升級、o1 發佈時的震撼全場,這場發佈會顯得格外平淡:不太驚豔的 Benchmark,毫無新範式的影子;很難激起興趣以及看出與競品區別的用例展示;甚至還有被網友抓包的 PPT 展示錯誤,共同構成了這 1 小時 20 分鐘的發佈會。
但這並不意味着 GPT-5 沒有進步。極低的幻覺率、前端能力的加強、上下文能力的躍升和極為有競爭力的價格,都是這次難得的亮點。
尤其是價格,在 GPT-5 精彩的編程表現之下,其 API 價格僅為昨天發佈的 Claude Opus 4.1 的 1/15,也比 Gemini 2.5 Pro 價格低。
這可以説是對 Anthropic 的致命一擊。
今天凌晨的 OpenAI,雖失去了魔法的節奏、但依然在和其他廠商的肉搏中站穩了腳跟。
GPT-5 本體:有限的升級、微末的 SOTA
本次 GPT-5 共有 4 個版本,分為 GPT-5 、 GPT-5 mini、 GPT-5 nano,以及只對企業版和每月 200 美元高級版開放的 GPT-5 Pro 模式。
對於一般用户而言,默認的是統一模型 GPT-5,它是由多個模型組成的系統,包括用於大多數問題的 “智能且快速” 模型(GPT-5-main)和用於更復雜問題的 “更深層推理” 模型(GPT-5-thinking)。
這種統一的實現,是由一個實時路由器決定針對特定查詢使用哪個模型。
mini、nano 的具體選擇則是 API 用户可選。而 GPT-5 Pro 模式,則類似於 Grok 4 Hard 模式,使用了並行測試計算,一次多個模型一起並行計算更長時間。它用更大的算力,提供了最全面、最精準的答案。在超高難度的科學問題(GPQA)上,它刷新了世界紀錄。在與人類專家的「盲測」中,10 次裏有近 7 次被認為更優。
而在能力和評分上,GPT-5 幾乎在每一項上都有提升,但都只比當下 SOTA 高了一點點,也只比 o3 強得很有限。
智力水平:體驗最佳,但不是智力最佳
在智力的水平,各種主流評測集裏,GPT-5 都高於 o3 水平,但整體差距沒有非常大。

細拆下來,其中提升最明顯的前沿數學測試集裏,我們能看到,GPT-5 的效果還不如 ChatGPT Agent,只有使用 Pro 模式下才會更強。

當與其他模型做比較時,我們就能發現,GPT-5 大多數 “智力” 能力僅僅稍微高出競爭對手一點,部分能力甚至還並非 SOTA,只能説整體以微小幅度領先。很難説是什麼跨越式的能力提升。

綜合來看,根據 Artificial Analysis 的排名,GPT-5 目前領先第一,但綜合分僅比 o3 高了兩分、比 Grok 4 僅高一分。
另一個顯示出 GPT-5 能力不及預期的是 Arc Prize 的測試,在這個號稱是 AGI 終極測試中,GPT-5 不敵 Grok 4,而且是遠遠落後。

不過從這裏我們也能看到,相對於 o3,GPT-5 在計算效率上確實有所提高,能以更少的 token 消耗,獲得超過 o3 的效果,其效率也領先於 Anthropic 的模型。
根據 OpenAI 的介紹,GPT-5 thinking 在解決複雜問題時,使用的 token 數量可以減少了 50%-80%。

這引得馬斯克都激動的發推。

最近,Grok 在 AI 國際象棋大賽上披荊斬棘,這次又壓了 OpenAI 一頭,感覺這個發佈會過後,Grok 反而獲利最大。
不過在用户體驗上,GPT-5 扳回一城。
在 LMArena 這個主要由用户雙盲比較不同模型優劣的排行榜上,GPT-5 在所有項目上都得到了第一名。

編程:解決痛點,用 Agent 讓 Vibe coding “省心”
而在本次 OpenAI 着重強調的編程領域,GPT-5 在 thinking(思考)模式下,也較前代有比較明顯的提升。

但同樣,如果把一直強調編程的競爭對手 Anthropic 最新的 Claude 4.1 Opus 也算進來,優勢又極其微小了。兩者僅有 0.3% 的分差。

雖然在整體編程基準上,GPT-5 的表現並不特別突出,但 OpenAI 確實在編程實際體驗上做出了很多優化。發佈會上,OpenAI 介紹了編程的幾個重要提升,主要體現在對編程要求的理解、對錯誤的改正能力和更多工具使用能力上。
這主要是歸功於智能體式編碼(Agentic Coding)系統的成熟。GPT-5 擅長處理 “智能體式” 編碼任務,可以調用多種工具,連續工作數分鐘甚至更長時間來完成一個複雜的指令。
模型在編碼時甚至會主動溝通,解釋它的計劃、步驟和發現,像一個協作的團隊一樣行動。
為了實現這種類似協作夥伴的行為,OpenAI 的團隊專門針對幾個特性對模型進行了微調,提升了包括自主性(autonomy)、協作與溝通(collaboration and communication)、以及測試(testing)的能力。
編程要求的理解和指令遵循上的提升,讓 GPT-5 能將模糊或詳細的指令轉化為實際可用的代碼,幫助讓即使不懂編程的人也能實現他們的想法。

推特上的部分用户也有相應的反饋。

而工具調用能力,經過 OpenAI 的特別微調後,也凸顯出來了。
這一點在 Tau 這個測試集中表現明顯。它是用來評估一個 AI 模型在模擬真實世界場景中,與用户進行動態對話,並有效使用外部工具(即 API 或函數調用)來完成任務能力的測試集。在電信領域,它的能力提升明顯。

另一個非常重要的更新是 “修 Bug” 能力的大幅提升。
在演示中,GPT-5 能夠深入一個真實的代碼庫(OpenAI Python SDK),通過搜索和讀取文件來理解代碼的結構和邏輯,並最終定位到問題的根源。它甚至能理解人類工程師做出某些架構決策的深層原因,例如為了加強安全性。
而且它還可以自動修復自己的 bug。在演示一個前端應用開發任務時,GPT-5 在編寫完代碼後,會自己嘗試構建(build)項目。當構建過程中出現錯誤時,它能將這些錯誤信息反饋給自己,然後基於這些錯誤來修改和迭代自己的代碼。這被 OpenAI 的演示人員描述為一個 “深刻的時刻” 和一個 “自我改進的循環”。
在修復特定 bug 的過程中,模型也表現出了很高的智能。例如,它在運行代碼檢查(lints)時發現了其他一些問題,但它能判斷出這些問題與當前要修復的 bug 無關,因此不會進行不必要的修改。
這一點對於當下的 vibe coding 而言十分重要。在今年的一篇論文中就曾提到一個反直覺的事實:用 AI 輔助編程反而可能會降低工作效率,而非提升。這其中最主要的原因是,日常程序員所面對的往往並非一個全新項目,而是要在一堆舊代碼上迭代。
因此,如果沒有對於複雜程序的的整體把握以及自我 bug 修復功能的話,AI 編程在這類項目上的能力就會大受限制。
可見,這次 OpenAI 真是在編程上用上了產品經理的心思,針對痛點做了大幅調整和升級。在沃頓商學院教授 Ethan Mollick 的測試中,他也體驗到了 GPT-5 編程 “讓人省心” 的特點。

(Ethan Mollick 的博客文章)
GPT-5 在編程上的另一個提升點是前端能力。現場展示中,OpenAI 的研究員讓 GPT-5 現場生成了一系列的內容,包括飛機空氣動力學動態展示。
這一內容足足有 400 行代碼,GPT-5 寫了 2 分鐘。

還有一個教法語的貪吃蛇遊戲,整體表現都很不錯。

多模態:仍然是短板
之前在各種泄露中被廣泛認為會大幅提升的多模態能力方面,GPT-5 的提升也並不太顯著。

而且與 Gemini 這種大一統模型不同,GPT-5 仍然是一個主要能進行文字和圖像理解的模型。當下,它仍然不支持音頻輸入/輸出和圖像生成,視頻就更別説了。
想短期內能追上剛發佈的 Genie 3,看起來對 OpenAI 來説還是太難了。
一些驚喜:超低幻覺、上下文大躍進
雖然綜合實力並不驚豔,只能説勉強保住了第一的位置。
但在一些小的方面,GPT-5 的提升確實非常可圈可點。而且這些小的方面,也許能起到決定性的作用。
首先是幻覺和安全。GPT-5 顯著減少了幻覺的發生,它出現事實錯誤的概率比 GPT-4o 低約 45%,比 OpenAI o3 低約 80%。

這是個相當了不起的成就。僅有不到 1% 的幻覺率,這對於實際落地應用來講極其重要,在工業環境以及實際工作環境中,幻覺都是致命的。
所以,也難怪 OpenAI 的核心研究員 Noam Brown 把針對發佈會的唯一評論,獻給了 GPT-5 在消除幻覺上的進步。

GPT-5 在 System Card 中簡要地提到了他們使用的大概方法。
他們一方面強化訓練模型能夠有效地使用瀏覽工具來獲取最新的信息。另外,當模型不使用瀏覽工具,而是依賴其自身的內部知識時,訓練的重點是減少在這種情況下產生的幻覺。
更底層的原因,可能是 GPT5 thinking 經歷的強化學習訓練。在這些訓練裏,OpenAI 似乎利用了一些最新的訓練方法,讓這些模型學會了 “完善自己的思考過程,嘗試不同的策略,並認識到自己的錯誤”。
也正是因為這個訓練模式,GPT-5 模型的 “欺騙” 行為也大幅減少,部分維度上居然可以減少近 90%。(欺騙:在這裏指的是模型可能會向用户謊報其行為,或者在任務無法完成、信息不足的情況下悄悄地不執行任務。這也和幻覺的下降直接相關。)

另一個非常重要的進步是上下文能力。
首先,所有的 GPT-5 版本目前支持的上下文都拓展到了 400k,遠超 o3、4o 的 128k 默認版本上下文。雖然趕不上 Gemini 1M 的上下文量,但相比於其他對手也已經算是領先一步了。
而且從測試上看,上下文的精準度提升堪稱飛躍。大海撈針測試裏,GPT-5 的準確率比 o3 提升了將近一倍。這意味着 GPT-5 處理長文本的能力會有比較明顯的強化。這對於需要處理複雜任務的編程、寫作、分析都影響頗大。

這兩點特別的小點,雖然不能提升 GPT-5 的綜合智力,但可能會給 GPT-5 帶來護城河式的優秀體驗。
新功能:乏善可陳
如果説能力項上,我們還是可以在編程和幻覺上找到些許亮點,那 GPT-5 的新功能基本就只能説食之無味了。
首先是寫作上的優化。OpenAI 在演示中表示,與之前的模型相比,GPT-5 在寫作質量上有顯著提升,能更好地幫助用户潤色草稿、郵件乃至故事。
最重要的是,GPT-5 更有人味兒,更少 AI 味兒。它生成的回應更有節奏感和韻律感,語言更真誠、更能引起情感共鳴。而且因為整體能力的提升,它能更好地理解情境的細微差別,讓回應感覺不那麼像 AI。

然而,在演示過程中,這個其實很不直觀。就像前兩天奧特曼秀出 GPT-5 推薦的電影時候,大家看不太出來和 4o 有什麼大的區別。
然後是語音功能。GPT-5 的聲音聽起來極其自然,就像和真人對話。它還新增了視頻輸入功能,可以讓語音助手看到你所看到的東西。這基本屬於標配,現場感覺還是 Grok 4 的超高語音回應速度更讓人印象深刻。
記憶能力升級。雖然 OpenAI 在發佈會上提到了對記憶功能進行了大量增強,但實際演示來看只是推出了與 Gmail 和 Google Calendar 的集成功能,允許 ChatGPT 訪問用户的郵件和日曆來幫助規劃日程。也是一種未來標配的水平,而且和 “記憶” 關聯性並不強。

最後是個性化功能:現在 GPT-5 允許用户自定義聊天界面的顏色了。它不禁讓人想到,當一個前沿技術公司開始整這些花活兒的時候,這隻能説明,它真的沒有別的可展示了。

回應數據瓶頸質疑:左腳踩右腳,還是有效的
在之前 Information 的爆料中,GPT-5 開發失速的主要原因之一,就是數據瓶頸。對此,OpenAI 發佈會上也給了一個解釋。
他們揭示了在 GPT-5 的訓練中,OpenAI 試驗了新的訓練技術,讓模型可以利用前一代模型創造數據。與填充型的數據不同,OpenAI 專注生成的是 “正確類型的數據”,其目的在於 “教導” 模型。他們利用其模型打造了一個高品質的 “合成流程”,生成了以教導 GPT-5 的複雜數據。
而且他們這種跨代模型間的互動預示着一個遞歸式的改進循環,即前一代模型越來越多地幫助改善和生成下一代模型的訓練數據。
也就是在 o1 模型推出時,大家一直猜想的由推理模型產生高質量數據,讓預訓練模型越來越強,再由此通過強化學習加強下一代推理模型的 “左腳踩右腳” 式訓練方法,被 OpenAI 證實了。
不過從效果上看,這個方法明顯 Scaling 的不那麼有效。數據的困境,還沒有被完全解決。
價格:絕對的殺招
如果説 GPT-5 的性能提升不盡人意,至少在價格上,它做到了皆大歡喜。
首先是對 C 端用户,免費用户也可以使用 GPT-5,但有使用次數限制,這個限額也相當慷慨,每天可以聊 “幾個小時”。當達到上限後,會自動切換到 GPT-5 mini 模型。而對於 Plus 用户,將擁有比免費用户 “高得多” 的使用額度 ,基本滿足日常應用。
而對與 API 用户來講,GPT-5 幾乎給出了一個難以拒絕的價格。每百萬 token 輸入 1.25 美元,輸出 10 美元。

這個價格比起 GPT 4o 還要便宜。甚至比一直以 “低價” 著稱的 Gemini 2.5 Pro 都更便宜。而 mini 和 nano 的價格,也都低於主要競爭對手的同等級模型。

如果 GPT-5 的編程能力確實如測試般強大,那對於價格高出 15 倍的 Anthropic 而言,將是毀滅性打擊。
不過,誰能想到,一個一直以技術領先為核心定義的公司,居然開始打價格戰了。這也是 OpenAI 這次發佈會上實際上最大的亮點,也是最大的讓人嘆息之處。
先行者變得務實,也許才是技術快速發展期結束的最明顯標誌。
發佈會:災難式的錯誤,不直觀的展示
比起 GPT-5 的平平表現,這場長達 1 小時 20 分的發佈會堪稱災難。
首先是發佈會上的 “圖表欺詐”。發佈會剛開始沒多久,眼尖的網友們就在發佈會展示的 PPT 裏發現,SWE Benchmark 數據被以不成比例的方式展示,以凸顯 GPT-5 的提升。

這裏的比例完全錯誤,很快網友就還原了一個真實比例。

而且這樣的錯誤還不止一處。在 Tau 2 Benchmark 的展示中,同樣出現了 55% 比 58.1% 大的情況。

針對這些致命錯誤,很快,網友們就開始了嘲諷的狂歡。比如拿 GPT 序號建表,來諷刺 OpenAI 的 “表格魔法”。

對於已經經歷過 IMO 金牌風波,深陷在 “炒作大師” 印象中的 OpenAI 來説,這種錯誤簡直就是火上澆油,更坐實了他們炒作、不可信的形象。
除此之外,這次的演示過程,只有最後用了 GPT-5 的 Cursor 生成的城堡小遊戲稍微比較亮眼。其他的所有展示都冗長、過分專業、且效果平平。

對比 Anthropic 的讓 Claude 運營自動售貨機實驗、Gemnini 的寶可夢通關展示 Agent 性能這些更有衝擊力,更能展示前沿探索的發佈會環節來講,實在是缺乏看點。
而期間充斥的無聊的冷笑話、漫長的推理等待時間,更是讓發佈會的沉悶到了一種前所未有的水平。
如果説奧特曼是個營銷大師,那這場發佈會確實是名不副實了。
正是因為奧特曼在會前給出的 “GPT-5 比我都強” 的高期待,和發佈會時平淡表現的反差。加上錯誤連連的問題,這次 OpenAI 明顯被輿論反噬。據 Polymarkt 的調查,發佈會後,大家對 OpenAI 的模型能力評價甚至都一路下滑。

發佈會背後,正在失速的 AI 行業
對於整個 AI 產業而言,這次發佈會可能意味着一個陰影籠罩的未來。
從 GPT-4.5(Orion)項目的失敗,我們已經看到了參數 Scaling Law 逐漸放緩的跡象。而用了十倍算力堆強化學習的 Grok-4 儘管在某些測試中表現亮眼,但整體上也沒有展現出革命性的跨越,這暗示着 Test-Time Compute(TTC)Scaling Law 也開始見頂。
到今天,GPT-5“小步前進"式的常規進步。這似乎説明着低垂的果實已經摘完了。
那堵看不見的 AI 快速增長之牆,從未像今天這般明顯。
這也許意味着,我們不得不從那個"指數級增長"的狂歡中清醒過來,迎接一個更加務實、更加競爭激烈的新階段。也許 AI 行業真的需要一個新的突破,才能重回如夢如幻般的 AI 一代一個大跨越的節奏中去。
但突破何時到來、以何種形式到來,已經變得頗為難測。
能確定的只有 GPT-5,還遠不是 AGI。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
