The $200 ChatGPT Pro is officially launched, introducing the new model Strawberry that is N times smarter

ChatGPT Pro 會員正式上線，售價 200 美元/月。該會員分為 Plus、Team 和 Pro 三檔，Pro 會員將為即將推出的新模型草莓（Strawberry）提供支持。雖然目前 Pro 會員沒有新功能，但使用 GPT-4o 的次數幾乎無限，而 Plus 會員則限制在 80 條/3 小時。草莓模型的具體細節尚未確定，但預計將基於 Self-play RL 技術。

半夜 10 點，The Information 發了個新聞，透露了 OpenAI 的新模型，草莓，要來了。

兩個小時後，我的好朋友 @solitude（美東時間），作為一個常年擁有第一手資料和信息的人，跟我説，ChatGPT Pro 會員上線了，售價 200 刀/月，他已經第一時間付完款了。

我看了眼我自己的號，果然啥也沒有。

所以，他甚至剛付完款，還沒開始用，我就把這個尊貴的 Pro 號要來了。

現在，ChatGPT 的會員，被分成了 3 檔，分別是Plus、Team、Pro。

這個分法，怎麼感覺 OpenAI 學的庫克，不會後面還有 ChatGPT Pro Max 吧。。。

但是目前非常可惜（冤大頭）的點是，並沒有新的功能，也沒有新的模型，唯一有區別的是，GPT4o 使用次數基本等於無限，我在短時間內測了幾百條，依舊暢通無阻。

而對應的，ChatGPT Plus 會員，GPT4o 的使用額度是 80 條/3 小時。

一個使用無限制，自然配不上這貴 10 倍的價格，從 20 刀/月提升到 200 刀/月，OpenAI 如果真的這麼幹，那基本等於奧特曼被馬斯克給奪舍了。

結合 The Information 的新聞，基本可以確認的是，這個 ChatGPT Pro 會員，是過一段時間，為全新的模型，草莓（Strawberry）準備的。

後面想用草莓的，先開個 200 刀的 Pro 會員再説。

草莓究竟是啥？目前沒有確切的結論，但是從我知道的消息梳理來看的話，這玩意，草莓可能是：

基於新範式 Self-play RL 所做的，在數學、代碼能力上強到爆炸、且具備自主為用户執行瀏覽器/系統操作級別的新模型。

更智能、更慢、更貴。

我儘量用最簡單樸素的語言，讓大家都聽得懂，解釋一下，這個新的草莓，具體是個啥，以及，憑啥賣 200 刀/月。

首先，得説一下 GPT-5 出現的一些問題。

GPT-5，就我所知，訓練的非常不順利。

一個可以觀察到的點是，以數據規模和模型規模為美的 “大力出奇跡” 的方式，邊際收益開始遞減，也不再是百試百靈了。

大語言模型的 Scaling Law 描述的是模型性能 L、模型參數量大小 N、訓練數據大小 D 以及計算量 C 之間的關係。

隨着計算量、模型參數和數據集大小的增加，模型的性能通常會顯著提高，從而在語言理解和生成等任務上表現更好。

但是現在，計算量、參數大小、數據集大小，都遭遇了瓶頸，特別是閉源模型們，進步速度對比過去，齊刷刷的開始放緩，且開源模型跟閉源模型的能力逐漸開始縮小。

也就是説，再靠大力出奇跡，模型的能力已經快上不去了。

因為本質上，所有的大模型訓練，幾乎都是人類已有知識的極致利用，我們給出數據、給出人類反饋數據或者標註數據等等，你會發現，大模型不是通過自我探索去 “發現” 語言的規律，而是直接從我們給出的內容中提取有用的信息。

這就像是一個學生，一開始通過不斷地背書確實能提高成績，但到了一定程度後，已經沒啥書可以背了了，而且成績也到了上限，再怎麼死記硬背也很難有大的進步了，這也是如今的困境。

一個是，現有的知識的量級，已經不夠了。

另一個點是，所有的知識都是拿現成的直接背出來的，不是自己從 0 開始探索的，所以大模型在這個過程中，學到的全是相關性，而不是因果性。

相關性和因果性這兩個詞解釋起來非常簡單。

相關性：如果你發現每次你帶傘，天都會下雨，這就是相關性。傘和下雨看起來是相關的，但實際上帶傘並不會導致下雨。

因果性：下雨了你才帶傘，這是因果性，因為下雨導致了你帶傘。

所以這就是為啥，你讓他做個複雜推理，要寫明推理過程，中途推理邏輯經常亂七八糟，錯的沒邊，就是這個原因。

它們就像是一個百科全書式的學霸，知道很多事實，但可能並不真正理解這些事實背後的原理以及真正的因果關係。

如果你問一個只會死記硬背的學生："為什麼蘋果會落到地上？"他可能會立刻回答："因為有重力。"

但如果你繼續追問："那重力是什麼？為什麼會有重力？"他可能就無法給出深入的解釋了。

現在的大模型跟這個現象沒啥區別。它們可以告訴你地球是圓的，但可能也沒辦法真正解釋為什麼地球是圓的，或者地球的形狀對我們的生活有什麼影響。

它們學到的是"地球"和"圓"這兩個詞經常一起出現，有強相關性，而不是理解地球為什麼會是圓的這種因果關係。

相關性告訴你兩件事總是一起發生，因果性則告訴你為什麼它們會一起發生。

所以，這也是為什麼，我們需要新方法新範式，來破這個局。

而這個解法，是目前我觀察下來，OpenAI、Google、Anthropic、Ilya 等人的共識：

Self-play RL。

全稱是自我對弈強化學習，聽起來很複雜，但其實可以用一個簡單的比喻來理解：一個孩子學習下圍棋。

現在大模型的學習方式是什麼樣的？看棋譜，記住開局佈置，背誦一些固定的戰術。它們學習了大量的數據，知道很多可能的解法，但可能並不真正理解為什麼要這樣下棋。

而 Self-play RL，它則是讓這個孩子不停地和自己下棋。剛開始可能下得很拉跨，但是通過不斷嘗試不同的走法，觀察每步棋的結果，慢慢地，他會發現哪些策略更有效，哪些走法會輸。

這個過程中，孩子不僅僅是在記住棋譜，而是在真正理解棋局的變化，理解每一步棋為什麼要這樣走。

這就是從相關性學習到因果性學習的飛躍。

有沒有感覺，這個描述很熟悉？

這就是 2017 年名動天下的AlphaGo Zero。

當年，AlphaGo 在烏鎮以 3:0 擊碎柯潔道心，轟動世界。

而 AlphaGo Zero，是 AlphaGo 的進階版。

官方是這麼描述 AlphaGo Zero 的：

“剛開始時，AlphaGo Zero 很菜，還會填真眼自殺。
3 小時後，AlphaGo Zero 成功入門圍棋。
36 小時後，AlphaGo Zero 就摸索出所有基本而且重要的圍棋知識，以 100:0 的戰績，碾壓了當年擊敗李世乭的 AlphaGo v18 版本。
21 天后，AlphaGo Zero 達到了 Master 的水平，這也就是年初在網上 60 連勝橫掃圍棋界的版本，Master 後來擊敗了柯潔。
40 天后，AlphaGo Zero 對戰 Master 的勝率達到 90%，也就是説，AlphaGo Zero 成為寂寞無敵的最強圍棋 AI。”

這就是 Self-play RL 的恐怖威力。

Self-play RL 就是讓 AI 不斷地和自己"對弈"，可能是下棋，也可能是解決數學問題，甚至是進行對話。

在這個過程中，AI 不僅僅是在重複它看到過的內容，而是在主動探索、嘗試和學習。

跟大模型的學習方式，形成了鮮明的對比，大模型是把 “死記硬背” 發揮到了極致，而 Self-play RL 則是把 “自我成長” 發揮到了極致。

數據還是那個數據，只不過一個是人給的，一個是自己造的。

用人給的東西來死記硬背，你永遠成為不了超越人的超級 AI，但是自己造自己學習的，那是有很大的可能的。

圍棋、Dota2，這兩個領域，已經證明了這一點。

而大模型 +Self-play RL，就是不斷的大模型自己跟自己博弈，得到反饋之後，優化模型權重，改一下自己的水平，然後接着戰。

且得益於大模型自身的能力，所以在自我博弈過程中，可以不再是隻給出最終結果反饋，這種獎勵反饋，在提升 AI 推理能力上其實也有很大的侷限。

因為不同於圍棋、Dota2 這種特定任務，大模型的能力實在是太太太泛化了。我們需要更多的因果關係，而不僅僅只是結果。

對於大模型而言，就可以使用 “思維鏈”，把 AI 推理過程中每一步的思考過程都記下來。然後對每一步進行評分，讓 AI 知道每個推理步驟的好壞。這種方法讓 AI 不僅僅學習到如何給出正確答案，還能改進整個推理過程，從而知道，真正的因果。

甚至，不僅僅只是打分，得益於大模型的能力，還可以進行文字評價。這就很像你在做作業時，老師不僅給你打分，還會寫下評語告訴你哪裏做得好，哪裏需要改進，你肯定只比知道一個得分結果來的更牛逼對吧。

而且每一次的學習，都是從推理過程中得到寶貴的反饋。

當模型在回答一個複雜問題時，它就會進行一個類似 Self-play 的過程。模型會生成多個可能的思路，然後評估這些思路的質量，選擇最佳的一個。

在海外獨角獸的文章中，曾經做過一個計算，一個百億參數的大模型，如果用 Self-play 的方式去生產思路，如果每次生產 32 個思路，每個思路里都有 5 個步驟，一次推理回答，總任務消耗是 100K token，將近 6 美元。

又貴、又慢，但是真的智能。

最好的數據會被保存下來，以固定週期對模型進行迭代，以持續進化。

這也是為啥，在草莓的曝光中，説：

“Strawberry 與其他模型的最大區別在於它能夠在響應之前「思考」，⽽不是立即回答查詢，這個思考階段通常持續 10 到 20 秒。”

且，我們在文章的一開始，看到 ChatGPT Pro 會員，是 200 美元一個月了吧。

推理成本，太特麼高了。

這就是典型的，在大力出奇跡的方式邊際效應遞減的情況下，用推理成本，換訓練成本，繼續給模型做迭代。

這也是為什麼，OpenAI 一直説，草莓，是給下一代大模型，合成數據用的，因為，它就是 Self-play RL 的載體。

所以回頭看，草莓，可能是什麼。

是基於新範式 Self-play RL 所做的，在數學、代碼能力上強到爆炸、且具備自主為用户執行瀏覽器/系統操作級別的新模型。

更智能、更慢、更貴。

還有最後一個問題是，為啥草莓在數學能力和代碼能力上會強到爆炸？

這個答案就非常簡單了。

因為...數學和代碼，是非常好驗證的，在 Self-play 裏，可以給出明確的結果的，數學就不説了，代碼，你能不能跑起來不就能驗證了，對吧。

所以，這兩玩意，一定是最先一飛沖天的。

Claude3.5 的代碼能力為啥這麼牛逼，就是用 Self-play RL 做的。

想起前幾天，去跟一個做 AI 投資非常專業且牛逼的朋友聊，她前段時間剛從硅谷回來，見了 OpenAI 的人。

OpenAI 內部的研究員，是這麼形容 Self-play RL 的：

“我們通往 AGI 的路上，已經沒有任何阻礙。”

在沉寂了近一年之後，我們，可能要迎來一個全新的大模型技術爆發週期了。

真的。

我，拭目以待。

數字生命卡茲克，原文標題：《200 美元的 ChatGPT Pro 正式上線，聰明 N 倍的新模型草莓要來了。》