
Scaling Law is in a dilemma, is reinforcement learning the only hope for the whole village?

Scaling Law 面臨瓶頸,強化學習被視為 AI 突破的關鍵。近期,AI 行業的 Q3 總結指出,預訓練的 Scaling Law 已不再有效,80% 的公司可能放棄此策略。相反,Self-play RL 被認為是未來的希望,尤其在代碼能力方面,Claude Sonnet 3.5 的表現超越了 GPT-4o,顯示出 RL 的潛力。同時,OpenAI 即將發佈新模型,ChatGPT Pro 訂閲計劃也已推出,售價 200 美金/月。

橘子汽水鋪,作者:orangesai,原文標題:《Scaling Law 的困局、Self-play RL 的希望,以及 200 美金一斤的草莓》,題圖來自:AI 生成
Scaling Law 遇瓶頸,強化學習成 AI 突破點。• 🚀 強化學習在代碼、數學等領域實現單點突破
• 🍓 OpenAI 即將發佈新草莓模型
• 💰 ChatGPT Pro 訂閲 200 美金/月,新模型性能強大
這幾天,發生了三件事:
聽完了小珺和廣密的 AI 行業 Q3 總結性的播客,講到了預訓練的 Scaling Law 瓶頸,以及 Self-Play RL 的重要性;
The Information 爆料,OpenAI 即將在 2 周內發佈新的草莓模型;
ChatGPT Pro 訂閲計劃開始灰度,售價 200 美金/月,上去用了一下卻發現什麼都沒有。
這三件事關聯在一起,拼湊出了一些一些即將成為共識的信息。
一、Scaling Law 的困局
整個大語言模型行業已經很久沒有大的進步了。
這是所有人共同的感受。
在模型達到數千億參數之後,訓練成本和難度上升了很多,但似乎上萬億也並不能帶來質變的提升。
Ilya 更是直言,大家已經不知道談論 Scaling Law 的時候在 Scaling 什麼了,而他對 Scaling 有了一些新的思路。
廣密説道,硅谷逐漸形成的共識就是 RL 強化學習是接下來的突破點。
而預訓練方面,80% 的公司會放棄預訓練。
二、Self-play RL 全村的希望
預訓練玩不起,強化學習就成了全村的希望。
第一個超出預期的是 Claude Sonnet 3.5,代碼能力超越了 GPT-4o,賦能 Cursor ,讓 AI Coding 成了最熱的話題。在代碼能力方面的突破,使用的方法可能就是 RL。
第二個超出預期的是 DeepSeek,起步很晚,但是專注提升模型的推理、代碼、數學能力,最近把 Coder 和 Chat 模型合併,代碼水平接近 GPT-4o,在國內是斷檔第一的存在。
這兩家公司的共性就是:單點突破。
如果説大語言模型的特點是通用智能的提升, RL 的特點就是單點突破。
而推理、代碼、數學、Agent 就是目前價值最高的生產力領域,最適合做單點突破。
三、草莓模型,兩週駕到
這部分信息昨天來自 The Information 的報道:
OpenAI is planning to release a text-only version of "Strawberry" within the next two weeks, according to two testers involved with the model.
據兩名測試者透露,OpenAI 計劃在未來兩週內發佈 “Strawberry” 的純文本版本。
Early impressions indicate it’s somewhat underwhelming, primarily using chain-of-thought prompting. Responses take 10-20 seconds, making it slower than expected.
初步印象表明,它有些不及預期,主要是使用鏈式思維提示。響應時間為 10 到 20 秒,比預期的慢。
While testers found its performance slightly better than GPT-4o, Strawberry struggles with short, simple queries and has issues with memory integration.
雖然測試人員發現它的能力略優於 GPT-4o,但 Strawberry 在處理簡短 Query 時表現不佳,並且在記憶方面存在問題。
The model lacks image integration, making it exclusively text-based for now.
該模型目前不支持圖像集成,因此只能處理文本。
It is expected that Strawberry will have rate limits and might introduce a higher-priced tier for users seeking faster response times, diverging from the current pricing structure of ChatGPT.
預計 Strawberry 會設定速率限制,並可能為需要更快響應時間的用户推出更高價位的套餐,這與目前的 ChatGPT 定價結構有所不同。
四、ChatGPT Pro 上線,200 美金/月
前幾天有報道 OpenAI 考慮上一個 2000 美金/月的訂閲,簡直太瘋狂了。結果今天 OpenAI 終於公佈了實際的訂閲價格是:200 美金/月……
不知道是不是因為有 2000 美元的價格作鋪墊,感覺 200 美元的話,還行?
這個 200 美金的訂閲買完,用了一下,發現除了可以不限量使用 4o,並沒有什麼新的東西。
所以猜測唯一的可能就是即將發佈的草莓的價格。
卡茲克對草莓的一句話總結:基於新範式 Self-play RL 所做的,在數學、代碼能力上強到爆炸、且具備自主為用户執行瀏覽器/系統操作級別的新模型。更智能、更慢、更貴。
為什麼這麼貴?簡單説這就是更高智能的代價。
從效用角度來説,草莓模型的特點是:代碼、數學、推理能力、Agent 能力超強,這幾項能力都是高價值的,但説代碼能力,如果能比現在的 Claude 3.5 再明顯好一截,200 美金一個月也是能接受的。
從成本角度來説,草莓模型每次回答,會進行大量的內部 “思考”,會長達 10~20 秒,其算力消耗成本應該在 GPT4 的 10 倍以上。
從原理上來説,草莓的方法 Self-play RL 本身需要巨大的推理成本進行訓練,並且由於非實時性,這代模型的價值可能是合成數據,而非直接使用,而高質量數據的價格非常昂貴,200 美金也就夠博士生標個幾條吧。
既然定價已出,就等 OpenAI 11 月的 dev day 公佈模型了,今年 AI 行業的重頭戲,會是新的里程碑還是平淡如蘋果發佈會,讓我們拭目以待!
橘子汽水鋪,作者:orangesai
