A Review of OpenAI's Series of Press Conferences: From Tools to AGI, OpenAI's 12-Day Evolution Theory

華爾街見聞
2024.12.23 00:03
portai
I'm PortAI, I can summarize articles.

前四天重磅推出 o1 正式版、Sora、Canvas,中間 “水” 了幾天,最後一天直接甩出王炸——GPT-o3,一舉打破 AI 發展陷入瓶頸的懷疑。

OpenAI 年末的 12 天連續 Devday 更新終於落幕,每天蹲守觀看發佈會都像在開巧克力盲盒,不知道下一個是什麼口味。

在前 11 天的發佈會中,大部分屬實非常寡淡,只有三個產品還有些精彩的 “滋味”。

總結起來,能稱得上重磅的更新包括:o1 正式版、Sora、Canvas,它們主要集中在前 4 天發佈。

其中,o1 正式版確實提升很大,Sora 則是增加了不少對 AI 生成視頻進行更改的產品模式,Canvas 可以被視為 OpenAI 第一次挑戰 AI 工作台的產品嚐試。

其次,相對還有些看點的是:和蘋果的深度合作,視頻通話功能,以及 o1-mini 的強化微調。

o1-mini 的強化微調在專業領域潛力很大,微調簡單提升明顯。視頻通話功能則是那個讓人驚豔的 “HER” 正式上線。和蘋果的深度合作對 OpenAI 來講也是件大事,更站穩了在 AI 行業的一哥地位。

另外一些小的產品更新則是讓人覺得——“這也值得開發佈會?”

這些產品包括 “Projects” 項目功能、o1 圖像輸入和 4o 高級語音 API 正式開放、ChatGPT Search 升級和給 GPT 打電話 的功能。它們都是相對比較小,也都和競爭對手沒什麼差異的更新。

到了最後一天,OpenAI 終於甩出一個王炸:GPT-o3。一舉打破 AI 發展陷入瓶頸的懷疑,各項性能直奔 AGI 而去。

我們根據發佈產品的重要性做了一個表格,梳理這過山車似的十二天發佈日。

下面,我們來稍微詳細地講述一下這些更新的核心點。

重要產品更新

o1 完全版(Day1)

從能力上看,o1 確實比 Preview 版本有了比較大的進步。它在國際數學奧林匹克預選賽題目(AIME 2024)、編程能力測試(CodeForces)方面都比 o1- preview 提升了 50%。在處理複雜問題時的重大錯誤率降低了 34%。

它還能根據題目的難易程度調節處理時間,這使得用户等待時間下降超過 50%。

更重要的是 o1 也能支持多模態識別了。這讓它的實用性暴增。醫生可以用它分析醫學影像,工程師能讓它幫忙看圖紙,設計師還能讓它提供創意建議。

但它的價格也相當貴,只有 200 美金的 ChatGPT Pro 版訂閲用户才能享受無限使用,其他普通 20 美元訂閲用户僅能享受每日 20 次使用權限。

作為第一天登場的產品,o1 確實能讓人眼前一亮。

Sora(Day3)

等了 10 個月後,Sora 終於姍姍來遲。

但這不是個模型版本升級,而更像是一個產品打磨。正式版的 Sora 能生成最長 20 秒,最高 1080p 的視頻。生成效果和 2 月份剛放出的差異不大。

但產品上 OpenAI 確實下了點心思,故事板是此次發佈中最具創新性的功能,也是 Sora 最具野心的嘗試。它為用户提供了類似專業視頻編輯軟件的時間軸界面。用户可以在時間軸上添加多個場景卡片。用户可以將多個提示詞串聯起來,系統會自動處理場景之間的過渡效果。

除此之外,OpenAI 還提供了 Remix、Blend 和 Loop 三個專業工具。換掉視頻中的元素,或者混合兩個視頻,還能自動補全做無限循環視頻。

產品是挺不錯的,但沒升級過的模型不太給力。在發佈後的評測中,Sora 頻頻翻車,運動、交互和物理經常處理得一塌糊塗。還會有憑空出現的人和鬼影。

OpenAI 給的可用量也很小氣,20 美元的 Plus 用户每月可用 50 次。只有支付每月 200 美元的 Pro 用户則能享受無限次數的"慢速"生成權限。

Sora 總算來了,但是挺讓人失望的。

Canvas(Day4)

一句話形容,Canvas 就是 OpenAI 打造的 AI 版 Google Docs。

因為 Canvas 已經進化成了集智能寫作、代碼協作和 AI 智能體為一體的一套完整工作台。它顯示出了 OpenAI 超越 Chatbot 的產品野心。

作為寫作助手,可以提供編輯意見。

編程功能上,Canvas 則通過內置的 WebAssembly Python 模擬器,創造了一個幾乎無延遲的編程環境。它還展現出了理解代碼意圖的能力。

與近期更新的 Cursor 和 Devin 一樣,它上線了定製化 AI 智能體的能力。它可以完成一系列操作,幫你給朋友們發聖誕信。

Canvas 的這三個維度並不是孤立運作的。在實際使用中,它們往往會相互配合,這種無縫的集成使 Canvas 成了一個多功能 AI 驅動的創作工作室原型。

但單純從前端展示的角度看,它不如 Claude 的 Artifacts。編程的便利性也不如 Cursor。因此融合才是它的亮點吧。

一般產品更新

o1-mini 強化微調(Day2)

這一產品如果不是實用性較窄,也算是一個重磅發佈。

它改變了過去微調只是通過增加專業數據的邏輯,而是對具有推理能力的模型進行強化學習方向的微調。引導模型在面對複雜問題時有更深刻的思考能力。

現在,僅需 “幾十個例子” 甚至 12 個例子,就能夠讓模型有效學會特定領域的推理。根據 OpenAI 的研究數據,經過強化微調的 o1mini 模型,其測試通過率比傳統的 o1 模型高出 24%,相比未經過強化微調的 o1mini 則提升了整整 82%。

可惜只能微調 o1-mini,適用上也都是那些複雜領域任務,比如醫療、法律或金融和保險。泛用性較差。

高級視頻語音模式(Day6)

這又是個老餅上桌。5 月 13 日,在 GPT-4o 的演示中,OpenAI 的工作人員就能和 4o 視頻通話,可以看到我們實時的手機屏幕內容,或者根據相機裏的實時畫面和我們聊天或解答問題。

這次就是真正實裝了,沒有什麼升級。但這個功能本身還是非常重要的。

不過因為這個餅烙的時間有點長,前兩天微軟推出的 Vision 和谷歌還在烙的 Astra 也已經跟上了。OpenAI 的領先正在一點點被蠶食。

與蘋果的合作(Day5、Day11)

ChatGPT 和 Apple Intelligence 的,更像是個官宣深度結果。蘋果搞不定的只能讓賢 OpenAI 了。

整合主要包含三個方面:首先是與 Siri 的協同。當 Siri 判斷某個任務可能需要 ChatGPT 的協助時,它可以將任務移交給 ChatGPT 處理;

其次是寫作工具的增強,用户現在可以使用 ChatGPT 從頭開始撰寫文檔,還能進行文檔細化和總結;

第三是 iPhone 16 的相機控制功能,它能夠通過視覺智能讓用户更深入地瞭解拍攝對象。

後面第十一天的 Mac 整合,則是給了 GPT 更多 Mac 工具的調用權限。

我唯一不理解的就是這倆為什麼不能同一天宣佈,還非分兩天?

能力補齊和小功能更新(Day 7,8,9,10)

剩下的幾個更新最多隻能算是湊數。簡單一句話就能説清。

“Projects” 項目功能:它允許用户創建特定項目,上傳相關文件,設置自定義指令,並將所有與該項目相關的對話集中在一個地方。基本和 Claude 的沒差別。

ChatGPT 搜索升級:能在對話中搜索,支持多模態輸出。Perplexity 的 Pro 模式早支持了。

4o 熱點:美國用户能打電話用 4o 了!挺尊老愛老的,我看也算是給他們過重陽了。

o1 圖像輸入和 4o 高級語音 API 正式開放:我建議這個放在 o1 發佈當天最後一句話説完。

這幾天真的是有點進入拖時間的循環了。

最終王炸

GPT-o3(Day 12)

如果不是最後一天 GPT-o3 壓軸登場,我真的覺得 OpenAI 純粹是為了攪渾水才連開 12 天發佈會。

因為在這期間,Google 發佈了 Gemini 2 Flash,超快超強;Astra,看起來是真的 Agent 模樣;Voe2,碾壓 Sora ;Gemini 2 Flash Thinking,o1 人家也有了。就發了三篇公告幾個視頻,把 OpenAI 前 11 天的發佈全都掀了桌。

但在 Day 12,OpenAI 還是找回了雄風。用 o3 向業界證明:Scaling Law 未死,OpenAI 為王。

o3 是 o1 的下一個版本。在 9 月份 o1 發佈後僅 3 個月後,這一新版本在編碼、數學以及 ARC-AGI 基準測試等多個基準上就大幅超過了 OpenAI 此前的 o1 模型。

看幾個數據對比:

Codeforces 評分:2727——相當於全球人類程序員編碼競賽中,排名第 175 位。超過 99% 的人類程序員。

博士水平的科學問題(GPQA):87.7%——博士生一般得分 70%

最難的前沿數學測試:25.2%——其他模型沒有超過 2%,數學天才陶哲軒説該測試 “可能難住 AI 好幾年”

證明是否達到 AGI 的題目 ARC-AGI:87.5%——o1 的得分 25%

最值得注意的就是這最後一項測試 ARC-AGI,它展示的是模型新型任務適應能力。作為對比,之前 ARC-AGI-1 從 2020 年 GPT-3 的 0% 僅提升到 2024 年 GPT-4o 的 5%。這意味着模型不是死記硬背,而是真正在解決問題的能力。

雖然 ARC-AGI 測試中表現出色,但這並不意味着 o3 已達到了 AGI 水平,因為它仍會在一些非常簡單的任務中失敗,和人類智能有根本性的差別。

但不論如何,這都證明 OpenAI 選擇強化推理這個範式轉變成功了。人工智能的發展沒有任何放緩的跡象。Scaling Law 依然有效。

那些對 AI 停滯不前的擔憂,被 OpenAI 年末的聖誕禮物一掃而空。

雖然 o3 進行一次低算力計算的成本高達 20 美元,高算力甚至可能高達 3000 美元,要使用在現階段幾乎是不可能的。但算力會降低,Scaling Law 會延續。

3 個月,兩個頂尖模型,OpenAI 在這 12 天的最後一天又讓我們感受到了 2022 年末到 2023 年初從 ChatGPT 到 GPT4 那段時間 AI 撲面而來的速度。

也許正如之前參與開發了 o1 的 OpenAI 科學家 Noam Brown 在採訪中説的一樣,“2024 年,OpenAI 是在實驗,而 2025 年就是全速前進的一年。”

OpenAI 12 天的發佈會,過程波折,完美收工。為 2025 年的 AI 埋下了希望。

本文作者:郝博陽,來源: 騰訊科技,原文標題:《一文回顧 OpenAI 系列發佈會:從工具到 AGI,OpenAI 的 12 天進化論》