記者實測 | 速度更快成本更低，人機交互更自然，OpenAI 新模型免費開放

OpenAI 發佈了新模型 GPT-4o 和 AI 聊天機器人 ChatGPT 的桌面版本。GPT-4o 具有較準確的生成結果和快速的速度，成本僅為前一代模型的一半，音頻和視頻功能也有改善。ChatGPT 免費用户也可以使用 GPT-4o。OpenAI 還與蘋果合作推出了適用於 macOS 的桌面級應用。新模型具有感知情緒的能力，可以處理用户的打斷。這是 OpenAI 在易用性方面邁出的一大步。

當地時間 5 月 13 日，OpenAI 通過直播展示了產品更新。與此前傳出的市場消息不同，OpenAI 並未推出搜索引擎，也未推出 GPT-4.5 或 GPT-5，而是發佈了 GPT-4 系列新模型 GPT-4o 以及 AI 聊天機器人 ChatGPT 的桌面版本，聚焦多模態和端側應用。

此前 OpenAI 公司 CEO 奧爾特曼（Sam Altman）就已經否認了公司將會發布 GPT-5，他表示新版 GPT 非常 “神奇”。根據 OpenAI 官方網站介紹，GPT-4o 中的 “o” 代表 Omni，也就是 “全能” 的意思。

據介紹，GPT-4o 文本、推理、編碼能力達到 GPT-4 Turbo 水平，速度是上一代 AI 大模型 GPT-4 Turbo 的兩倍，但成本僅為 GPT-4 Turbo 的一半，視頻、音頻功能得到改善。OpenAI CEO 奧爾特曼（Sam Altman）在博客中表示，ChatGPT 免費用户也能用上新發布的 GPT-4o。此外，OpenAI 還與蘋果走到一起，推出了適用於 macOS 的桌面級應用。

OpenAI 技術負責人 Mira Murati 在直播中表示：“這是我們第一次在易用性方面真正邁出的一大步。”

價格低於 GPT-4 Turbo

OpenAI 研究員 Mark Chen 表示，新模型具有 “感知情緒” 的能力，能輸出笑聲、歌唱或表達情感，還可以處理用户打斷它的情況。

在直播中，OpenAI 演示了一段 OpenAI 員工與 GPT-4o 對話的視頻，模型反應速度與人類相近，GPT-4o 可利用手機攝像頭描述其 “看到” 的東西。

另一段展示視頻裏，GPT-4o 被裝在兩個手機上，其中一個代表人類與電信公司打電話溝通設備更換事項，另一個 GPT-4o 扮演電信公司客服人員。OpenAI 還展示了 GPT-4o 搭載在手機上的實時翻譯能力。

根據 OpenAI 介紹，GPT-4o 與 GPT-3.5、GPT-4 的語音對談機制不同。GPT-3.5 和 GPT-4 會先將音頻轉換為文本，再接收文本生成文本，最後將文本轉換為音頻，經歷這三個過程，音頻中的情感表達等信息會被折損，而 GPT-4o 是跨文本、視覺和音頻的端到端模型，是 OpenAI 第一個綜合了這些維度的模型，可更好進行對談。

OpenAI 將 GPT-4o 定位為 GPT-4 性能級別的模型。據介紹，GPT-4o 在傳統基準測試中，文本、推理、編碼能力達到 GPT-4 Turbo 的水平。該模型接收文本、音頻和圖像輸入時，平均 320 毫秒響應音頻輸入，與人類對話中的響應時間相似，英文文本和代碼能力與 GPT-4 Turbo 相當，在非英文文本上有改善，提高了 ChatGPT 針對 50 種不同語言的質量和速度，並通過 OpenAI 的 API 提供給開發人員，使其即時就可以開始使用新模型構建應用程序。

第一財經記者在 OpenAI 官網看到，GPT-4o 輸入、輸出每 1M token（文本單位）收費 0.005 美元、0.015 美元，GPT-4 Turbo 輸入、輸出每 1M token 收費 0.01 美元、0.03 美元。

“在過去兩年中，我們花了大量精力在堆棧的每一層上提高 - 效率，作為這項研究的第一個成果，我們能使 GPT-4 級別的模型更廣泛應用，GPT-4o 即日起擴展紅隊訪問權限。” OpenAI 官網稱，GPT-4o 的文本和圖像功能今日在 ChatGPT 中推出，“我們計劃在未來幾周內在 API 中向一小部分值得信賴的合作伙伴推出對 GPT-4o 新音頻和視頻功能的支持。”

第一財經記者在 ChatGPT 網站看到，ChatGPT 已接入 GPT-4o 有限訪問權限，但免費用户還不能使用圖片生成功能。

記者使用了 GPT-4o 來描述圖片，發現其生成結果較準確，5 秒左右就能生成描述圖片的文字。

此外，OpenAI 還宣佈推出一款適用於 macOS 的桌面級應用，使用鍵盤快捷鍵就可向 ChatGPT 提問。用户可通過電腦與 ChatGPT 語音對話，GPT-4o 的新音頻和視頻功能後續將推出。OpenAI 已向 Plus 用户推出 macOS 應用程序，今年晚些時候還將推出 Windows 版本。

值得注意的是，近日還有消息傳出蘋果與 OpenAI 商談，以便在下一代 iPhone 操作系統使用 ChatGPT 功能。此次 OpenAI 重點展示了大模型在手機端側應用的能力。

不過，此次 OpenAI 並未發佈關於新模型的論文或技術文檔。

今日，OpenAI 特別強調了新模型的風險和侷限性。該公司稱：“GPT-4o 的音頻模式帶來了各種新的風險。在接下來的幾周和幾個月裏，我們將更關注技術基礎設施、培訓後的可用性以及發佈其他模式所需的安全性。例如，在發佈時，音頻輸出將僅限於選擇預設的聲音，並將遵守我們現有的安全政策。”

發力端側應用

不少科技界人士發表了對 OpenAI 此次產品更新的看法。“我沒想到 GPT-4o 會接近 GPT-5。傳聞中 OpenAI 的 ‘Arrakis’ 模型就採用多模態輸入和輸入。事實上，它可能是 GPT-5 的一個早期檢查點（checkpoint），尚未完成訓練。” 英偉達高級科學家 Jim Fan 在社交媒體上評論稱。

Jim Fan 認為，在谷歌召開 I/O 大會前，OpenAI 寧願發佈超過人們對 GPT-4.5 心理預期的產品，也不願因為推出達不到人們期望的 GPT-5，而讓人感到失望。此外，誰先贏得蘋果，誰就將大獲全勝，與 iOS 整合有幾個層次，例如拋棄 Siri，OpenAI 為 iOS 提煉出一個更小層級、設備上運行的 GPT-4o。雖然此次未公開相關論文，加利福尼亞大學聖克魯茲分校教授 Xin Eric Wang 還是評論認為，一個演示勝過千篇論文。

“比較讓人失望的是，這次 OpenAI 沒有發佈 GPT-5，連 GPT-4.5 都沒看到。OpenAI 發佈了一系列應用，最重要的是發佈了語音助手，由於使用了端到端大模型技術，體驗遠超 Siri。OpenAI 發佈應用，恰恰説明應用在人工智能領域大有可為。目前看來，GPT-5 可能還要 ‘難產’ 一段時間。” 獵豹移動董事長兼 CEO 傅盛表示。

近期業內對大模型在既有參數下推動應用落地、商業變現多有討論。OpenAI 在繼續研發下一代更大參數模型 GPT-5 的同時，也在推動價格下降、應用場景和用户羣體擴大。

從 API 價格看，GPT-3.5 Turbo 輸入、輸出每 1M token（文本單位）收費 0.0005 美元、0.0015 美元，GPT-4 為 0.03 美元、0.06 美元，GPT-4 之後定價就持續下降。今年 4 月，OpenAI 還宣佈 ChatGPT 無需註冊便可使用，此舉被業界解讀為擴大用户羣體的努力，或其算力成本得到一定下降。此次產品更新後，奧爾特曼在其博客中強調，OpenAI 使命的一個關鍵部分是讓強大的人工智能工具免費，或以一個不錯的價格推出。

包括 OpenAI 推出 macOS 桌面級應用在內，業內近期對大模型落地端側多有期待。蘋果就多次傳出與大模型廠商洽談合作，蘋果自身還在端側小模型領域佈局，並推出可支持 AI 運行、性能更強的 M4 芯片。

近日一場對談中，金沙江創投主管合夥人朱嘯虎也判斷，此前 Meta 發佈的 Llama3 系列兩個小模型性能強大，iPad Pro 則用了 M4 芯片，以後端側可能就直接跑一個小模型了。幾百億參數的小模型也可在端側直接跑，尤其是今年下半年 iPhone 新品可能就類似，明年應用層將會爆發。