記者實測 | 速度更快成本更低,人機交互更自然,OpenAI 新模型免費開放

第一財經
2024.05.14 01:38
portai
I'm PortAI, I can summarize articles.

OpenAI 發佈了新模型 GPT-4o 和 AI 聊天機器人 ChatGPT 的桌面版本。GPT-4o 具有較準確的生成結果和快速的速度,成本僅為前一代模型的一半,音頻和視頻功能也有改善。ChatGPT 免費用户也可以使用 GPT-4o。OpenAI 還與蘋果合作推出了適用於 macOS 的桌面級應用。新模型具有感知情緒的能力,可以處理用户的打斷。這是 OpenAI 在易用性方面邁出的一大步。

當地時間 5 月 13 日,OpenAI 通過直播展示了產品更新。與此前傳出的市場消息不同,OpenAI 並未推出搜索引擎,也未推出 GPT-4.5 或 GPT-5,而是發佈了 GPT-4 系列新模型 GPT-4o 以及 AI 聊天機器人 ChatGPT 的桌面版本,聚焦多模態和端側應用。

此前 OpenAI 公司 CEO 奧爾特曼(Sam Altman)就已經否認了公司將會發布 GPT-5,他表示新版 GPT 非常 “神奇”。根據 OpenAI 官方網站介紹,GPT-4o 中的 “o” 代表 Omni,也就是 “全能” 的意思。

據介紹,GPT-4o 文本、推理、編碼能力達到 GPT-4 Turbo 水平,速度是上一代 AI 大模型 GPT-4 Turbo 的兩倍,但成本僅為 GPT-4 Turbo 的一半,視頻、音頻功能得到改善。OpenAI CEO 奧爾特曼(Sam Altman)在博客中表示,ChatGPT 免費用户也能用上新發布的 GPT-4o。此外,OpenAI 還與蘋果走到一起,推出了適用於 macOS 的桌面級應用。

OpenAI 技術負責人 Mira Murati 在直播中表示:“這是我們第一次在易用性方面真正邁出的一大步。”

價格低於 GPT-4 Turbo

OpenAI 研究員 Mark Chen 表示,新模型具有 “感知情緒” 的能力,能輸出笑聲、歌唱或表達情感,還可以處理用户打斷它的情況。

在直播中,OpenAI 演示了一段 OpenAI 員工與 GPT-4o 對話的視頻,模型反應速度與人類相近,GPT-4o 可利用手機攝像頭描述其 “看到” 的東西。

另一段展示視頻裏,GPT-4o 被裝在兩個手機上,其中一個代表人類與電信公司打電話溝通設備更換事項,另一個 GPT-4o 扮演電信公司客服人員。OpenAI 還展示了 GPT-4o 搭載在手機上的實時翻譯能力。

根據 OpenAI 介紹,GPT-4o 與 GPT-3.5、GPT-4 的語音對談機制不同。GPT-3.5 和 GPT-4 會先將音頻轉換為文本,再接收文本生成文本,最後將文本轉換為音頻,經歷這三個過程,音頻中的情感表達等信息會被折損,而 GPT-4o 是跨文本、視覺和音頻的端到端模型,是 OpenAI 第一個綜合了這些維度的模型,可更好進行對談。

OpenAI 將 GPT-4o 定位為 GPT-4 性能級別的模型。據介紹,GPT-4o 在傳統基準測試中,文本、推理、編碼能力達到 GPT-4 Turbo 的水平。該模型接收文本、音頻和圖像輸入時,平均 320 毫秒響應音頻輸入,與人類對話中的響應時間相似,英文文本和代碼能力與 GPT-4 Turbo 相當,在非英文文本上有改善,提高了 ChatGPT 針對 50 種不同語言的質量和速度,並通過 OpenAI 的 API 提供給開發人員,使其即時就可以開始使用新模型構建應用程序。

第一財經記者在 OpenAI 官網看到,GPT-4o 輸入、輸出每 1M token(文本單位)收費 0.005 美元、0.015 美元,GPT-4 Turbo 輸入、輸出每 1M token 收費 0.01 美元、0.03 美元。

“在過去兩年中,我們花了大量精力在堆棧的每一層上提高 - 效率,作為這項研究的第一個成果,我們能使 GPT-4 級別的模型更廣泛應用,GPT-4o 即日起擴展紅隊訪問權限。” OpenAI 官網稱,GPT-4o 的文本和圖像功能今日在 ChatGPT 中推出,“我們計劃在未來幾周內在 API 中向一小部分值得信賴的合作伙伴推出對 GPT-4o 新音頻和視頻功能的支持。”

第一財經記者在 ChatGPT 網站看到,ChatGPT 已接入 GPT-4o 有限訪問權限,但免費用户還不能使用圖片生成功能。

記者使用了 GPT-4o 來描述圖片,發現其生成結果較準確,5 秒左右就能生成描述圖片的文字。

此外,OpenAI 還宣佈推出一款適用於 macOS 的桌面級應用,使用鍵盤快捷鍵就可向 ChatGPT 提問。用户可通過電腦與 ChatGPT 語音對話,GPT-4o 的新音頻和視頻功能後續將推出。OpenAI 已向 Plus 用户推出 macOS 應用程序,今年晚些時候還將推出 Windows 版本。

值得注意的是,近日還有消息傳出蘋果與 OpenAI 商談,以便在下一代 iPhone 操作系統使用 ChatGPT 功能。此次 OpenAI 重點展示了大模型在手機端側應用的能力。

不過,此次 OpenAI 並未發佈關於新模型的論文或技術文檔。

今日,OpenAI 特別強調了新模型的風險和侷限性。該公司稱:“GPT-4o 的音頻模式帶來了各種新的風險。在接下來的幾周和幾個月裏,我們將更關注技術基礎設施、培訓後的可用性以及發佈其他模式所需的安全性。例如,在發佈時,音頻輸出將僅限於選擇預設的聲音,並將遵守我們現有的安全政策。”

發力端側應用

不少科技界人士發表了對 OpenAI 此次產品更新的看法。“我沒想到 GPT-4o 會接近 GPT-5。傳聞中 OpenAI 的 ‘Arrakis’ 模型就採用多模態輸入和輸入。事實上,它可能是 GPT-5 的一個早期檢查點(checkpoint),尚未完成訓練。” 英偉達高級科學家 Jim Fan 在社交媒體上評論稱。

Jim Fan 認為,在谷歌召開 I/O 大會前,OpenAI 寧願發佈超過人們對 GPT-4.5 心理預期的產品,也不願因為推出達不到人們期望的 GPT-5,而讓人感到失望。此外,誰先贏得蘋果,誰就將大獲全勝,與 iOS 整合有幾個層次,例如拋棄 Siri,OpenAI 為 iOS 提煉出一個更小層級、設備上運行的 GPT-4o。雖然此次未公開相關論文,加利福尼亞大學聖克魯茲分校教授 Xin Eric Wang 還是評論認為,一個演示勝過千篇論文。

“比較讓人失望的是,這次 OpenAI 沒有發佈 GPT-5,連 GPT-4.5 都沒看到。OpenAI 發佈了一系列應用,最重要的是發佈了語音助手,由於使用了端到端大模型技術,體驗遠超 Siri。OpenAI 發佈應用,恰恰説明應用在人工智能領域大有可為。目前看來,GPT-5 可能還要 ‘難產’ 一段時間。” 獵豹移動董事長兼 CEO 傅盛表示。

近期業內對大模型在既有參數下推動應用落地、商業變現多有討論。OpenAI 在繼續研發下一代更大參數模型 GPT-5 的同時,也在推動價格下降、應用場景和用户羣體擴大。

從 API 價格看,GPT-3.5 Turbo 輸入、輸出每 1M token(文本單位)收費 0.0005 美元、0.0015 美元,GPT-4 為 0.03 美元、0.06 美元,GPT-4 之後定價就持續下降。今年 4 月,OpenAI 還宣佈 ChatGPT 無需註冊便可使用,此舉被業界解讀為擴大用户羣體的努力,或其算力成本得到一定下降。此次產品更新後,奧爾特曼在其博客中強調,OpenAI 使命的一個關鍵部分是讓強大的人工智能工具免費,或以一個不錯的價格推出。

包括 OpenAI 推出 macOS 桌面級應用在內,業內近期對大模型落地端側多有期待。蘋果就多次傳出與大模型廠商洽談合作,蘋果自身還在端側小模型領域佈局,並推出可支持 AI 運行、性能更強的 M4 芯片。

近日一場對談中,金沙江創投主管合夥人朱嘯虎也判斷,此前 Meta 發佈的 Llama3 系列兩個小模型性能強大,iPad Pro 則用了 M4 芯片,以後端側可能就直接跑一個小模型了。幾百億參數的小模型也可在端側直接跑,尤其是今年下半年 iPhone 新品可能就類似,明年應用層將會爆發。