硬剛谷歌，OpenAI 即將公佈新功能，不是 GPT-5 也不是搜索

OpenAI 新產品或是一個具備視覺和聽覺功能的全新多模態 AI 模型，且具有比目前的聊天機器人更好的邏輯推理能力。

OpenAI 將於 5 月 13 日週一舉辦發佈全新的產品。但卻對到底要發佈什麼閃爍其詞。此前網友猜測的 GPT-5 或者 AI 搜索引擎都被否定。（OpenAI 直播時間週一太平洋時間 10:00，北京時間凌晨 1 點）

CEO 奧特曼發推表示：

不是 GPT-5，也不是搜索引擎，但我們一直在努力開發一些大家會喜歡的新東西！對我來説，它就像魔法一樣。

這個神秘的新產品到底是什麼？媒體援引兩位知情人士説法稱，新產品是一個具備視覺和聽覺功能的 AI 模型，且具有比目前的聊天機器人更好的邏輯推理能力。

一個有視覺和聽覺的全新多模態 AI

報道稱，OpenAI 最快可能會在下週一公開展示新產品，以搶在下週谷歌的一系列產品發佈之前。（北京時間週三凌晨 1 點：谷歌 I/O 2024 開發者大會）

奧特曼希望最終開發出一種類似電影《她》中的 AI 助手那樣能夠快速響應的人工智能，並以這種技術支持蘋果 Siri 等現有語音助手。

華爾街見聞此前提到，蘋果已經與 OpenAI 達成協議，將在 iOS 18 中使用後者的技術，強化 Siri 的功能。

OpenAI 已經有了可以轉錄音頻和將文本轉換成語音的軟件，但這些功能是通過單獨的 AI 聊天機器人實現的，而新產品則將這些功能整合在了一起，而且能夠更好地理解圖像和音頻，響應速度也更快。

OpenAI 認為，具有視覺和聽覺功能的助手有可能像智能手機一樣帶來變革。它可以觀察用户所處的環境信息，提供建議，潛在的用例如充當家庭教師、翻譯標誌、修理汽車等等。

由於新模型較為複雜，參數量級高，個人設備的配置暫時無法滿足其性能需要。

媒體分析指出，新模型運行依賴雲端，需要互聯網連接才能工作。要使具有視覺和聽覺功能的複雜人工智能對話變得足夠小巧，以便在手機等個人設備上運行，可能需要幾個月甚至幾年的時間。

目前也沒有消息透露 OpenAI 何時會向付費用户提供這些功能。不過根據一些企業的預覽來看，OpenAI 的新模型可以改進其服務中已有的功能，如自動客户服務代理。一位知情人士對媒體表示，新軟件的音頻功能可以幫助客服人員更好地理解來電者的語音語調。

此外，媒體還稱，OpenAI 希望新模型最終能免費開放給所有用户使用，因此需要讓其運行成本低於目前的最強大模型 GPT-4 Turbo。