The implications of OpenAI's speech model gpt-realtime

OpenAI 推出了其新的語音到語音模型 gpt-realtime，增強了自然語言和推理能力。該模型支持新的 API 功能，包括模型上下文協議（MCP）和圖像輸入，使其適用於實時應用，如客户支持和教育。分析師指出其在提高人類表達能力方面的潛力，但也強調了延遲問題和對聲音模仿的監管審查等挑戰。該模型的定價為每百萬個輸入令牌 32 美元，輸出為 64 美元，並設有防止濫用的安全措施

OpenAI 的新語音對語音模型旨在實現更自然的語音和推理，展示了語音對語音技術的持續演變，以及 AI 語音與人類語音之間的差異日益模糊。

在 8 月 28 日，這家 AI 供應商推出了 gpt-realtime 和新的 API 功能，包括模型上下文協議（MCP）服務器支持、圖像輸入和通過會話發起協議（SIP）進行電話呼叫。SIP 是一種用於發起、管理和終止多媒體通信會話的協議，如語音和視頻通話、即時消息和 IP 網絡上的遊戲。

OpenAI 表示，新的 gpt-realtime 語音對語音在解釋系統消息和開發者提示方面表現良好。這意味着該模型可以逐字讀取支持電話中的免責聲明腳本，在句子中間切換語言或將字母數字段落重複給用户。OpenAI 還發布了兩個新聲音，Cedar 和 Marin，這些聲音在實時 API 中可用。

gpt-realtime 中的圖像輸入還允許用户將圖像、照片、截圖以及音頻或文本添加到實時 API 中。OpenAI 在去年十月推出了實時 API，現在已普遍可用，連同新的語音模型。

一些好處

該模型最適合自然聲音的語音代理將蓬勃發展。

"gpt-realtime 將語音識別、推理和語音生成統一為一個模型，消除了多模型管道的延遲，"Gartner 的分析師 Arun Chandrasekaran 説。"這使其適合實時、以語音為主的應用程序，在這些應用中流暢性和速度至關重要。"

他補充説，客户支持和呼叫中心將受益於富有表現力的多語言聲音。此外，教育和醫療行業可以利用它們進行輔導或患者互動。

Chandrasekaran 表示，這些新聲音對人類的表現力也有益。

"它忠實地遵循指令，承諾更平滑的情感語調，"他説。

新的模型在用户體驗方面是一個不錯的演變，The Futurum Group 的分析師 David Nicholson 表示。

"一些新聲音聽起來更自然，[這] 會讓一些人感到高興，而讓另一些人感到不安，"他説。"它仍然不是最自然的，但現在是最流暢的'後端'。"

他補充説，開發者之前需要為自動語音識別、語言理解和文本轉語音使用不同的模型。

"統一的語音對語音管道簡化了集成，"Nicholson 説。"這對開發者來説很重要，他們會喜歡簡化的工作流程。"

一些挑戰

然而，新的模型也帶來了一些挑戰。

Nicholson 表示，他在 5G 和家庭 Wi-Fi 上的測試顯示，該模型"仍然不是完全實時的。"

現在，我們至少有跡象表明我們有時在與 AI 交談。David Nicholson The Futurum Group 分析師

他補充説，延遲會隨着時間的推移而改善，甚至可能減輕 AI 語音變得如此真實的怪異感。

"現在，我們至少有跡象表明我們有時在與 AI 交談，"他説。"一旦延遲減少到足夠的程度，事情就會變得可怕。"

這種可怕感來自於人們將難以區分 AI 對話和人類對話的事實。

許多消費者已經很難區分什麼是 AI，什麼不是 AI。

"關於語音模仿的監管審查是一個主要的潛在挑戰，"Chandrasekaran 説。

根據 OpenAI 的説法，實時 API 具有幫助防止濫用的安全措施。開發者還可以通過 Agents SDK 添加自己的安全防護措施。

Chandrasekaran 補充説，語音對語音模型的另一個挑戰是 32k 的上下文窗口。他表示，與競爭對手相比，這個窗口較小，限制了長篇應用或高度依賴記憶的應用。

"32k 的限制支持擴展對話和多模態任務，但限制了非常長的對話或企業文檔處理，"他説。

gpt-realtime 模型的輸入費用為每百萬個令牌 32 美元，輸出費用為每百萬個令牌 64 美元。OpenAI 還透露，MCP 支持現在在實時 API 中可用。

Esther Shittu 是 Informa TechTarget 的新聞撰稿人和播客主持人，專注於人工智能軟件和系統。