OpenAI targets customer service with new audio models

OpenAI 推出了新的音頻模型，旨在通過語音代理增強客户服務。這些模型包括語音轉文本和文本轉語音功能，專為企業使用而設計，允許開發者自定義語音語調。分析師指出，這些創新可能減少對人工代理的需求，並改善客户互動中的自動化。然而，OpenAI 面臨來自專業 AI 供應商和現有呼叫中心解決方案的競爭。在處理特定語音細微差別（如縮略詞）以及在有效利用這些 API 時需要進行業務整合方面，仍然存在挑戰

OpenAI 推出了一套新的音頻模型，支持特定企業環境中的語音代理，例如客户服務。

這些模型包括 OpenAI 的實時 API 中的語音轉文本和文本轉語音音頻模型。

該人工智能供應商還推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe。OpenAI 表示，gpt-4o-transcribe 在詞錯誤率表現上優於 OpenAI 的開源語音轉文本模型。

這些新模型捕捉了語音的細微差別，減少了誤識別，並提高了轉錄的真實感。

OpenAI 還推出了 gpt-4o-mini TTS，這是一種文本轉語音模型，允許開發者 “指示” 模型説什麼以及如何説。

這些模型基於 GPT-4o 和 GPT-4o-mini 架構。

語調和受眾

根據 OpenAI 的説法，開發者可以指示模型以特定方式發聲。例如，用户可以告訴模型像 “同情的客户服務代理” 那樣説話。

Gartner 分析師 Arun Chandrasekaran 表示，這些新的音頻模型針對 OpenAI 的消費者受眾和一小部分企業市場。

許多消費者使用 ChatGPT，因此這些受眾會對音頻 API 中引入的一些語調感興趣，例如中世紀騎士、真實犯罪愛好者和睡前故事。

與此同時，像專業和冷靜這樣的語調將在處理憤怒客户的客户服務環境中非常有用，Chandrasekaran 表示。

他説：“客户服務是我們開始看到的增長最快的企業用例之一，我並不感到驚訝的是所有這些公司都在努力朝着有利可圖的方向發展。”

Forrester Research 分析師 William McKeon-White 表示，這些新模型將減少處理每次互動所需的人類代理數量，並允許更多自動化的互動語音響應系統。

他説：“我們實際上已經看到這些模型上線，與其他二級消費者合作，這些消費者本身就是供應商。他們已經在這些能力上取得了強勁的成功。”

McKeon-White 表示，用户應該能夠從 OpenAI 的語音模型中受益，因為該供應商提供的自動化和交付水平。

他説：“OpenAI 現在提供的這一點對許多看到不同模型的企業來説是相當有幫助的。”

OpenAI 對新模型錯誤率的分析顯示，這些模型在法語和西班牙語等廣泛使用的語言中有效。

一些挑戰

然而，McKeon-White 表示，看看這些模型如何處理縮略詞將是很好的，因為語音模型在處理縮略詞時會遇到挑戰。

此外，由於客户服務應用的競爭激烈，OpenAI 面臨一些挑戰。

其中之一是該供應商與從狹義角度看待客户服務的供應商競爭。例如，Sierra AI 是一家專注於客户服務的人工智能初創公司。

Chandrasekaran 表示，這與 OpenAI 不同，後者有多個模型和多個應用。

另一個挑戰是許多聯絡中心供應商，如 Genesys 已經將人工智能技術嵌入到他們的產品中。

Chandrasekaran 繼續説道：“他們都開始將人工智能嵌入其中，當然也與 OpenAI 的做法形成競爭。”

此外，雖然 API 對希望構建應用程序的團隊很有幫助，但對沒有團隊的人則沒有益處，McKeon-White 表示。

他説：“我們與大多數組織交談時，他們並不準備直接消費原始 API 來構建全新的系統。它需要業務邏輯，需要業務理解，還需要業務集成才能使一切正常運作。”

Esther Shittu 是 Informa TechTarget 的新聞撰稿人和播客主持人，專注於人工智能軟件和系統。