Dialogue with Agora: Real-time interaction is driving the emergence of new AI tracks

聲網推出全球首個對話式 AI 引擎，支持快速升級為多模態大模型，具備 650ms 超低延時響應等五大能力。該引擎價格優惠，0.098 元/分鐘。聲網將 AI 作為核心戰略，致力於推動人機交互的升級，預計 AI 機遇將超越移動互聯網。2024 年 Q4，聲網母公司 Agora 實現營收 3445 萬美元，同比增長 3.6%。

作者 | 劉寶丹

編輯 | 周智宇

年初以來，DeepSeek 引發的熱潮正在推動 AI 行業加快落地，作為 AI Infra 公司，聲網無疑是 AI 落地的重要推力。

“數據不能分享，只能説超出預期。” 聲網 AI RTE（Real-Time Engagement 實時互動）產品線負責人姚光華對華爾街見聞表示，公司在除夕當日開放了對話式 AI 引擎 Private Beta 版本的邀請測試，新增的客户超出預期，而且都是頭部的客户。

近日，聲網正式發佈了對話式 AI 引擎，憑藉 650ms 超低延時響應、優雅打斷、全模型適配等五大能力，對話式 AI 引擎可支持任意文本大模型快速升級為 “能説會道” 的對話式多模態大模型。同時，對話式 AI 引擎的價格也更為優惠，1 分鐘不到 1 毛錢，只需 0.098 元/分鐘。

這是全球首個對話式 AI 引擎，聲網產品負責人和利鵬表示，AI 大模型推動了人和機器交互，對於 RTE 賽道是更大的擴展。之前大模型都是文字，現在通過 RTE 讓大模型能夠聽懂看懂，把場景變得更豐富，會有更多的應用落地。“AI 的機遇會比移動互聯網更大。”

聲網成立於 2014 年，主要提供實時音視頻互動技術。2024 年 Q4，聲網母公司 Agora 實現營收 3445 萬美元，同比增長 3.6%。目前，聲網已將 AI 作為公司一號工程，進行大力佈局和投入。

AI 時代正在加速到來，聲網要想抓住這個幾十年難得一見的機遇，實現跨越式發展，必須全力以赴。

搶佔 AI 機遇

問：這一波 AI 浪潮裏，聲網扮演的是什麼角色？

和利鵬：聲網是 AI Infra 的一部分。之前大模型都是文字輸入，將來我們要讓大模型更懂你，能收文字，能聽到，還能看到你，一維二維三維的信息讓它更理解你，交流起來會有更多的輸出。

問：聲網現在的核心競爭壁壘是什麼？

和利鵬：聲網之前是做人和人的實時交互，這次是人和機器的實時交互，內部基於之前的技術優勢快速適應這種變化，調整我們的算法，在之前的能力上延展。

如果大模型廠商直接提供多模態，我們也支持，跟他們是合作關係。海外比較好的一點就是產業鏈分工比較明確，都有各自的優勢。Open AI 選擇了我們的兄弟公司，國內幾個模型廠商其實也選擇了聲網。

大模型從頭去做交互的話，要求還是挺高的，多模態使用另外一種互聯網技術，會造成延時，可靠性不能保證。聲網在每個設備上都有端，我們適配了上萬個設備，假設大模型廠商現在去做，需要重新適配這些端，對他們來説，成本比較高。

問：拓展 AI 新業務，聲網內部能夠給到多大的權限？有多大的魄力去做這件事情？

和利鵬：這個肯定是一號工程，老闆直接上。

這個賽道不是一波熱潮，而是一個變革，我們肯定要抓住這個機會，聲網之前就已經在這方面有了一些積累。簡單來説，AI 投入肯定是公司的戰略，我們看到機會就會大力投入。

問：現在 DeepSeek 很火，您認為，企業接入 DeepSeek 是作為蹭熱度還是長期戰略投入？

和利鵬：我們經歷過很多輪熱點，AI 的機遇會比移動互聯網更大，時機也基本上成熟了，客户確實有實際需求，比如教育需求很明確，我們已經在對接陪伴類和工具類的需求。加入 AI 以後能夠幫到企業降本，DeepSeek 成本比較低，準確性也比較高，傳統企業很多都是重複性的勞動，替代會越來越多。

問：你們有沒有嘗試和 DeepSeek 溝通和合作？

和利鵬：DeepSeek 何時會推出自有多模態能力，取決於他們的優先級，但若聚焦實時交互領域，他們很可能需要與我們合作。將來肯定每個大模型都有自己的優勢和強項，我們的對話式引擎就是根據場景實時調度，這是我們產品設計理念的靈魂。

AI 需求超預期

問：對話式 AI 引擎目前的市場反饋怎麼樣？

姚光華：我們除夕開放 Private Beta 版本邀請測試，數據不能分享，只能説超出預期。我們會把沒有公開的直接發給存量客户，存量客户是點讚的。新增的客户超出預期，點讚的數量也是非常 Solid，都是非常頭部的客户。

問：春節到現在，聲網的客户類別有哪些變化？

和利鵬：我們內部有十幾種場景，最大的就是陪伴類，包括社交娛樂，基於 IoT 設備的小孩陪伴，教育場景的數字人，外呼和 AI 面試也比較多。

姚光華：有個新需求是海外打電話訂餐，用户點外賣，對面是個 AI 機器人，然後點餐，直接在餐廳系統下單。

和利鵬：我們是儘量提供能力，合作伙伴在做創新場景。要説目前 AI 爆款應用，現在還沒有，我的理解是，目前處在創新的前期，大家都在試用，哪一天爆款出來，就會是快速地增長。

問：如何看待實時互動的市場空間？

和利鵬：AI 大模型推動了人和機器交互，對於 RTE 賽道是更大的擴展。之前大模型都是文字，現在通過 RTE 讓大模型能夠聽懂看懂，也是把場景變得更豐富了，會有更多的應用落地。

我們認為，這次是人機交互界面的變革，之前我們一直用鍵盤，手機沒有觸摸屏，下一個變革應該就是所有觸摸式和鍵盤都變成語音式，現在我們已經看到了一些苗頭，很多之前做傳統軟件的公司，現在都在重新寫自己的代碼，要麼加智能助手，要麼加音頻輸入。人機交互的界面都變了，語音交互就得是實時的，這是一個比較大的 AI 賽道的變化。

我們也會看到，現在的模型是在雲端，將來會有端雲配合，聲網也有自己比較實時的網絡，需要更好地連通和覆蓋，這些會起到讓 AI 行業快速發展、快速迭代的作用。

問：1 分鐘不到 1 毛錢，將來市場容量的前景多大？

和利鵬：人和人交互只有那麼多人，人和機器交互，機器比人還多，賽道空間就更大了，對於我們來説是一個比較大的增長空間。至於是不是能夠很快收回成本，我們倒覺得沒有，AI 是一個比較長期的、大的機會，看到這個機會肯定要快速進去。達到一定預期以後，我們肯定會有比較好的收入。

問：價格還有下降的空間嗎？

和利鵬：我們未必會降價，因為首先要保證體驗越來越好，將來帶來情感價值，我們反而是想把質量進一步提升，讓用户覺得更值。當然，大家要是覺得成本比較貴，我們到時候再去考慮，但目前的情況下，我們要把質量不斷提得更高。

姚光華：因為我們已經把價格定得很便宜了。

AI 幻覺不能消滅，可以減少

問：對話式 AI 引擎從立項到落地的過程中，都碰到哪些問題和瓶頸，怎麼解決的？

姚光華：對話式引擎牽涉到的部門比較多，包括算法、體驗、工程化、測試、產品等等，過年的時候專門找了一個小黑屋，所有人在裏面加班，一共應該有十幾個人。DeepSeek 出來之後，我們做 AI 的人全部都在加班，看到 DeepSeek 給中國科技界帶來的正向影響，我們也想參與到這種浪潮中。

和利鵬：現在的產品開發過程都是動態的，潛在的用户不斷反饋，也在和一些友商 PK。我們的產品需要快速反應、快速迭代。聲網成立至今 11 年，一直都在打造這種開發能力，特別是實時互動方面，我們還是很有信心的。

問：你們有沒有遇到過比較大的挑戰？

姚光華：即時互動是按照毫秒壓縮，特別是響應延遲，我們做到 1 秒鐘，接下來就要再壓縮。我們給出一個清晰的目標，要做到世界一流，然後最終把體驗做出來。

和利鵬：對話式 AI 強調體驗，包括延遲、響應打斷、人聲的鎖定。之前聲網實現了人和人之間的即時交流，這次是人和機器的交流，交流模式發生了變化，技術要求是不一樣的。我和你交流只需要分配網絡，但對面是機器的話，可能會有打斷和快速響應，在落地工程化方面還是有很多的挑戰。

姚光華：AI 用户體驗相當於無人區，沒人知道衡量哪幾個指標，比如，鎖定人聲這一點之前根本沒人提過，是客户提出來的，不想失去實時打斷的能力，就要把對話過濾做出來，之前有沒有降噪基礎，沒有的話就要開發一個新的。我們是把認知變成標準，把標準變成指標，然後呈現到今天發佈的產品當中。

問：Manus 過代碼構成整個網絡步驟，這種語音上的 Agent 和圖文上的 Agent 有什麼區別？

和利鵬：人的交互模式肯定是多模態的，實時互動是很重要的一部分，隨着行業的發展，我們就在想能不能不輸入文字？語音包含情緒，所以信息會更豐富。我覺得目前是這種形態，是不是可以用攝像頭交互，讓攝像頭完成一些事情？可能讓 AI 把簡歷過一下，打開攝像頭和麥克風以後還能不能做其他的事情？這些是我們比較關注的。

現在來看，Agent 的形態肯定非常多，輸入方式也非常多，將來可能把語音也會加入進去，或者多個人同時去做一件事情。行業發展得太快，我們是把基礎能力準備好，讓大家在裏面去做創新的場景。

姚光華：AI 引擎產品之所以叫引擎，就是因為我們不做 Agent，只想構建對話式，將來會有其他的調整。我們覺得這是一種顛覆性的交互方式，對話的情緒價值如果能夠發展得非常好，Humanlike 做得非常好，就是超越工具以外的一個陪伴的東西，可能是一個寵物，介於寵物和朋友之間。

問：Minimax、ChatGPT 等對話產品都有嚴重的幻覺問題，怎樣消除幻覺？

和利鵬：幻覺減少肯定是模型自己本身要迭代的，除此之外，我們要看到周圍的噪音，如果讓你的聲音不清楚，也會造成誤解。聲網需要鎖定人的聲音，把背景的聲音都清除，讓原始聲音很乾淨。

幻覺這個東西不可消滅，可以減少，就像今天的採訪，人和人的交流也會有誤解，但你發現誤解的話，通過告知更多的上下文讓對方知道自己説錯了。人和人之間交流都會有幻覺，我們的知識背景不一樣，你的理解和我的理解也不一樣，但通過幾次交流，大概知道我是什麼意思。

姚光華：我也這麼認為，模型的參數量更小，聚焦在一個垂類的話，上下文的不斷增多會讓幻覺減少。

今後我們都在推理參與決策，這是最核心的，看到幻覺產生的路徑，然後告訴對方，這個東西你想錯了，然後就會重新開始想這個事情，參與最終的決策，這是消除幻覺的唯一路徑。

問：這就減少了實時交互的可能性，就像自動駕駛，等着思維鏈的輸出不太可能。

和利鵬：我們也在討論，一定要分場景。有些場景是實時的，不能有等待的時間。我們現在也接到具身機器人的需求，延時的要求很高，包括客服外呼等等，不能等半天才回答，所以這確實是比較細分的，不是所有場景都要用聲網，還是要找到最合適的，就是延時、交互、陪伴等等。

最近我也看到智能硬件的需求確實比較多，我們跟芯片廠商合作，打造出不同的形狀，但裏面都是對話式 AI。孩子用了 DeepSeek 以後變成了十萬個為什麼，小孩希望快速互動，不在於答案准不準確，就是希望能玩起來。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。