
Dialogue with Agora: Real-time interaction is driving the emergence of new AI tracks

聲網推出全球首個對話式 AI 引擎,支持快速升級為多模態大模型,具備 650ms 超低延時響應等五大能力。該引擎價格優惠,0.098 元/分鐘。聲網將 AI 作為核心戰略,致力於推動人機交互的升級,預計 AI 機遇將超越移動互聯網。2024 年 Q4,聲網母公司 Agora 實現營收 3445 萬美元,同比增長 3.6%。
作者 | 劉寶丹
編輯 | 周智宇
年初以來,DeepSeek 引發的熱潮正在推動 AI 行業加快落地,作為 AI Infra 公司,聲網無疑是 AI 落地的重要推力。
“數據不能分享,只能説超出預期。” 聲網 AI RTE(Real-Time Engagement 實時互動)產品線負責人姚光華對華爾街見聞表示,公司在除夕當日開放了對話式 AI 引擎 Private Beta 版本的邀請測試,新增的客户超出預期,而且都是頭部的客户。
近日,聲網正式發佈了對話式 AI 引擎,憑藉 650ms 超低延時響應、優雅打斷、全模型適配等五大能力,對話式 AI 引擎可支持任意文本大模型快速升級為 “能説會道” 的對話式多模態大模型。同時,對話式 AI 引擎的價格也更為優惠,1 分鐘不到 1 毛錢,只需 0.098 元/分鐘。
這是全球首個對話式 AI 引擎,聲網產品負責人和利鵬表示,AI 大模型推動了人和機器交互,對於 RTE 賽道是更大的擴展。之前大模型都是文字,現在通過 RTE 讓大模型能夠聽懂看懂,把場景變得更豐富,會有更多的應用落地。“AI 的機遇會比移動互聯網更大。”
聲網成立於 2014 年,主要提供實時音視頻互動技術。2024 年 Q4,聲網母公司 Agora 實現營收 3445 萬美元,同比增長 3.6%。目前,聲網已將 AI 作為公司一號工程,進行大力佈局和投入。
AI 時代正在加速到來,聲網要想抓住這個幾十年難得一見的機遇,實現跨越式發展,必須全力以赴。
搶佔 AI 機遇
問:這一波 AI 浪潮裏,聲網扮演的是什麼角色?
和利鵬:聲網是 AI Infra 的一部分。之前大模型都是文字輸入,將來我們要讓大模型更懂你,能收文字,能聽到,還能看到你,一維二維三維的信息讓它更理解你,交流起來會有更多的輸出。
問:聲網現在的核心競爭壁壘是什麼?
和利鵬:聲網之前是做人和人的實時交互,這次是人和機器的實時交互,內部基於之前的技術優勢快速適應這種變化,調整我們的算法,在之前的能力上延展。
如果大模型廠商直接提供多模態,我們也支持,跟他們是合作關係。海外比較好的一點就是產業鏈分工比較明確,都有各自的優勢。Open AI 選擇了我們的兄弟公司,國內幾個模型廠商其實也選擇了聲網。
大模型從頭去做交互的話,要求還是挺高的,多模態使用另外一種互聯網技術,會造成延時,可靠性不能保證。聲網在每個設備上都有端,我們適配了上萬個設備,假設大模型廠商現在去做,需要重新適配這些端,對他們來説,成本比較高。
問:拓展 AI 新業務,聲網內部能夠給到多大的權限?有多大的魄力去做這件事情?
和利鵬:這個肯定是一號工程,老闆直接上。
這個賽道不是一波熱潮,而是一個變革,我們肯定要抓住這個機會,聲網之前就已經在這方面有了一些積累。簡單來説,AI 投入肯定是公司的戰略,我們看到機會就會大力投入。
問:現在 DeepSeek 很火,您認為,企業接入 DeepSeek 是作為蹭熱度還是長期戰略投入?
和利鵬:我們經歷過很多輪熱點,AI 的機遇會比移動互聯網更大,時機也基本上成熟了,客户確實有實際需求,比如教育需求很明確,我們已經在對接陪伴類和工具類的需求。加入 AI 以後能夠幫到企業降本,DeepSeek 成本比較低,準確性也比較高,傳統企業很多都是重複性的勞動,替代會越來越多。
問:你們有沒有嘗試和 DeepSeek 溝通和合作?
和利鵬:DeepSeek 何時會推出自有多模態能力,取決於他們的優先級,但若聚焦實時交互領域,他們很可能需要與我們合作。將來肯定每個大模型都有自己的優勢和強項,我們的對話式引擎就是根據場景實時調度,這是我們產品設計理念的靈魂。
AI 需求超預期
問:對話式 AI 引擎目前的市場反饋怎麼樣?
姚光華:我們除夕開放 Private Beta 版本邀請測試,數據不能分享,只能説超出預期。我們會把沒有公開的直接發給存量客户,存量客户是點讚的。新增的客户超出預期,點讚的數量也是非常 Solid,都是非常頭部的客户。
問:春節到現在,聲網的客户類別有哪些變化?
和利鵬:我們內部有十幾種場景,最大的就是陪伴類,包括社交娛樂,基於 IoT 設備的小孩陪伴,教育場景的數字人,外呼和 AI 面試也比較多。
姚光華:有個新需求是海外打電話訂餐,用户點外賣,對面是個 AI 機器人,然後點餐,直接在餐廳系統下單。
和利鵬:我們是儘量提供能力,合作伙伴在做創新場景。要説目前 AI 爆款應用,現在還沒有,我的理解是,目前處在創新的前期,大家都在試用,哪一天爆款出來,就會是快速地增長。
問:如何看待實時互動的市場空間?
和利鵬:AI 大模型推動了人和機器交互,對於 RTE 賽道是更大的擴展。之前大模型都是文字,現在通過 RTE 讓大模型能夠聽懂看懂,也是把場景變得更豐富了,會有更多的應用落地。
我們認為,這次是人機交互界面的變革,之前我們一直用鍵盤,手機沒有觸摸屏,下一個變革應該就是所有觸摸式和鍵盤都變成語音式,現在我們已經看到了一些苗頭,很多之前做傳統軟件的公司,現在都在重新寫自己的代碼,要麼加智能助手,要麼加音頻輸入。人機交互的界面都變了,語音交互就得是實時的,這是一個比較大的 AI 賽道的變化。
我們也會看到,現在的模型是在雲端,將來會有端雲配合,聲網也有自己比較實時的網絡,需要更好地連通和覆蓋,這些會起到讓 AI 行業快速發展、快速迭代的作用。
問:1 分鐘不到 1 毛錢,將來市場容量的前景多大?
和利鵬:人和人交互只有那麼多人,人和機器交互,機器比人還多,賽道空間就更大了,對於我們來説是一個比較大的增長空間。至於是不是能夠很快收回成本,我們倒覺得沒有,AI 是一個比較長期的、大的機會,看到這個機會肯定要快速進去。達到一定預期以後,我們肯定會有比較好的收入。
問:價格還有下降的空間嗎?
和利鵬:我們未必會降價,因為首先要保證體驗越來越好,將來帶來情感價值,我們反而是想把質量進一步提升,讓用户覺得更值。當然,大家要是覺得成本比較貴,我們到時候再去考慮,但目前的情況下,我們要把質量不斷提得更高。
姚光華:因為我們已經把價格定得很便宜了。
AI 幻覺不能消滅,可以減少
問:對話式 AI 引擎從立項到落地的過程中,都碰到哪些問題和瓶頸,怎麼解決的?
姚光華:對話式引擎牽涉到的部門比較多,包括算法、體驗、工程化、測試、產品等等,過年的時候專門找了一個小黑屋,所有人在裏面加班,一共應該有十幾個人。DeepSeek 出來之後,我們做 AI 的人全部都在加班,看到 DeepSeek 給中國科技界帶來的正向影響,我們也想參與到這種浪潮中。
和利鵬:現在的產品開發過程都是動態的,潛在的用户不斷反饋,也在和一些友商 PK。我們的產品需要快速反應、快速迭代。聲網成立至今 11 年,一直都在打造這種開發能力,特別是實時互動方面,我們還是很有信心的。
問:你們有沒有遇到過比較大的挑戰?
姚光華:即時互動是按照毫秒壓縮,特別是響應延遲,我們做到 1 秒鐘,接下來就要再壓縮。我們給出一個清晰的目標,要做到世界一流,然後最終把體驗做出來。
和利鵬:對話式 AI 強調體驗,包括延遲、響應打斷、人聲的鎖定。之前聲網實現了人和人之間的即時交流,這次是人和機器的交流,交流模式發生了變化,技術要求是不一樣的。我和你交流只需要分配網絡,但對面是機器的話,可能會有打斷和快速響應,在落地工程化方面還是有很多的挑戰。
姚光華:AI 用户體驗相當於無人區,沒人知道衡量哪幾個指標,比如,鎖定人聲這一點之前根本沒人提過,是客户提出來的,不想失去實時打斷的能力,就要把對話過濾做出來,之前有沒有降噪基礎,沒有的話就要開發一個新的。我們是把認知變成標準,把標準變成指標,然後呈現到今天發佈的產品當中。
問:Manus 過代碼構成整個網絡步驟,這種語音上的 Agent 和圖文上的 Agent 有什麼區別?
和利鵬:人的交互模式肯定是多模態的,實時互動是很重要的一部分,隨着行業的發展,我們就在想能不能不輸入文字?語音包含情緒,所以信息會更豐富。我覺得目前是這種形態,是不是可以用攝像頭交互,讓攝像頭完成一些事情?可能讓 AI 把簡歷過一下,打開攝像頭和麥克風以後還能不能做其他的事情?這些是我們比較關注的。
現在來看,Agent 的形態肯定非常多,輸入方式也非常多,將來可能把語音也會加入進去,或者多個人同時去做一件事情。行業發展得太快,我們是把基礎能力準備好,讓大家在裏面去做創新的場景。
姚光華:AI 引擎產品之所以叫引擎,就是因為我們不做 Agent,只想構建對話式,將來會有其他的調整。我們覺得這是一種顛覆性的交互方式,對話的情緒價值如果能夠發展得非常好,Humanlike 做得非常好,就是超越工具以外的一個陪伴的東西,可能是一個寵物,介於寵物和朋友之間。
問:Minimax、ChatGPT 等對話產品都有嚴重的幻覺問題,怎樣消除幻覺?
和利鵬:幻覺減少肯定是模型自己本身要迭代的,除此之外,我們要看到周圍的噪音,如果讓你的聲音不清楚,也會造成誤解。聲網需要鎖定人的聲音,把背景的聲音都清除,讓原始聲音很乾淨。
幻覺這個東西不可消滅,可以減少,就像今天的採訪,人和人的交流也會有誤解,但你發現誤解的話,通過告知更多的上下文讓對方知道自己説錯了。人和人之間交流都會有幻覺,我們的知識背景不一樣,你的理解和我的理解也不一樣,但通過幾次交流,大概知道我是什麼意思。
姚光華:我也這麼認為,模型的參數量更小,聚焦在一個垂類的話,上下文的不斷增多會讓幻覺減少。
今後我們都在推理參與決策,這是最核心的,看到幻覺產生的路徑,然後告訴對方,這個東西你想錯了,然後就會重新開始想這個事情,參與最終的決策,這是消除幻覺的唯一路徑。
問:這就減少了實時交互的可能性,就像自動駕駛,等着思維鏈的輸出不太可能。
和利鵬:我們也在討論,一定要分場景。有些場景是實時的,不能有等待的時間。我們現在也接到具身機器人的需求,延時的要求很高,包括客服外呼等等,不能等半天才回答,所以這確實是比較細分的,不是所有場景都要用聲網,還是要找到最合適的,就是延時、交互、陪伴等等。
最近我也看到智能硬件的需求確實比較多,我們跟芯片廠商合作,打造出不同的形狀,但裏面都是對話式 AI。孩子用了 DeepSeek 以後變成了十萬個為什麼,小孩希望快速互動,不在於答案准不準確,就是希望能玩起來。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
