對話式 AI 的天花板來了,Hume AI 再拿 5000 萬美金融資

華爾街見聞
2024.03.29 08:21
portai
I'm PortAI, I can summarize articles.

Hume AI 最近推出了共情 AI 語音接口 EVI,可以將情感智能人工智能語音集成到健康和保健、AR/VR、客户服務呼叫中心、醫療保健等領域的應用程序中。Hume AI 利用聲調了解用户何時説完話,預測他們的偏好,並隨着時間的推移優化滿意度。這個創新有望加速 AI 取代客服行業的進程。

之前我介紹過好幾個對話式 AI 產品,或者也可以將它們稱為 AI Phone,比方説 Bland AI、Retell 以及 Arini 等,它們被廣泛應用於客服、銷售以及醫療健康行業,主要處理客服或前台這些工作。

因為這些產品的大量出現,以及一些大企業已經開始用 AI 來取代其客服人員,比方説 Klarna 已經用 AI 取代了 700 名客服人員,於是我在之前的文章《AI 取代人類的工作,正在從客服行業開始》裏説,客服可能會是第一個被 AI 大量取代的行業。

這點和 Sequoia 在 AI Ascent 2024 大會上的觀點基本上一致(在 vcsmemo.com 閲讀),而 Hume 這個產品的最新成果,肯定會加速這一進程,這是我目前看到所有對話式 AI 產品裏一個天花板的存在。

Hume AI 剛剛推出了世界上第一款共情 AI 語音接口 EVI(Empathic Voice Interface),它可以讓開發人員能夠通過幾行代碼將情感智能人工智能語音集成到健康和保健、AR/VR、客户服務呼叫中心、醫療保健等領域的應用程序中。

它根據數百萬次人類互動的數據進行訓練,利用聲調了解用户何時説完話,預測他們的偏好,並隨着時間的推移優化滿意度,由 Hume 開發的一種新型多模態生成式人工智能(稱為移情大語言模型 (eLLM))提供支持。

這個模型將大型語言模型 (LLM) 與表情測量相結合,Hume 將其稱為移情大型語言模型 (eLLM),使 EVI 能夠根據上下文和用户的情緒表達來調整其用詞和語氣。在用户中斷 AI 時它會停止説話,並以低於 700 毫秒的延遲實時生成快速響應,從而實現流暢的、接近人類水平的對話。

我簡單做了一下體驗後(上面是對話時的一個截圖),真的是有那種 Wow 的感覺。與這個 AI 的對話,它給我的感覺比真人還舒服,我甚至可以直接教它説中文,而它教我英文,它就像真人一樣會跟着我學着説中文,體驗真的是很不錯(我一般的文章很少用形容詞來説一個產品),這放到客服行業,絕大部分客服被幹掉我想只是時間問題。當然還有很多其它行業可以使用它,只要涉及到與人對話。

發佈這個產品的同時,Hume AI 剛剛宣佈完成 了 5000 萬美金的 B 輪融資,由 EQT Ventures 領投,Union Square Ventures、Nat Friedman & Daniel Gross、Metaplanet、Northwell Holdings、Comcast Ventures 和 LG Technology Ventures 跟投。

Hume AI 由 Alan Cowen 博士創立,他之前是 Google 研究員和科學家,因開創語義空間理論而聞名。語義空間理論是一種理解情感體驗和表達的計算方法,揭示了聲音、面部和手勢的細微差別,這些細微差別現在被理解為成為全球人類交流的核心。

Alan Cowen 認為,AI 需要情感並且其界面的未來將是基於語音的

當前人工智能系統的主要侷限性在於,它們受到膚淺的人類評級和指令的指導,這些評級和指令容易出錯,無法利用人工智能的巨大潛力來提出讓人們快樂的新方法。通過構建直接從人類幸福的代理中學習的人工智能,我們有效地教它從第一性原理重建人類的偏好,然後用它與它交談的每一個新人和它嵌入的每個新應用程序來更新這些知識。

AI 界面的未來將是基於語音的,因為語音比打字快四倍,攜帶的信息量也是打字的兩倍,但為了充分利用這一點,你真的需要一個更多地捕捉不僅僅是語言的對話界面。

一位叫 Dacher Keltner 的情感科學家説,Alan Cowen 的研究改變了我們對聲音、面部、身體和手勢中情感表達的豐富語言的理解,他的作品開闢了整個研究領域,以理解聲音的情感豐富性和麪部表情的微妙之處。

目前 Hume 的團隊有 35 個人,團隊在頂級期刊上已經發表了 8 篇論文。在去年 2 月份完成 1270 萬美金的 A 輪融資時,Hume 就已經向 2000 多家公司和研究機構推出其技術的測試版,而早期重點關注在醫療保健行業的應用。

當時 USV 的合夥人 Andy Weissman 説,隨着人工智能技術開始塑造我們生活的方方面面,我們將確保它培養我們的情緒健康,並將其作為一項基本的首要目標。

與面部表情相比,聲音更豐富,它帶有非語言暗示。Hume 對語音韻律中的一些微妙品質進行了解碼:語調、音色和節奏。它通過理解某事是如何説的,而不僅僅是説了什麼,從而超越了語言。他們還研究 “人聲爆發”,包括嘆息、喘息、咕嚕聲、大笑、尖叫、哎呀和啊等。

Sequoia 合夥人 Pack Grady 在 AI Ascent 2024 大會上説,AI 最大的機會之一,是用軟件取代服務,因為 AI 具備了類人的交互能力。這個交互能力體現在創造力和推理能力,有了創造力和推理能力,就相當於 AI 擁有了大腦的左右兩半球。如果 AI 還具有了情感表達,未來將會如何演變?

本文來源:投資實習所,原文標題:《對話式 AI 的天花板來了,Hume AI 再拿 5000 萬美金融資》