
The battle of voice AI assistants begins! OpenAI VS Google - "iOS VS Android" in the AI mobile world

蘋果 iOS 18 有望引入 ChatGPT 技術,而谷歌則掌控着安卓系統的 “命脈”。AI 助手之後,AI 眼鏡會是下個戰場嗎?
本文作者:李笑寅
來源:硬 AI
本週,AI 圈 “王炸” 不斷:谷歌宣佈進入 Gemini 時代,“狂甩” 一堆更新,直接對線提前一天 “截胡” 推出新品的 OpenAI。
OpenAI 的 GPT-4o 卓越的實時交互能力令人印象深刻,而谷歌的 Project Astra 同樣以相媲美的能力作為反擊,引發行業對 AI 助手的討論度飆升。
根據已公開的信息,同樣作為 AI 語音助手,GPT-4o 和 Project Astra 都基於多模態模型打造,支持文本、圖片和音視頻內容的接收/生成,並能做到超短延遲、實時交互。
另外,根據此前的媒體報道,蘋果已經與 OpenAI 達成協議,將在全新操作系統 iOS 18 中引入 ChatGPT 技術,而谷歌掌控着安卓系統的 “命脈”。這不禁令人聯想:GPT-4o 和 Gemini 之間的這場對決會不會是下一個 AI 手機屆的 “iOS VS 安卓”?
正面 “硬剛”,誰更勝一籌?
逐一對比 GPT-4o 和 Project Astra(在 Gemini 中提供 Gemini Live 功能),會發現這兩款 AI 助手的確存在細節差異。
1)使用場景
GPT-4o 的響應延遲平均為 320 毫秒,最快在 232 毫秒內回應音頻輸入,接近人類對話的反應時間。在發佈會演示中,GPT-4o 的日常使用場景包括:口譯、讀寫編碼、數學教學、匯總並解讀信息、視頻識別情緒等。
Gemini Live 的視覺識別和語音交互效果和 GPT-4o 不相上下,同樣提供了對話式自然語言語音界面和通過手機攝像頭進行實時視頻分析的能力,反應速度也夠快,能進行自然日常對話。DeepMind CEO Demis Hassabis 形容其為 “一直希望打造一款在日常生活中有用的通用智能體”。
從易用性來看,二者之間差別不大。
不過,一個可能導致市場反響不同的點在於,GPT-4o 的演示是現場完成的,而谷歌的演示是發佈會前錄製的。
2)多模態能力
多模態能力是兩款 AI 助手主打的宣傳點,目前看來,GPT-4o 可能在音頻方面略微領先,而 Project Astra 展示的視覺功能則更勝一籌。
演示中,GPT-4o 展示了逼真的聲音、絲滑的對話流程、唱歌,甚至能夠根據用户的預期猜測情緒;而 Project Astra 展示了更 “高級” 的視覺功能,比如能夠 “記住” 你把眼鏡放在哪裏。
在多模態模型方面,Gemini 依賴其他模型進行輸出,包括使用 Imagen 3 處理圖像和 Veo 處理視頻;而 GPT-4o 採用的是原生的多模態,自發生成圖像和聲音。
3)產品定位
GPT-4o 的推出引發了市場對於現實版 “Her” 的討論,因其 AI 助手擁有情感表達充沛的女聲,甚至具有閒聊和開玩笑的能力,而 Project Astra 雖然也是女聲,但語氣更加沉着冷靜,更實事求是。
這體現出二者對於 “AI 助手” 產品定位的不同,OpenAI 希望其更 “擬人化”,而谷歌則希望其更 “代理化”。
谷歌曾表示,有意避免生產 “Her” 類型的人工智能。
在 DeepMind 上個月發表的論文中,該公司詳細介紹了擬人化 AI 的潛在缺點,認為這種 AI 助手將模糊 “人機界限”,可能會導致敏感信息泄露、人類情感依賴、代理能力削弱等問題。
4)訪問路徑
OpenAI 表示,即日起在 Web 界面和 GPT 應用程序上推出 GPT-4o 的文本和視覺功能。該公司還表示,將在未來幾周內增加語音功能,開發人員現可以訪問 API 中的文本和視覺功能。
谷歌表示,Gemini Live 將在“未來幾個月”通過 Google 的高級 AI 計劃 Gemini Advanced 推出。
有觀點認為,OpenAI 推出新功能的時點更早,可能意味着其產品在獲取新用户方面更具優勢。
5)費用
GPT-4o 面向 ChatGPT 的所有用户免費開放,API 價格降價 50%。
不過,目前官方給出的免費限制在一定的消息數量上,超過這個消息量後,免費用户的模型將被切換回 ChatGPT,也就是 GPT3.5,而付費用户(每月 20 美元起)則將擁有五倍的 GPT-4o 消息量上限。
Gemini Advanced 提供兩個月的免費試用期,此後每月收費 20 美元。
AI 眼鏡會是下個戰場嗎?
伴隨端側 AI 應用的推進,AI 助手將真正落地並應用於日常生活,屆時其實際效用才會逐一顯現。
不過,AI 語音助手似乎暗示了一種新的電子科技趨勢:從文本轉向音頻。
而接下來,視覺能力的深度融合似乎也正在路上。
發佈會上,谷歌表示,Project Astra 的另一重潛力在於,可以與谷歌眼鏡一起配合使用——盲人戴上後,可以在日常生活中獲得實時語音講解。
Meta 也推出了語音機器人 MetaAI,用於其 VR 耳機和 Ray-Ban 智能眼鏡。
有觀點認為,現階段,AI 語音助手的加入可能推升 AI 手機成為贏家,但往後看,這些語音 AI 模型的終極形態將是智能眼鏡。
