Meta 大動作！開源多感官 AI 模型，不僅能看會聽，還能 “感知温度”

Meta 帶着 ImageBind 再次衝進 AI 戰場，當 AI 擁有了多種感官，且學會 “腦補”，Meta 的元宇宙夢還遠嗎？

前段時間，帶着開源模型 LlaMA“殺的” 谷歌和微軟 “措手不及” 的 Meta，又一次在 AI 戰場上丟下了一顆重磅炸彈。

今天，Meta 重磅開源了多感官 AI 模型 ImageBind（https://github.com/facebookresearch/ImageBind）。以視覺為核心，結合文本、聲音、深度、熱量（紅外輻射）、運動（慣性傳感器），最終可以做到 6 個模態之間任意的理解和轉換。

這也是第一個能夠整合六種類型數據的 AI 模型。

如何讓 AI 以更接近人類的方式理解這個世界？——也讓 AI 擁有多種感官，學會 “腦補”。

一張大海的照片可以讓我們的腦海裏響起海浪的聲音，回憶起海邊腥鹹的味道。當我們聽到瀑布聲，腦海裏便會浮現恢弘的瀑布奇觀。

Meta 指出，未來還將有其他可以被添加到模型中的感官輸入流，包括 “觸摸、講話、氣味和大腦 fMRI（功能性磁共振成像）信號”。與此同時，ImageBind 還可以進行跨模態檢索，如火車喇叭音頻，文本、深度、圖片和視頻。

儘管目前 ImageBind 只是一個研究項目，但它展示了未來人工智能生成多感官感知的可能性，或許也使 Meta 的元宇宙夢更近了。

Meta 在論文中解釋稱，他們把不同模態數據串聯在了一個嵌入空間（Embedding Space），讓其從多維度理解世界。

有網友評價道，imageBind 的出現使 AI 發展過程中又迎來了激動人心的時刻：

“這項創新為 AI 搜索能力、沉浸式 VR 體驗和更高級的 AI 技術鋪平了道路。對於 AI 愛好者和專業人士來説，激動人心的時刻即將到來！”。

有網友評論稱，ImageBind 的誕生就是為了模擬人類感知。ImageBind 面世，賈維斯也不遠了。

英偉達科學家 Jim Fan 點評道：自 LLaMA 以來，Meta 就在開源領域大放異彩。

不過，對於 Meta 開源大模型的做法，也有人提出了質疑。如 OpenAI 便表示，這種做法對創作者有害，競爭對手可以隨意複製且可能具有潛在的危險，允許惡意行為者利用最先進的人工智能模型。

更接近人類感知的元宇宙？

相比 Midjourney、Stable Diffusion 和 DALL-E 2 這樣簡單的將文字與圖像配對的生成器，ImageBind 試圖讓 AI 更接近人類的思考和感知方式：

可以連接文本、圖像/視頻、音頻、3D 測量（深度）、温度數據（熱）和運動數據（來自 IMU），且它無需先針對每一種可能性進行訓練，直接預測數據之間的聯繫，類似於人類感知或想象的方式。

這個模型利用到了圖像的綁定（binding）屬性，只要將每個模態的嵌入與圖像嵌入對齊，就會實現所有模態的迅速對齊。

簡單來説就是圖像成為了連接這些模態的橋樑。

例如 Meta 利用網絡數據將文本與圖像連接起來，或者利用帶有 IMU 傳感器的可穿戴相機捕捉到的視頻數據將運動與視頻連接起來。

Meta 在論文中指出，ImageBind 的圖像配對數據足以將這六種模態綁定在一起。

模型可以更全面地解釋內容，使不同的模態相互 “對話”，並找到它們之間的聯繫。

例如，ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯繫起來。這使得其他模型能夠 “理解” 新的模態，而不需要任何資源密集型的訓練。

具體而言，ImageBind 利用網絡規模（圖像、文本）匹配數據，並將其與自然存在的配對數據（視頻、音頻、圖像、深度）相結合，以學習單個聯合嵌入空間。

這樣做使得 ImageBind 隱式地將文本嵌入與其他模態（如音頻、深度等）對齊，從而在沒有顯式語義或文本配對的情況下，能在這些模態上實現零樣本識別功能。

與此同時，Meta 表示，ImageBind 可以使用大規模視覺語言模型（如 CLIP）進行初始化，從而利用這些模型的豐富圖像和文本表示。因此，ImageBind 只需要很少的訓練就可以應用於各種不同模態和任務。

如果與其他 AI 結合，還可以做到跨模態的生成。

比如聽到狗叫畫出一隻狗，同時給出對應的深度圖和文字描述。

甚至還做到不同模態之間的運算，如鳥的圖像 + 海浪的聲音，得到鳥在海邊的圖像。

對此，Meta 在其官方博客中也説道，“ImageBind 可以勝過之前為一種特定模式單獨訓練的技術模型。但最重要的是，它能更好地一起分析許多不同形式的信息，從而推進人工智能的發展。”

Meta 團隊認為，ImageBind 為設計和體驗身臨其境的虛擬世界打開了大門。或許也讓 Meta 離幻想中的元宇宙世界更近了一步。

可以怎麼搜？

模型具體可以怎麼用？Meta 開放了模型演示，具體包括：

使用圖像檢索音頻

以圖像或視頻作為輸入，可以生成音頻。比如選擇一張小狗的圖片，就能夠檢索到狗吠的音頻。使用音頻檢索圖像

通過一個音頻片段，給出一張對應的圖。聽着鳥鳴，小鳥的圖片便出現了。

使用文本來檢索圖像和音頻

選擇下面的一個文本提示，ImageBind 將檢索與該特定文本相關的一系列圖像和音頻片段。

使用音頻 + 圖像來檢索相關圖像

給一段狗叫聲再加一張海灘的圖片。ImageBind 可以在幾分鐘內檢索出相關圖像。

得到了一張 “狗望海” 的圖：

使用音頻來生成圖像

要想實現音頻生圖像，ImageBind 需要和其他模型一起結合用，比如 DALL-E 2 等生成模型。

來個下雨嘩啦啦的聲音，身在其中的意境圖就來了。

ImageBind 的性能有多卓越？——打敗專家模型

在 Meta 研究科學家於近期發佈的題為《IMAGEBIND:一個嵌入空間綁定所有模態》（《IMAGEBIND： One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf）的論文中指出，ImageBind 模型的第一大優勢在於，僅通過很少的樣本及訓練，模型性能便可提高：

此前，往往需要收集所有可能的配對數據組合，才能讓所有模態學習聯合嵌入空間。

ImageBind 規避了這個難題，它利用最近的大型視覺語言模型，將零樣本能力擴展到新的模態。

Meta 的模型具有小模型所不具備的出色能力，這些性能通常只會在大模型中才會呈現。比如：音頻匹配圖片、判斷照片中的場景深度等等。

Meta 的研究表明，視覺模型越強，ImageBind 對齊不同模態的能力就越強。

在實驗中，研究人員使用了 ImageBind 的音頻和深度編碼器，並將其與之前在 zero-shot 檢索以及音頻和深度分類任務中的工作進行了比較。

結果顯示，ImageBind 可以用於少量樣本的音頻和深度分類任務，並且優於之前定製的方法。

而以圖像/視頻為中心訓練好 AI 後，對於原始數據中沒有直接聯繫的模態，比如語音和熱量，ImageBind 表現出湧現能力，把他們自發聯繫起來。

在定量測試中，研究人員發現，ImageBind 的特徵可以用於少樣本音頻和深度分類任務，並且可以勝過專門針對這些模態的先前方法。

比方説，ImageBind 在少於四個樣本分類的 top-1 準確率上，要比 Meta 的自監督 AudioMAE 模型和在音頻分類 fine-tune 上的監督 AudioMAE 模型提高了約 40% 的準確率。

Meta 希望，AI 開發者社區能夠探索 ImageBind，來開發其可以應用的新途徑。

Meta 認為，關於多模態學習仍有很多需要探索的地方。ImageBind 這項技術最終會超越目前的六種 “感官”，其在博客上説道，“雖然我們在當前的研究中探索了六種模式，但我們相信引入連接儘可能多的感官的新模式——如觸覺、語音、嗅覺和大腦 fMRI 信號——將使更豐富的以人為中心的人工智能模型成為可能。”