AI "multimodal" battle: "Drawing new artifact" Dall-E 3 detonates Bing, Microsoft urgently deploys thousands of servers over the weekend.

OpenAI 多模態技驚四座，AGI 還會遠嗎？

還停留在 AI 寫詩做數學題的時代？生成式 AI 的天下已經變了，多模態正日益成為主流趨勢。

就在九月底 OpenAI 官宣了新一代作圖模型——DALL·E 3，還將其與 ChatGPT 合併，不僅能創造細膩的插畫，只需要幾個簡單的指令，甚至能用簡單的指令製作複雜的動圖，網友驚呼完全能挑戰 Midjourney。

多模態更新令 Bing 訪問量激增

因為直接接入了 Bing 搜索引擎，現在，Bing 可能是互聯網上免費製作高質量人工智能圖像的最簡單工具。

據 The Information 報道，有微軟員工表示，接入 DALL·E 3 推動下，Bing 的流量激增，遠遠超過了通常的周流量水平。據該員工稱，流量激增甚至導致 Bing 的人工智能聊天機器人在週末離線數小時。該員工説，Bing 的領導不得不向微軟高層請求訪問更多的人工智能專用服務器，工程師們花了一個週末的時間讓數千台服務器上線。

多模態將加速 AGI 誕生，算力要求也會進一步增長

除了能畫畫，多模態也被視為 AI 通往 AGI 的重要路徑之一。AGI 是指具有與人類智能相媲美或超越人類智能的綜合智能系統。

一方面，多模態 AI 能夠整合和處理多種類型的信息，如文本、圖像、音頻和視頻等。這種豐富的信息處理能力為系統提供更多的知識和理解，從而推動智能系統向 AGI 的發展。

另一方面，多模態 AI 能夠同時處理多種數據源，這使得系統能夠進行更全面的推理和決策。這種綜合性有助於模擬人類綜合考慮多種信息來源的能力，從而更接近人類認知模式。

此外，國盛證券也指出，當前多模態的輸入輸出主要是文本、圖像，應用場景包括智能辦公和各類 AIGC 功能。1-5 年內，隨着多模態 GPT 的發展帶來 AI 泛化能力提升，通用視覺、通用機械臂、行業服務機器人、真正的智能家居等會進入生活。在 5-10 年內，結合複雜多模態方案的大模型有望具備完備的與世界交互的能力，帶來通用機器人等千行百業的廣闊應用。

除此之外，應用增長及多模態數據處理複雜度提高催生算力需求。如果模型是下一個時代的 “流量入口”，那麼算力即是模型的動力源泉，在大廠模型競爭加速背景下，算力軍備競賽有望更加強烈。