ByteDance's Douyin video creation large model release: First breakthrough in multi-party interaction challenges

字節跳動在 2024 火山引擎 AI 創新巡展上發佈了豆包視頻生成大模型，突破了多主體互動的技術難關。該模型支持複雜指令和多鏡頭生成，具備高效的計算單元和優化的結構，顯著提升視頻生成的能力。火山引擎總裁譚待表示，豆包模型的使用量激增，日均 tokens 使用量達 1.3 萬億，應用於電商、教育等多個領域。

DoNews9 月 24 日消息，9 月 24 日，2024 火山引擎 AI 創新巡展在深圳舉辦，豆包大模型家族迎來新成員：全新發布豆包·視頻生成模型、以及豆包·音樂模型、豆包·同聲傳譯模型、豆包通用模型 pro 和文生圖模型、語音合成模型等垂類模型大幅升級。

豆包·視頻生成模型能遵從複雜 prompt，解鎖時序性多拍動作指令與多個主體間的交互能力。

該模型支持高效的 DiT 融合計算單元、全新設計的擴散模型訓練方法和深度優化的 Transformer 結構，可以實現更充分地壓縮編碼視頻與文本，支持一致性多鏡頭生成，能夠大幅提升視頻生成的泛化能力。

官方介紹稱，無論是語義理解能力，多個主體運動的複雜交互畫面，還是多鏡頭切換的內容一致性，豆包視頻生成大模型均達到業界先進水平。

火山引擎總裁譚待表示，豆包視頻生成大模型支持多風格多比例的一致性多鏡頭生成，可應用在電商營銷、動畫教育、城市文旅、微劇本等領域。

此外，譚待表示，豆包大模型發佈以來使用量爆發式增長。截至 9 月，豆包語言模型的日均 tokens 使用量超過 1.3 萬億，相比 5 月首次發佈時猛增十倍，多模態數據處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

此前視頻生成模型大多隻能完成簡單指令，豆包視頻生成模型則能實現自然連貫的多拍動作與多主體複雜交互。

有創作者在搶鮮體驗豆包視頻生成模型時發現，其生成的視頻不僅能夠遵循複雜指令，讓不同人物完成多個動作指令的互動，人物樣貌、服裝細節甚至頭飾在不同運鏡下也保持一致，接近實拍效果。

據火山引擎介紹，豆包視頻生成模型基於 DiT 架構，通過高效的 DiT 融合計算單元，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。豆包視頻生成模型具備專業級光影佈局和色彩調和，畫面視覺極具美感和真實感。

深度優化的 Transformer 結構，則大幅提升了豆包視頻生成的泛化能力，支持 3D 動畫、2D 動畫、國畫、黑白、厚塗等多種風格，適配電影、電視、電腦、手機等各種設備的比例，不僅適用於電商營銷、動畫教育、城市文旅、微劇本等企業場景，也能為專業創作者和藝術家們提供創作輔助。