Guosen Securities: ByteDance's new Douyin AI video model AI multimodal expected to usher in an explosive period

國信證券發佈研報稱，字節跳動旗下火山引擎於 9 月 24 日在深圳發佈了兩款新 AI 視頻模型，分別為豆包視頻生成-PixelDance 和豆包視頻生成-Seaweed，面向企業市場進行邀測。這些模型在語義理解、複雜交互和內容一致性方面取得了顯著突破，解決了 AI 視頻連貫性不足的問題。火山引擎總裁譚待表示，大模型的價格已不再是創新的障礙，支持更大併發流量將成為行業發展的關鍵。

智通財經 APP 獲悉，國信證券發佈研報稱，9 月 24 日，字節跳動旗下火山引擎在深圳舉辦 AI 創新巡展，一舉發布了兩款大模型，面向企業市場開啓邀測。新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破，大幅度改善過去 ai 視頻不夠連貫真實的問題。此前，豆包大模型公佈低於行業 99% 的定價，引領國內大模型開啓降價潮。火山引擎總裁譚待認為，大模型價格已不再是阻礙創新的門檻，隨着企業大規模應用，大模型支持更大的併發流量正在成為行業發展的關鍵因素。

豆包 AI 視頻模型全新發布

9 月 24 日，字節跳動旗下火山引擎在深圳舉辦 AI 創新巡展，一舉發布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed 兩款大模型，面向企業市場開啓邀測。

新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破，大幅度改善過去 ai 視頻不夠連貫真實的問題。火山引擎總裁譚待表示， "視頻生成有很多難關亟待突破。豆包兩款模型會持續演進，在解決關鍵問題上探索更多可能性，加速拓展 AI 視頻的創作空間和應用落地。 "

三大全新特點 —— 可以做連續動作的人物表演

可以做連續動作的人物表演：解決過去 AI 視頻人無法做複雜動作的難點

過往， AI 視頻由於連貫性難點一直無法解決，看起來更像 PPT 動畫。不管是 Sora、 runway 等頭部廠商，在展示中只具有鏡頭幅度大的能力，無法展示人的複雜動作。本次豆包全新模型在 AI 生成人物表演視頻方便迎來大幅度提升。

多鏡頭組合視頻：一張圖 +Prompt 即可生成單視頻多鏡頭

據火山引擎介紹，豆包視頻生成模型基於 DiT 架構，通過高效的 DiT 融合計算單元，讓視頻在大動態與運鏡中自由切換，擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題，在鏡頭切換時可同時保持主體、風格、氛圍的一致性。

極致的運鏡控制：可以實現前後景變焦、搖攝、目標跟隨、升降鏡頭等各種複雜的運鏡能力

當前 AI 視頻在運鏡控制方面，基本集中在攝像機 + 運動筆刷兩個功能上，在大運鏡和變焦能力有限。

本次豆包 PixelDance 的發佈，成功實現了各種 360 度圍繞主體環繞、前後景變焦、搖攝、目標跟隨、升降鏡頭等各種複雜的運鏡能力， AI 視頻在運鏡控制方面迎來重大提升。

用户使用量快速增長，產品能力日益完善

在產品能力日益完善的同時，豆包大模型的使用量也在極速增長。據火山引擎披露，截至 9 月，豆包語言模型的日均 tokens 使用量超過 1.3 萬億，相比 5 月首次發佈時猛增十倍。多模態數據處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

此前，豆包大模型公佈低於行業 99% 的定價，引領國內大模型開啓降價潮。火山引擎總裁譚待認為，大模型價格已不再是阻礙創新的門檻，隨着企業大規模應用，大模型支持更大的併發流量正在成為行業發展的關鍵因素。

據火山引擎總裁譚待介紹，業內多家大模型目前最高僅支持 300K 甚至 100K 的 TPM(每分鐘 token 數)，難以承載企業生產環境流量。例如某科研機構的文獻翻譯場景， TPM 峯值為 360K，某汽車智能座艙的 TPM 峯值為 420K，某 AI 教育公司的 TPM 峯值更是達到 630K。為此，豆包大模型默認支持 800K 的初始 TPM，遠超行業平均水平，客户還可根據需求靈活擴容

風險提示

研發不及預期；市場需求不及預期