Guosen Securities: ByteDance's new Douyin AI video model AI multimodal expected to usher in an explosive period

智通財經
2024.09.25 03:45
portai
I'm PortAI, I can summarize articles.

國信證券發佈研報稱,字節跳動旗下火山引擎於 9 月 24 日在深圳發佈了兩款新 AI 視頻模型,分別為豆包視頻生成-PixelDance 和豆包視頻生成-Seaweed,面向企業市場進行邀測。這些模型在語義理解、複雜交互和內容一致性方面取得了顯著突破,解決了 AI 視頻連貫性不足的問題。火山引擎總裁譚待表示,大模型的價格已不再是創新的障礙,支持更大併發流量將成為行業發展的關鍵。

智通財經 APP 獲悉,國信證券發佈研報稱,9 月 24 日,字節跳動旗下火山引擎在深圳舉辦 AI 創新巡展,一舉發布了兩款大模型, 面向企業市場開啓邀測。新的模型在語義理解能力、多個主體運動的複雜交互畫面、多鏡頭切換的內容一致性方面均有着非常大的突破, 大幅度改善過去 ai 視頻不夠連貫真實的問題。此前,豆包大模型公佈低於行業 99% 的定價,引領國內大模型開啓降價潮。火山引擎總裁譚待認為,大模型價格已不再是阻礙創新的門檻,隨着企業大規模應用,大模型支持更大的併發流量正在成為行業發展的關鍵因素。

豆包 AI 視頻模型全新發布

9 月 24 日, 字節跳動旗下火山引擎在深圳舉辦 AI 創新巡展, 一舉發布了豆包視頻生成-PixelDance、 豆包視頻生成-Seaweed 兩款大模型, 面向企業市場開啓邀測。

新的模型在語義理解能力、 多個主體運動的複雜交互畫面、 多鏡頭切換的內容一致性方面均有着非常大的突破, 大幅度改善過去 ai 視頻不夠連貫真實的問題。 火山引擎總裁譚待表示, "視頻生成有很多難關亟待突破。 豆包兩款模型會持續演進, 在解決關鍵問題上探索更多可能性, 加速拓展 AI 視頻的創作空間和應用落地。 "

三大全新特點 —— 可以做連續動作的人物表演

可以做連續動作的人物表演: 解決過去 AI 視頻人無法做複雜動作的難點

過往, AI 視頻由於連貫性難點一直無法解決, 看起來更像 PPT 動畫。 不管是 Sora、 runway 等頭部廠商, 在展示中只具有鏡頭幅度大的能力, 無法展示人的複雜動作。本次豆包全新模型在 AI 生成人物表演視頻方便迎來大幅度提升。

多鏡頭組合視頻: 一張圖 +Prompt 即可生成單視頻多鏡頭

據火山引擎介紹, 豆包視頻生成模型基於 DiT 架構, 通過高效的 DiT 融合計算單元, 讓視頻在大動態與運鏡中自由切換, 擁有變焦、 環繞、 平搖、 縮放、 目標跟隨等多鏡頭語言能力。 全新設計的擴散模型訓練方法更是攻克了多鏡頭切換的一致性難題, 在鏡頭切換時可同時保持主體、 風格、 氛圍的一致性。

極致的運鏡控制: 可以實現前後景變焦、 搖攝、 目標跟隨、 升降鏡頭等各種複雜的運鏡能力

當前 AI 視頻在運鏡控制方面, 基本集中在攝像機 + 運動筆刷兩個功能上, 在大運鏡和變焦能力有限。

本次豆包 PixelDance 的發佈, 成功實現了各種 360 度圍繞主體環繞、 前後景變焦、 搖攝、 目標跟隨、 升降鏡頭等各種複雜的運鏡能力, AI 視頻在運鏡控制方面迎來重大提升。

用户使用量快速增長, 產品能力日益完善

在產品能力日益完善的同時, 豆包大模型的使用量也在極速增長。據火山引擎披露, 截至 9 月, 豆包語言模型的日均 tokens 使用量超過 1.3 萬億, 相比 5 月首次發佈時猛增十倍。多模態數據處理量也分別達到每天 5000 萬張圖片和 85 萬小時語音。

此前, 豆包大模型公佈低於行業 99% 的定價, 引領國內大模型開啓降價潮。 火山引擎總裁譚待認為, 大模型價格已不再是阻礙創新的門檻, 隨着企業大規模應用, 大模型支持更大的併發流量正在成為行業發展的關鍵因素。

據火山引擎總裁譚待介紹, 業內多家大模型目前最高僅支持 300K 甚至 100K 的 TPM(每分鐘 token 數), 難以承載企業生產環境流量。 例如某科研機構的文獻翻譯場景, TPM 峯值為 360K, 某汽車智能座艙的 TPM 峯值為 420K, 某 AI 教育公司的 TPM 峯值更是達到 630K。 為此, 豆包大模型默認支持 800K 的初始 TPM, 遠超行業平均水平, 客户還可根據需求靈活擴容

風險提示

研發不及預期;市場需求不及預期