Chinese version of Sora: KUAISHOU-WR Keling

華爾街見聞
2024.06.08 09:29
portai
I'm PortAI, I can summarize articles.

快手於 2024 年 6 月 6 日推出了一款名為快手可靈的 AI 視頻生成大模型。該模型結合了多項自研技術創新,能夠生成長達 2 分鐘、30fps 幀率的 1080p 分辨率超長視頻,並支持多種寬高比。快手可靈具備模擬物理世界特性的能力,能夠完成大幅度的合理運動,並具備強大的概念組合能力和想象力,能夠將用户的想象力轉化為具體的畫面。這款大模型能夠讓用户輕鬆高效地完成藝術視頻創作,具備強大的視頻生成能力。

  • 快手可靈是快手於 2024 年 6 月 6 日推出的一款 AI 視頻生成大模型的 AI 視頻。可靈為快手 AI 團隊自研,基於快手在視頻技術方面的多年積累,採用類似 Sora 的 DiT 技術路線,結合多項自研技術創新,效果對標 Sora。
  • 從技術角度看,快手可靈結合多項自研技術創新,採用了原生的文生視頻技術路線,替代了圖像生成 + 時序模塊的組合,實現了可靈生成時間長、幀率高,能準確處理複雜運動的能力。在完成度上,能夠模擬物理世界特性,完成大幅度的合理運動;在創新度上,具備強大的概念組合能力和想象力,能夠將用户豐富的想象力轉化為具體的畫面;在參數表現上,不僅支持生成長達 2 分鐘的 30fps 且具備 1080p 分辨率的超長視頻,同時支持多種寬高比。
  • 從功能體驗看,快手可靈大模型具備強大的視頻生成能力讓用户可以輕鬆高效地完成藝術視頻創作,通過文字描述,可靈生成的視頻可實現 1 )大幅度的合理運動:可靈採用 3D 時空聯合注意力機制,能夠更好地建模複雜時空運動,生成較大幅度運動的視頻內容,同時能夠符合運動規律,複雜、大幅度的時空運動也能準確刻畫;2 )長達 2 分鐘的視頻生成:得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達 2 分鐘的視頻,且幀率達到 30fps;3 )模擬物理世界特性:基於自研模型架構及 Scaling Law 激發出的強大建模能力,可靈能夠模擬真實世界的物理特性,生成符合物理規律的視頻;4 )強大的概念組合能力:基於對文本 - 視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用户豐富的想象力轉化為具體的畫面,虛構真實的世界;5 )電影級的畫面生成:基於自研 3D VAE,可靈能夠生成 1080p 分辨率的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現;6 )支持自由的輸出視頻寬高比:可靈採用了可變分辨率的訓練策略,在推理過程中可以做到同樣的內容輸出多種多樣的視頻寬高比,滿足更豐富場景中的視頻素材使用需要。
  • 從行業視角看,快手作為頭部短視頻公司積極佈局 AI ,其產品表現不僅展現了快手在 AI 大模型技術方面的深厚積累,也體現了國產 AI 視頻模型的技術能力。我們看好 AI 技術持續迭代,中國廠商技術加速追趕,看好 AI 視頻應用加速發展與商業化探索,看好內容創作的門檻降低。

一、 產品簡介

快手可靈是快手於 2024 年 年 6 月 月 6 日推出的一款 AI 視頻生成大模型的 AI 視頻。可靈為快手 AI 團隊自研,基於快手在視頻技術方面的多年積累,採用類似 Sora 的 DiT 技術路線,結合多項自研技術創新,效果對標 Sora,具有一系列優勢:1)能夠生成大幅度的合理運動;2)能夠模擬物理世界特性;3)具備強大的概念組合能力和想象力;4)生成的視頻分辨率高達 1080p,時長高達 2 分鐘(幀率 30fps),且支持自由的寬高比。(部分功能效果尚未對外開啓使用測試)

二、 功能體驗
根據可靈官網,可靈大模型具備強大的視頻生成能力讓用户可以輕鬆高效地完成藝術視頻創作,通過文字描述,可靈生成的視頻可實現:

(一)大幅度的合理運動

可靈採用 3D 時空聯合注意力機制,能夠更好地建模複雜時空運動,生成較大幅度運動的視頻內容,同時能夠符合運動規律,複雜、大幅度的時空運動也能準確刻畫。

圖表 1 宇航員在月球上奔跑的畫面,動作流暢,步態和影子的運動合理恰當

資料來源:快手可靈官網

(二)達長達 2 分鐘的視頻生成

得益於高效的訓練基礎設施、極致的推理優化和可擴展的基礎架構,可靈大模型能夠生成長達 2 分鐘的視頻,且幀率達到 30fps。

圖表 2 僅依靠提示詞 “小男孩在花園裏騎自行車經歷秋冬春夏四季變換”,即可生成長達一分半的長視頻

資料來源:快手可靈官網

(三)模擬物理世界特性

基於自研模型架構及 Scaling Law 激發出的強大建模能力,可靈能夠模擬真實世界的物理特性,生成符合物理規律的視頻。

圖表 3 小男孩吃漢堡的生成視頻中,吃漢堡的過程被真實反映,咬合位置與漢堡上的咬痕匹配,臉部肌肉動態逼真

資料來源:快手可靈官網

(四)強大的概念組合能力

基於對文本 - 視頻語義的深刻理解和 Diffusion Transformer 架構的強大能力,可靈能夠將用户豐富的想象力轉化為具體的畫面,虛構真實的世界。

圖表 4 對於貓咪開着車的充滿想象力的場景,逼真展現

資料來源:快手可靈官網

(五)電影級的畫面生成

基於自研 3D VAE,可靈能夠生成 1080p 分辨率的電影級視頻,無論是浩瀚壯闊的宏大場景,還是細膩入微的特寫鏡頭,都能夠生動呈現。

圖表 5 生成視頻達 分辨率高達 1080p

資料來源:快手可靈官網

(六)支持自由的輸出視頻寬高比

可靈採用了可變分辨率的訓練策略,在推理過程中可以做到同樣的內容輸出多種多樣的視頻寬高比,滿足更豐富場景中的視頻素材使用需要。

圖表 6 同一個視頻支持自由的高寬比,其中包括快手原生態的豎版視頻

資料來源:快手可靈官網

本文作者:華創證券劉欣,來源:華創證券,原文標題:《快手可靈:國產首發對標 Sora 的 的 DiT 架構頻文生視頻 AI 模型》