騰訊混元圖生視頻模型目前已經上線,企業和開發者可在騰訊雲申請使用 API 接口;用户通過混元 AI 視頻官網即可體驗。混元視頻生成開源模型目前在 Github、HuggingFace 等主流開發者社區均可下載體驗。 騰訊混元發佈圖生視頻模型並對外開源,同時上線對口型與動作驅動等玩法,並支持生成背景音效及 2K 高質量視頻。 基於圖生視頻的能力,用户只需上傳一張圖片,並簡短描述希望畫面如何運動、鏡頭如何調度等,混元即可按要求讓圖片動起來,變成 5 秒的短視頻,還能自動配上背景音效。此外,上傳一張人物圖片,並輸入希望 “對口型” 的文字或音頻,圖片中的人物即可 “説話” 或 “唱歌”;使用 “動作驅動” 能力,還能一鍵生成同款跳舞視頻。 目前用户通過混元 AI 視頻官網即可體驗,企業和開發者可在騰訊雲申請使用 API 接口使用。 此次開源的圖生視頻模型,是混元文生視頻模型開源工作的延續,模型總參數量保持 130 億,模型適用於多種類型的角色和場景,包括寫實視頻製作、動漫角色甚至 CGI 角色製作的生成。 開源內容包含權重、推理代碼和 LoRA 訓練代碼,支持開發者基於混元訓練專屬 LoRA 等衍生模型。目前在 Github、HuggingFace 等主流開發者社區均可下載體驗。 混元開源技術報告披露,混元視頻生成模型具備靈活的擴展性,圖生視頻和文生視頻在相同的數據集上開展預訓練工作。在保持超寫實畫質、流暢演繹大幅度動作、原生鏡頭切換等特性的基礎上,讓模型能夠捕捉到豐富的視覺和語義信息,並結合圖像、文本、音頻和姿態等多種輸入條件,實現對生成視頻的多維度控制。 混元視頻生成模型開源以來,一直保持較高的熱度,去年 12 月登頂 huggingface 全站趨榜第一,目前 Github 平台上 Star 數超過 8.9K。多位開發者自發製作基於社區 Hunyuanvideo 的插件與衍生模型,積累超過 900 個衍生版本。更早開源的混元 DiT 文生圖模型,在國內外衍生模型數量多達 1600 多個。 目前,混元開源系列模型已經完整覆蓋文本、圖像、視頻和 3D 生成等多個模態,在 Github 累計獲得超 2.3 萬開發者關注和 star。 風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。