
Tencent and OpenAI are targeting the same track

用 AI 重塑業務。

作者 | 黃 昱
編輯 | 周智宇
AI 多模態大模型持續火熱,騰訊也出招了。
5 月 14 日,騰訊宣佈旗下的混元文生圖大模型全面升級,該模型採用了與 Sora 一致的 DiT 架構(Diffusion With Transformer),不僅可支持文生圖,也可作為視頻等多模態視覺生成的基礎。
在騰訊方面看來,DiT 架構很可能成為下一代主流視覺生成架構。未來,DiT 架構很可能會成為文生圖、生視頻、生 3D 等多模態視覺生成的統一架構。
並且騰訊將混元文生圖大模型開源,可供企業與個人開發者免費商用。
這是業內首箇中文原生的 DiT 架構文生圖開源模型。它希望藉此填補文生圖開源社區 DiT 架構空白,讓更多開發者參與其中,以更快追趕上國外先進閉源多模態大模型。
騰訊也能在這個過程中,藉着大模型重構自身業務,為現有業務賦能。從最新財報來看,大模型已對騰訊的業務產生積極作用。
此次騰訊升級的混元文生圖大模型參數量 15 億,支持中英文雙語輸入,支持最長 256 個字符(業界主流是 77 個)的圖片生成指令,支持用户文本改寫以及多輪繪畫。
過去幾年,主流的文生圖模型以基於 U-Net 架構的擴散模型為主,然而 U-Net 模型容易陷入性能瓶頸,面臨着擴展性問題,DiT 架構主要是替換了模型中的 U-Net 架構的部分。Transformer 架構只要算力與數據量足夠,可以無限擴展。
基於 Transformer 架構的模型似乎更有潛力讓文生圖模型變得更聰明。因此,混元文生圖從 2023 年 7 月起就開始做研發,全鏈路自研,從零開始訓練。今年初,混元文生圖大模型已全面升級為 DiT 架構。
據華爾街見聞了解,結合騰訊內部廣告等真實場景需求優化與架構升級,最新的騰訊混元文生圖大模型,對比基於 U-Net 架構的模型,視覺生成整體效果提升 20%,同時在多輪對話、細粒度語義理解、中國元素、真實人像生成等細分場景下效果有明顯提升。
騰訊文生圖負責人蘆清林指出,與 Dalle3、SD3、Midjorney 這三個業界知名的閉源文生圖模型相比,混元文生圖大模型排在 Dalle3 和 Midjorney 之後,在所有開源文生圖模型中,混元文生圖大模型則表現最好。
蘆清林進一步指出,在混元文生圖大模型開源之前,開源和閉源的文生圖技術能力差距是在逐漸拉大的,騰訊希望通過此次開源能夠把這個差距縮小。
蘆清林也透露,今年初 OpenAI 推出 Sora 就是因為他們有了一個很強的 DiT 架構模型,此次混元文生圖大模型開源有一個初衷,就是希望通過把 DiT 架構模型拿出來,讓業界想做文生視頻的同行可以快速地將這一技術拓展到視頻上去,可以幫助大家節省很多時間。
騰訊一直是開源技術的支持者,過去已開源了超 170 個項目,均來源於騰訊真實業務場景,覆蓋微信、騰訊雲、騰訊遊戲、騰訊 AI、騰訊安全等核心業務板塊。
蘆清林表示:“騰訊混元文生圖的研發思路就是實用,堅持從實踐中來,到實踐中去。此次把最新一代模型完整開源出來,是希望與行業共享騰訊在文生圖領域的實踐經驗和研究成果,豐富中文文生圖開源生態,共建下一代視覺生成開源生態,推動大模型行業加速發展。”
多模態是大勢所趨。開源證券指出,國內外 AI 多模態大模型的持續突破及後續商業化,或大幅降低廣告、課件、短劇、動畫、劇集、電影等製作成本,提高 IP 開發、廣告營銷及教學效率,擴大商業化空間。
去年 9 月發佈混元大模型時,騰訊就十分強調實用性,稱混元大模型是 “從實踐中來,到實踐中去” 的實用級大模型。在混元文生圖大模型開源後,不排除騰訊也會將大語言模型開源。
當然,開源或閉源都只是不同技術路線的選擇,最終目的還是商業化應用。按照騰訊的規劃,騰訊做混元大模型一定先是服務騰訊本身,再是通過騰訊雲向產業規劃,C 端的應用則還在探索階段。
蘆清林對華爾街見聞表示,混元文生視頻的商業化探索不算緊迫,因為騰訊內部的業務場景非常豐富,能給自身業務賦能已經很好。至於 to C 端的商業化,還沒有明確的計劃,但不排除會嘗試。
在 5 月 14 日晚騰訊一季度業績説明會上,騰訊管理層也表示,騰訊在積極創造和測試不同的 AI 產品,看看哪些產品對公司現有的產品有意義。隨着時間的推移,這些產品將在微信等擁有大量用户的平台上推出。
據騰訊披露,目前已有超過 400 項騰訊業務和應用場景,接入騰訊混元大模型內測。騰訊混元文生圖能力則被廣泛用於素材創作、商品合成、遊戲出圖等多項業務及場景中。
國內外 AI“軍備競賽” 戰局正酣,但這是一場馬拉松比賽。在等待 “AI 的 iPhone 時刻” 真正來臨前,騰訊選擇了一條更紮實的路,讓 AI 成為自己業務的 “倍增器”,面對這場技術變革,也會更加從容。
