Track Hyper | Tongyi Qianwen launches multimodal model Qwen VLo

阿里雲在中國生成式 AI 基礎設施市場佔據 23% 份額，位列第一。6 月 27 日，阿里雲推出多模態模型 Qwen VLo，具備理解與再創造能力，採用漸進式生成方式，支持任意分辨率和長寬比，提升圖像生成的靈活性和可控性。Qwen VLo 解決了多模態模型生成中的語義不一致問題，提升了細節捕捉能力，確保生成內容的高語義一致性。

作者：周源/華爾街見聞

阿里雲在中國生成式 AI 基礎設施登頂。

據 IDC 剛剛發佈的最新報告顯示，2024 年中國 AI 基礎設施（AI IaaS）市場份額，阿里雲佔比 23%，位列中國市場第一，超過第二名和第三名總和；在生成式 AI 基礎設施領域，阿里雲取得模型訓練和模型推理市場的雙項冠軍。

阿里雲的生成式推理模型迭代頻繁，動作很多。

6 月 27 日，阿里雲通義千問推出多模態統一理解與生成模型 Qwen VLo，用户可通過 Qwen Chat（chat.qwen.ai）體驗。

這一模型在人工智能領域傳承與創新，為多模態人工智能發展帶來新探索，具備理解和基於理解進行再創造的能力。

Qwen VLo 採用漸進式生成方式，在生成圖像時從左到右、從上到下逐步構建畫面。

在這個過程中，模型不斷對預測內容調整優化，比如生成風景圖時，先勾勒山川河流輪廓，再細化樹木、花草等細節，確保畫面在結構、色彩、語義等方面和諧統一。

這種生成機制給用户更靈活、可控的創作體驗，設計師創作海報時，可實時觀察生成過程，及時調整不協調部分，讓創作更貼合預期。

據官方介紹，Qwen VLo 運用動態分辨率訓練技術，在圖像生成的輸入和輸出端，都支持任意分辨率和長寬比。

以往模型受限於固定尺寸和比例，而 Qwen VLo 打破這一限制。無論是製作長寬比為 4:1 的橫幅廣告，還是 1:3 的社交媒體豎版封面，用户都能按需生成。

Qwen VLo 通過技術創新，創造了圖像生成在分辨率和長寬比方面的更多資源，電商商家可根據不同平台要求，快速生成適配的商品展示圖，無需繁瑣的後期裁剪調整。

過往多模態模型生成時易出現語義不一致問題，如將汽車圖片錯誤生成其他物體，或改變原圖關鍵結構特徵。

Qwen VLo 通過提升細節捕捉能力，在生成中保持較高語義一致性。

當用户輸入汽車照片並要求 “將顏色換成藍色”，模型精準識別車型，保留車身結構、線條等特徵，自然地完成顏色替換，生成結果既符合指令預期，又不失真實感。

這種能力恰似達爾文進化論中物種對環境的精準適應，模型在複雜的圖像生成環境中，不斷進化以滿足多樣且精細的用户需求。

用户能用自然語言對圖像提出創意指令，Qwen VLo 能靈活響應。輸入 “把這張照片風格變成梵高的畫風”“給圖片中的天空加上彩虹”，模型即可完成藝術風格遷移、場景元素添加等操作。

面對 “把人物換成卡通形象，背景改為森林，同時添加宣傳語” 這類複雜指令，也能嘗試執行。此外，傳統視覺感知任務如預測深度圖、分割圖等，通過編輯指令也能實現。

這一特性體現了 “不創新，就死亡” 的理念，Qwen VLo 打破傳統模型指令響應的侷限，賦予用户更自由的操作空間，使其在開放指令編輯修改中不斷進化，適應快速發展的 AI 市場。

Qwen VLo 支持包括中文、英文等多種語言指令。全球用户無論使用何種語言，只要簡潔描述需求，模型就能理解並生成結果。

中國用户用中文輸入 “生成一張美麗的花朵圖片”，國外用户用英文輸入 “Generate a picture of beautiful flowers”，都能得到符合要求的圖片。

這符合美國理性預期學派的領袖、諾貝爾經濟學獎獲得者托馬斯・薩金特（Thomas J. Sargent）提出的開放和自由貿易理念，通過技術手段打破語言壁壘，促進全球用户在圖像生成領域的 “交流貿易”。

在廣告設計行業，設計師常需為不同客户和項目快速產出多種風格設計方案。

藉助 Qwen VLo，輸入 “時尚運動品牌夏季促銷海報”，模型迅速生成多版不同構圖、配色的海報草圖，設計師在此基礎上完善，大大縮短設計週期。

在包裝設計方面，輸入產品特點、目標受眾等信息，模型生成相應設計圖，提供創意靈感。Qwen VLo 為設計師提供創意裂變的契機，幫助其用創新設計在市場競爭中贏得商業利潤。

在教育領域，教師可利用 Qwen VLo 將抽象知識具象化。

地理課講解地貌時，輸入 “生成一張丹霞地貌的圖片”，模型展示相關圖片，幫助學生直觀理解；語文教學中，講解古詩詞時，輸入詩詞內容，模型生成詩意場景圖，加深學生對詩詞意境的體會。

自媒體創作者、博主等創作內容時，需優質配圖吸引受眾。通過 Qwen VLo，輸入文章主題如 “旅遊攻略之海邊度假”，模型生成海灘、海景等相關圖片；在視頻製作中，輸入視頻腳本關鍵信息，模型生成視頻分鏡草圖，為拍攝和後期剪輯提供參考，提升內容創作質量和效率。

在遊戲開發中，Qwen VLo 能助力遊戲美術資源製作。遊戲設計師輸入遊戲風格、場景設定等指令，模型生成遊戲場景、角色、道具等美術素材，降低開發成本，加速開發進程。

玩家也可利用模型生成個性化遊戲場景、角色形象，增加遊戲趣味性。影視製作中，在前期概念設計階段，輸入故事背景、角色特點等信息，模型生成影視場景概念圖、角色概念圖，為後續拍攝和特效製作提供方向。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。