Alibaba Releases Qwen3.7-Plus: Outperforms GPT-5.4 in Screen Understanding, Independently Develops App in 11 Hours, Integrating "See, Think, Write, Act"!

華爾街見聞
2026.06.02 04:33

“一個模型,能看、能想、能寫代碼、能行動。” 阿里官方介紹,Qwen3.7-Plus 構建的 Hybrid-Agent 系統,曾連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的完整研發閉環,還自主復刻了一款股票行情應用。模型屏幕理解得分 79,超過 GPT-5.4 和 Gemini-3.1 Pro。

MiniMax M3 模型昨日剛炸場,阿里千問又發佈了一個強到可怕的新 “怪物”。

6 月 2 日,阿里雲通義千問團隊在 X 平台正式宣佈發佈Qwen3.7-Plus。這是一個多模態 Agent 模型,官方表述是 “將視覺與語言統一為一體化智能體基座”。

團隊用一句話來概括了它的產品定位:“一個模型,能看、能想、能寫代碼、能行動。”

用 Qwen3.7-Plus 做 App、復刻股票應用不在話下。千問官方博客披露,基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統,曾連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的完整研發閉環。Hybrid-Agent 系統還自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。而模型屏幕理解得分 79,也超過 GPT-5.4 和 Gemini-3.1 Pro。

而千問這次發佈的時間點頗為微妙。就在前一天,MiniMax 剛剛推出新一代旗艦開源模型 M3,宣稱同時實現頂尖編程能力、1M 超長上下文與原生多模態。兩家在同一周內密集發佈,國內大模型開源競賽愈發白熱化。

Qwen3.7-Plus 的定價為:輸入$0.4/百萬 token,輸出$1.6/百萬 token。

“看、想、寫、做” 打通了:一個模型看屏幕、寫代碼、操作 App

Qwen3.7-Plus 的核心看點,是把視覺理解和任務執行真正連在了一起。

官方博客描述,這個模型能"感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼、端到端導航移動應用",並在單一智能體循環中無縫融合 GUI 與 CLI 交互。

這裏有兩個關鍵詞:GUI 和 CLI。GUI 就是圖形界面,比如網頁按鈕、手機 App 菜單、桌面軟件窗口。CLI 就是命令行,比如工程師用來安裝依賴、運行測試、部署服務的黑色窗口。

簡單説:它不只是"看懂圖片",而是能看懂你的手機屏幕或電腦界面,然後自己點擊、輸入、跳轉,把任務做完。

比如,它可以讀取屏幕,理解手機 App 或網頁界面裏哪個按鈕該點;也可以看一張設計圖,然後生成 SVG、網頁或前端原型;還可以在命令行裏跑代碼、看報錯、再改代碼。

連續跑 11 小時,開發一個英語單詞學習 App

關於 Qwen3.7-Plus 具體能做什麼:官方給了幾個很產品化的演示。

Qwen 官方博客稱,基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統,連續穩定運行 11 小時以上,自動完成一款英語單詞學習 App 的研發閉環。

細節包括:生成代碼超過 10000 行,觸發 Agent 調用超過 1000 次,覆蓋需求文檔生成、代碼自動編寫、自動化安裝部署、測試用例創建、GUI 自動化測試、多場景並行測試、產品説明自動更新和版本迭代。

這個案例的關鍵點不在於 “寫了多少代碼”,而在於鏈路夠長。一個真實軟件任務往往不是一次生成代碼就結束,還要安裝、運行、測試、改 Bug、再驗證。官方演示想強調的正是這種長流程能力。

復刻炒股 APP,還接入真實行情 API

另一個官方案例是,直接做一個炒股 APP。

Qwen 官方博客稱,Hybrid-Agent 系統自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。流程包括:交互原生應用並理解 UI 佈局和功能細節,基於交互記錄生成 SwiftUI 源碼,接入 LongBridge 真實行情 API 獲取實時市場數據,自動編譯構建並啓動復刻應用。

模型自主執行了 10 項功能驗證測試,內容包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾和詳細數據面板展示等,且全部通過。

這個演示更直觀:模型不是隻生成一個靜態頁面,而是要理解行情 App 的結構、數據源和交互邏輯,再把它做成一個可以運行的桌面應用。

看圖寫代碼:圖像/視頻轉 SVG,也能生成網頁原型

Qwen 官方博客稱,Qwen3.7-Plus 可以將圖像、視頻、UI 截圖和設計參考轉化為可執行代碼,覆蓋 SVG 復現到完整網頁生成。

在圖像/視頻轉 SVG 任務中,模型需要識別幾何結構、顏色、佈局、層級關係和動態變化,再用代碼表達出來。對於圖標、插畫、動效、圖形設計和信息可視化,這類能力的產品價值在於:把 “看見的參考圖” 變成 “可編輯的代碼資產”。

在網頁設計任務中,模型不僅要復現頁面風格,還要組織布局、寫前端代碼、處理交互邏輯,並把多模態素材整合進最終頁面。

同時,Qwen3.7-Plus 可以作為視覺 Agent,把視覺理解和工具使用結合起來,解決找不同、補圖塊、華容道、走迷宮、拼拼圖等任務。

這裏的流程不是 “看一眼給答案”。模型會先理解圖像結構和約束,再把視覺問題轉成可計算的問題表示,然後自主編寫並執行代碼進行求解、搜索或驗證。

跑分怎麼看:屏幕理解跑贏 GPT-5.4,但不是所有項目都第一

在多模態基準測試上,Qwen3.7-Plus 有幾個數字值得關注:

屏幕理解和移動端操控:ScreenSpot Pro 得分 79.0,高於 GPT-5.4(67.4)和 Gemini 3.1 Pro(68.1);AndroidWorld 得分 81.0,同樣超過 Gemini 3.1 Pro(70.7)和 Opus-4.6 Max(62.0)。

數學視覺推理:MathVision 得分 90.3,接近 GPT-5.4 的 91.0,超過 Gemini 3.1 Pro 的 87.4。

搜索增強視覺問答:SimpleVQA 得分 81.7,WorldVQA 得分 61.1,在這一賽道上與 Opus-4.6 Max 基本持平。

圖表識別:CharXiv(RQ) 得分 85.9,為所有參與對比模型中最高。

純文本能力方面,官方表示 Qwen3.7-Plus"整體接近 Max 級別模型"。

在 Terminal Bench 2.0 上得分 70.3,超過 Opus-4.6 Max(65.4)、K2.6 Thinking(66.7)和 DeepSeek-V4-Pro Max(67.9)。

在 Deep-Planning(複雜多步規劃)上得分 62.3,同樣領先同級別模型。

不過也有弱項。

在 SWE-Verified(真實軟件工程任務)上得分 77.7,低於 Opus-4.6 Max(80.8)和 DeepSeek-V4-Pro Max(80.6);在 HLE(極難推理)上得分 34.7,低於 GPT-5.4(40.0)。

網友怎麼看?

Qwen 官方賬號 @Alibaba_Qwen 於 6 月 2 日凌晨 1:54 發佈公告,配合 Demo 視頻展示了多模態混合 Agent 的操作過程。截至發文,該推文閲讀量已達 20 萬。

X 網友表示,Qwen3.7-Plus 模型不僅要面對各種屏幕,還要操作各類工具,並應對雜亂的工作流程。

還有網友表示,Qwen 這次的打法很清晰,就是往 Agent 和 GUI 操控上押注,這個方向現在是對的。

多個網友表示,Qwen 將 “看、想、寫、做” 集成於一個模型,實在太方便了。簡直是 “集成了一套員工系統!”

相關評論中,不少技術用户關注的重點集中在兩個方向:

一是 ScreenSpot Pro 的 79 分——這被不少人認為是"GUI Agent 能否真正商用"的關鍵門檻指標,Qwen3.7-Plus 目前是參測模型中的最高分;

二是 Kernel Bench L3 的 98%——這個指標衡量的是模型優化 GPU 計算核心的能力,98% 意味着幾乎所有問題都能產出超越 PyTorch 默認編譯器的方案。有用户指出,這個方向以前幾乎是專業工程師的"禁區"。

與 MiniMax M3 的橫向對比

兩款模型幾乎同期發佈,定位有所不同。

MiniMax M3 主打開源,技術報告和模型權重承諾在 10 天內公開,核心差異化是 1M 超長上下文(M3 在 1M 上下文下每 token 計算量只有上代的 1/20)和極強的長線程 Agent 能力(147 次 benchmark 提交、1959 次工具調用完成 FP8 矩陣乘優化)。

MiniMax 團隊讓 M3 獨立復現一篇 ICLR 2025 獲獎論文。該任務需要看懂圖文、曲線、數據和公式,也需要長上下文裝入論文、代碼和實驗日誌,還需要編程和 Agent 能力完成復現。M3 自主運行接近 12 小時,最終跑通核心實驗。

Qwen3.7-Plus 目前僅提供 API 調用,不開源權重,核心差異化是多模態與 GUI 操作能力的深度整合,以及對主流開發框架的即插即用兼容性。

兩者在編程 Agent 能力上存在直接競爭,但側重點不同:M3 更強調長上下文下的自主科研和代碼優化能力,Qwen3.7-Plus 更強調視覺感知與界面操作的端到端閉環。

相關鏈接:

https://x.com/Alibaba_Qwen/status/2061506641120641494

https://qwen.ai/blog?id=qwen3.7-plus

https://chat.qwen.ai/?models=qwen3.7-plus