Alibaba Releases Qwen3.7-Plus: Outperforms GPT-5.4 in Screen Understanding, Independently Develops App in 11 Hours, Integrating "See, Think, Write, Act"!

“一個模型，能看、能想、能寫代碼、能行動。” 阿里官方介紹，Qwen3.7-Plus 構建的 Hybrid-Agent 系統，曾連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的完整研發閉環，還自主復刻了一款股票行情應用。模型屏幕理解得分 79，超過 GPT-5.4 和 Gemini-3.1 Pro。

MiniMax M3 模型昨日剛炸場，阿里千問又發佈了一個強到可怕的新 “怪物”。

6 月 2 日，阿里雲通義千問團隊在 X 平台正式宣佈發佈Qwen3.7-Plus。這是一個多模態 Agent 模型，官方表述是 “將視覺與語言統一為一體化智能體基座”。

團隊用一句話來概括了它的產品定位：“一個模型，能看、能想、能寫代碼、能行動。”

用 Qwen3.7-Plus 做 App、復刻股票應用不在話下。千問官方博客披露，基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統，曾連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的完整研發閉環。Hybrid-Agent 系統還自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。而模型屏幕理解得分 79，也超過 GPT-5.4 和 Gemini-3.1 Pro。

而千問這次發佈的時間點頗為微妙。就在前一天，MiniMax 剛剛推出新一代旗艦開源模型 M3，宣稱同時實現頂尖編程能力、1M 超長上下文與原生多模態。兩家在同一周內密集發佈，國內大模型開源競賽愈發白熱化。

Qwen3.7-Plus 的定價為：輸入$0.4/百萬 token，輸出$1.6/百萬 token。

“看、想、寫、做” 打通了：一個模型看屏幕、寫代碼、操作 App

Qwen3.7-Plus 的核心看點，是把視覺理解和任務執行真正連在了一起。

官方博客描述，這個模型能"感知真實世界場景、讀取屏幕並操作 GUI、基於視覺參考生成代碼、端到端導航移動應用"，並在單一智能體循環中無縫融合 GUI 與 CLI 交互。

這裏有兩個關鍵詞：GUI 和 CLI。GUI 就是圖形界面，比如網頁按鈕、手機 App 菜單、桌面軟件窗口。CLI 就是命令行，比如工程師用來安裝依賴、運行測試、部署服務的黑色窗口。

簡單説：它不只是"看懂圖片"，而是能看懂你的手機屏幕或電腦界面，然後自己點擊、輸入、跳轉，把任務做完。

比如，它可以讀取屏幕，理解手機 App 或網頁界面裏哪個按鈕該點；也可以看一張設計圖，然後生成 SVG、網頁或前端原型；還可以在命令行裏跑代碼、看報錯、再改代碼。

連續跑 11 小時，開發一個英語單詞學習 App

關於 Qwen3.7-Plus 具體能做什麼：官方給了幾個很產品化的演示。

Qwen 官方博客稱，基於 Qwen3.7-Plus 構建的 Hybrid-Agent 系統，連續穩定運行 11 小時以上，自動完成一款英語單詞學習 App 的研發閉環。

細節包括：生成代碼超過 10000 行，觸發 Agent 調用超過 1000 次，覆蓋需求文檔生成、代碼自動編寫、自動化安裝部署、測試用例創建、GUI 自動化測試、多場景並行測試、產品説明自動更新和版本迭代。

這個案例的關鍵點不在於 “寫了多少代碼”，而在於鏈路夠長。一個真實軟件任務往往不是一次生成代碼就結束，還要安裝、運行、測試、改 Bug、再驗證。官方演示想強調的正是這種長流程能力。

復刻炒股 APP，還接入真實行情 API

另一個官方案例是，直接做一個炒股 APP。

Qwen 官方博客稱，Hybrid-Agent 系統自主完成了 macOS 原生 Stocks 股市應用的高保真復刻。流程包括：交互原生應用並理解 UI 佈局和功能細節，基於交互記錄生成 SwiftUI 源碼，接入 LongBridge 真實行情 API 獲取實時市場數據，自動編譯構建並啓動復刻應用。

模型自主執行了 10 項功能驗證測試，內容包括實時行情加載、股票選擇與切換、多週期視圖切換、搜索過濾和詳細數據面板展示等，且全部通過。

這個演示更直觀：模型不是隻生成一個靜態頁面，而是要理解行情 App 的結構、數據源和交互邏輯，再把它做成一個可以運行的桌面應用。

看圖寫代碼：圖像/視頻轉 SVG，也能生成網頁原型

Qwen 官方博客稱，Qwen3.7-Plus 可以將圖像、視頻、UI 截圖和設計參考轉化為可執行代碼，覆蓋 SVG 復現到完整網頁生成。

在圖像/視頻轉 SVG 任務中，模型需要識別幾何結構、顏色、佈局、層級關係和動態變化，再用代碼表達出來。對於圖標、插畫、動效、圖形設計和信息可視化，這類能力的產品價值在於：把 “看見的參考圖” 變成 “可編輯的代碼資產”。

在網頁設計任務中，模型不僅要復現頁面風格，還要組織布局、寫前端代碼、處理交互邏輯，並把多模態素材整合進最終頁面。

同時，Qwen3.7-Plus 可以作為視覺 Agent，把視覺理解和工具使用結合起來，解決找不同、補圖塊、華容道、走迷宮、拼拼圖等任務。

這裏的流程不是 “看一眼給答案”。模型會先理解圖像結構和約束，再把視覺問題轉成可計算的問題表示，然後自主編寫並執行代碼進行求解、搜索或驗證。

跑分怎麼看：屏幕理解跑贏 GPT-5.4，但不是所有項目都第一

在多模態基準測試上，Qwen3.7-Plus 有幾個數字值得關注：

屏幕理解和移動端操控：ScreenSpot Pro 得分 79.0，高於 GPT-5.4（67.4）和 Gemini 3.1 Pro（68.1）；AndroidWorld 得分 81.0，同樣超過 Gemini 3.1 Pro（70.7）和 Opus-4.6 Max（62.0）。

數學視覺推理：MathVision 得分 90.3，接近 GPT-5.4 的 91.0，超過 Gemini 3.1 Pro 的 87.4。

搜索增強視覺問答：SimpleVQA 得分 81.7，WorldVQA 得分 61.1，在這一賽道上與 Opus-4.6 Max 基本持平。

圖表識別：CharXiv(RQ) 得分 85.9，為所有參與對比模型中最高。

純文本能力方面，官方表示 Qwen3.7-Plus"整體接近 Max 級別模型"。

在 Terminal Bench 2.0 上得分 70.3，超過 Opus-4.6 Max（65.4）、K2.6 Thinking（66.7）和 DeepSeek-V4-Pro Max（67.9）。

在 Deep-Planning（複雜多步規劃）上得分 62.3，同樣領先同級別模型。

不過也有弱項。

在 SWE-Verified（真實軟件工程任務）上得分 77.7，低於 Opus-4.6 Max（80.8）和 DeepSeek-V4-Pro Max（80.6）；在 HLE（極難推理）上得分 34.7，低於 GPT-5.4（40.0）。

網友怎麼看？

Qwen 官方賬號 @Alibaba_Qwen 於 6 月 2 日凌晨 1:54 發佈公告，配合 Demo 視頻展示了多模態混合 Agent 的操作過程。截至發文，該推文閲讀量已達 20 萬。

X 網友表示，Qwen3.7-Plus 模型不僅要面對各種屏幕，還要操作各類工具，並應對雜亂的工作流程。

還有網友表示，Qwen 這次的打法很清晰，就是往 Agent 和 GUI 操控上押注，這個方向現在是對的。

多個網友表示，Qwen 將 “看、想、寫、做” 集成於一個模型，實在太方便了。簡直是 “集成了一套員工系統！”

相關評論中，不少技術用户關注的重點集中在兩個方向：

一是 ScreenSpot Pro 的 79 分——這被不少人認為是"GUI Agent 能否真正商用"的關鍵門檻指標，Qwen3.7-Plus 目前是參測模型中的最高分；

二是 Kernel Bench L3 的 98%——這個指標衡量的是模型優化 GPU 計算核心的能力，98% 意味着幾乎所有問題都能產出超越 PyTorch 默認編譯器的方案。有用户指出，這個方向以前幾乎是專業工程師的"禁區"。

與 MiniMax M3 的橫向對比

兩款模型幾乎同期發佈，定位有所不同。

MiniMax M3 主打開源，技術報告和模型權重承諾在 10 天內公開，核心差異化是 1M 超長上下文（M3 在 1M 上下文下每 token 計算量只有上代的 1/20）和極強的長線程 Agent 能力（147 次 benchmark 提交、1959 次工具調用完成 FP8 矩陣乘優化）。

MiniMax 團隊讓 M3 獨立復現一篇 ICLR 2025 獲獎論文。該任務需要看懂圖文、曲線、數據和公式，也需要長上下文裝入論文、代碼和實驗日誌，還需要編程和 Agent 能力完成復現。M3 自主運行接近 12 小時，最終跑通核心實驗。

Qwen3.7-Plus 目前僅提供 API 調用，不開源權重，核心差異化是多模態與 GUI 操作能力的深度整合，以及對主流開發框架的即插即用兼容性。

兩者在編程 Agent 能力上存在直接競爭，但側重點不同：M3 更強調長上下文下的自主科研和代碼優化能力，Qwen3.7-Plus 更強調視覺感知與界面操作的端到端閉環。

相關鏈接：

https://x.com/Alibaba_Qwen/status/2061506641120641494

https://qwen.ai/blog?id=qwen3.7-plus

https://chat.qwen.ai/?models=qwen3.7-plus