DingTalk's Wukong Gets Its Golden Cudgel

釘釘於 3 月 17 日發佈了名為"悟空"的 AI 平台，具備強大的自動化能力，能夠接管瀏覽器進行比價、自動創建任務併發送摘要到手機等功能。該平台類似於孫悟空的金箍棒，能在多個電商平台上進行比價，並生成 Excel 文件。此外，悟空還可以自動執行定時任務，生成網站和數據動畫，展現出從 0 到 1 的能力。

孫悟空真正讓天庭頭疼，是拿到金箍棒之後——隨心所欲的 “本命法寶”，讓他如虎添翼，所向披靡。

3 月 17 日，釘釘發佈了名叫"悟空"的 AI 平台。它能接管你的瀏覽器、替你搜東西、在你不在的時候操作你的電腦——有手有腳，能執行。

而阿里千問剛發佈的 Qwen3.5-Omni，一個能看視頻、聽音頻、把音視頻拆成可以直接幹活的結構化數據的全模態模型——像極了孫悟空的那根金箍棒。

目前，猴子和棒子還沒完全合體。

但一旦合上，這東西會很強。

一、悟空能幹什麼活

釘釘的悟空，是能力強大但守規矩的企業級 “龍蝦”。

（1）一句話全網比價

我讓它在淘寶、京東、拼多多上搜"大疆 Osmo Pocket 3"，比價格和銷量，截圖，整理成 Excel。

它接管了我的瀏覽器——打開淘寶，輸入關鍵詞，滾動瀏覽，截圖保存；跳到京東，同樣動作；再到拼多多。

三個平台跑完，桌面上多了一個 Excel 文件：前 5 個最便宜且高銷量的商品，按平台、店鋪、價格、鏈接排列，最低價標紅。

它不是在"告訴"我哪個便宜。它在"替"我比價、截圖、製表。全程我只打了一段話。

當然有毛刺——需要提前在各平台登錄好賬號，否則驗證碼會攔住它。

（2）內容雷達

第二個很實用的場景，不是發生在電腦前。

我用手機釘釘給悟空發了一條消息：設個每天早 9 點的定時任務，自動打開電腦瀏覽器搜"最新 AI 動態，製作做一個 AI 相關的選題"，提取 3 條摘要附來源鏈接，發到我手機上。

悟空調取了相關 Skill，自動創建了任務。第二天早 9 點過幾分，手機彈出早報——排版整齊，鏈接可點。

（3）拉客户、做網站

我還拿悟空跑了一個建網站的任務，選了官方技能市場的 skills，跑出了可運行的網站和完整源碼——審美還需打磨，但從 0 到 1 的能力確實在；市場部門以用它生成定時的競品監控；動畫大師一句話出完整數據動畫視頻。

發佈會上還有一些更激進的演示。一個汽修門店店長對悟空説"幫我拉 100 個客人"，AI 自主完成了從競品分析、學習爆款、社媒發帖到評論引導的全鏈路。

這些場景如果日常能穩定跑通，説明 AI 正在從"執行指令"走向"幫你幹完"。

説完亮點，也聊聊產品初期不可避免的不穩定因素。官方給了一個案例的數據，有用户反饋，做一個 PPT 消耗了約 2.7 億 Token。AI 從對話走向執行後，操作文件、反覆修改、跨系統調用，token 消耗是量級變化。

悟空的 RealDoc 文件系統官方稱 token 效率提升了 5 倍，方向對了，但對精打細算的中小企業來説，可能還需要更穩定的系統、更優秀的 skills 來讓 ROI 算的清晰、算的過來。

二、金箍棒長什麼樣

悟空有手有腳，但暫時缺一樣東西：眼睛和耳朵。它能操作瀏覽器、讀文檔、跨端執行，卻還看不懂一段視頻裏發生了什麼，聽不出一段錄音裏誰説了什麼、語氣如何。

你一定有過這種經歷：兩小時的會議錄像安安靜靜躺在網盤裏，沒人回看——因為回看的成本幾乎等於再開一次會。爆款帶貨視頻刷到了，隱約覺得轉化邏輯值得學，但沒時間逐幀拆解。英文播客、方言客服錄音——聽過就過了。大量有價值的音視頻內容，"看過"之後再沒有然後。

阿里千問剛發佈的 Qwen3.5-Omni，做的就是把"看過就過"變成"拆開來用"。

説説我們的實測。

我們用它來拆爆款 TikTok 帶貨視頻。

輸入一條義烏招商類帶貨視頻，模型按 Hook、賣點排序、畫面證明點、字幕策略、情緒節奏、CTA 時間點、目標人羣七個維度做了結構化拆解。核心洞察讓我印象深刻——"這條視頻賣的不是商品，而是確定性"：三級物理證據鏈構建信任、"2 萬種 SKU+20 美分均價"製造數字錨點、保姆式承諾實現風險逆轉。

更關鍵的是遷移能力：要求它按同樣邏輯給"T 恤定製工廠"寫一個腳本，它成功輸出了可執行的 5 步模板，Hook 改成了"拉扯 T 恤展示彈性"，實力證明換成"印花機噴墨特寫 + 揉搓不掉色"，連評論區運營引導都寫好了。

還有一個"口述寫代碼"的測試。手繪一張故意畫得很粗糙的 APP 線框圖，打開攝像頭對着鏡頭口述需求，它直接生成了可運行的 React 代碼。繼續口述修改——側邊欄、圓角、深色主題、按壓動畫——多輪迭代下來上下文始終沒丟。邊看、邊説、邊改，這是人類最自然的交互方式，它接住了。

底層支撐這些表現的：混合注意力 MoE 架構，超 1 億小時音頻數據的原生多模態預訓練，215 項第三方測試取得 SOTA，多項指標超越 Gemini-3.1 Pro。256K 上下文窗口，支持超 10 小時音頻。113 種語言和方言的語音識別，36 種語言和方言的 TTS 合成。定價：每百萬 Token 輸入不到 0.8 元——不到 Gemini-3.1 Pro 的十分之一。

一句話概括：Qwen3.5-Omni 讓音視頻變得"可拆"——不是"看懂了"就完了，而是拆成可檢索、可複用、可以直接拿去幹活的數據資產。

三、當悟空拿起金箍棒

悟空能操作瀏覽器、讀寫文件、跨端執行、調用釘釘上千項能力，但它處理不了音視頻，就沒辦法讓用户在最自然的商業場景中廣泛使用；Qwen3.5-Omni 能把視頻按時間戳拆成結構化數據、聽懂多語言錄音、理解畫面和語音的混合輸入，恰恰彌補上了這一環。

如果兩者成功結合：你把兩小時的會議錄像扔給它。它不只是生成一份紀要——它聽出誰在什麼時間説了什麼、語氣是堅定還是猶豫、哪些話是待辦事項，然後直接在釘釘裏創建任務、分配給對應的人、設好截止日期。從"看懂會議"到"執行會議結論"，中間不需要任何人再動手。

運營團隊不用每天人工盯競品的短視頻賬號了。AI 自己去看競品視頻、拆解轉化邏輯——就像 Qwen3.5-Omni 拆那條 TikTok 帶貨視頻一樣——輸出可遷移的腳本模板，然後在悟空裏自動在社交媒體上發佈改編後的內容，甚至進一步拉客獲客。從"分析競品"到"產出內容"到 “獲客轉化”，一條龍搞定。

或者更日常一點：客服錄音質檢。過去需要人聽、人記、人打分，一天能質檢的通話量有限。接入全模態能力後，AI 自己聽完所有錄音，輸出每通電話的情緒軌跡和話術評分，標記出問題通話，生成改進建議，再把結果寫進釘釘的管理系統。

這幾個場景的共同邏輯是一樣的：感知→理解→執行，完整閉環。悟空解決了執行，Qwen3.5-Omni 解決了感知，且 Qwen3.5-Omni 不到 0.8 元/百萬 Token 的定價也讓整個飛輪在價格上可行，拼圖就差合上這一步。

結語

西遊記裏，悟空從石頭縫蹦出來時就已經能打了。但他拿到金箍棒、認了師父、上了路之後，變得越來越強。

釘釘的悟空已經蹦出來了。金箍棒剛鑄好，還沒交到手上。取經的路很長——Token 成本要降，產品要磨，2700 萬企業的認知要一家一家啃。

但猴子、棒子、路，都在了。

本文來自微信公眾號 “硬 AI”，關注更多 AI 前沿資訊請移步這裏

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。