
DingTalk's Wukong Gets Its Golden Cudgel
釘釘於 3 月 17 日發佈了名為"悟空"的 AI 平台,具備強大的自動化能力,能夠接管瀏覽器進行比價、自動創建任務併發送摘要到手機等功能。該平台類似於孫悟空的金箍棒,能在多個電商平台上進行比價,並生成 Excel 文件。此外,悟空還可以自動執行定時任務,生成網站和數據動畫,展現出從 0 到 1 的能力。
孫悟空真正讓天庭頭疼,是拿到金箍棒之後——隨心所欲的 “本命法寶”,讓他如虎添翼,所向披靡。
3 月 17 日,釘釘發佈了名叫"悟空"的 AI 平台。它能接管你的瀏覽器、替你搜東西、在你不在的時候操作你的電腦——有手有腳,能執行。
而阿里千問剛發佈的 Qwen3.5-Omni,一個能看視頻、聽音頻、把音視頻拆成可以直接幹活的結構化數據的全模態模型——像極了孫悟空的那根金箍棒。
目前,猴子和棒子還沒完全合體。
但一旦合上,這東西會很強。

一、悟空能幹什麼活
釘釘的悟空,是能力強大但守規矩的企業級 “龍蝦”。
(1)一句話全網比價
我讓它在淘寶、京東、拼多多上搜"大疆 Osmo Pocket 3",比價格和銷量,截圖,整理成 Excel。
它接管了我的瀏覽器——打開淘寶,輸入關鍵詞,滾動瀏覽,截圖保存;跳到京東,同樣動作;再到拼多多。
三個平台跑完,桌面上多了一個 Excel 文件:前 5 個最便宜且高銷量的商品,按平台、店鋪、價格、鏈接排列,最低價標紅。
它不是在"告訴"我哪個便宜。它在"替"我比價、截圖、製表。全程我只打了一段話。
當然有毛刺——需要提前在各平台登錄好賬號,否則驗證碼會攔住它。

(2)內容雷達
第二個很實用的場景,不是發生在電腦前。
我用手機釘釘給悟空發了一條消息:設個每天早 9 點的定時任務,自動打開電腦瀏覽器搜"最新 AI 動態,製作做一個 AI 相關的選題",提取 3 條摘要附來源鏈接,發到我手機上。
悟空調取了相關 Skill,自動創建了任務。第二天早 9 點過幾分,手機彈出早報——排版整齊,鏈接可點。

(3)拉客户、做網站
我還拿悟空跑了一個建網站的任務,選了官方技能市場的 skills,跑出了可運行的網站和完整源碼——審美還需打磨,但從 0 到 1 的能力確實在;市場部門以用它生成定時的競品監控;動畫大師一句話出完整數據動畫視頻。

發佈會上還有一些更激進的演示。一個汽修門店店長對悟空説"幫我拉 100 個客人",AI 自主完成了從競品分析、學習爆款、社媒發帖到評論引導的全鏈路。
這些場景如果日常能穩定跑通,説明 AI 正在從"執行指令"走向"幫你幹完"。
説完亮點,也聊聊產品初期不可避免的不穩定因素。官方給了一個案例的數據,有用户反饋,做一個 PPT 消耗了約 2.7 億 Token。AI 從對話走向執行後,操作文件、反覆修改、跨系統調用,token 消耗是量級變化。
悟空的 RealDoc 文件系統官方稱 token 效率提升了 5 倍,方向對了,但對精打細算的中小企業來説,可能還需要更穩定的系統、更優秀的 skills 來讓 ROI 算的清晰、算的過來。
二、金箍棒長什麼樣
悟空有手有腳,但暫時缺一樣東西:眼睛和耳朵。它能操作瀏覽器、讀文檔、跨端執行,卻還看不懂一段視頻裏發生了什麼,聽不出一段錄音裏誰説了什麼、語氣如何。
你一定有過這種經歷:兩小時的會議錄像安安靜靜躺在網盤裏,沒人回看——因為回看的成本幾乎等於再開一次會。爆款帶貨視頻刷到了,隱約覺得轉化邏輯值得學,但沒時間逐幀拆解。英文播客、方言客服錄音——聽過就過了。大量有價值的音視頻內容,"看過"之後再沒有然後。
阿里千問剛發佈的 Qwen3.5-Omni,做的就是把"看過就過"變成"拆開來用"。
説説我們的實測。
我們用它來拆爆款 TikTok 帶貨視頻。
輸入一條義烏招商類帶貨視頻,模型按 Hook、賣點排序、畫面證明點、字幕策略、情緒節奏、CTA 時間點、目標人羣七個維度做了結構化拆解。核心洞察讓我印象深刻——"這條視頻賣的不是商品,而是確定性":三級物理證據鏈構建信任、"2 萬種 SKU+20 美分均價"製造數字錨點、保姆式承諾實現風險逆轉。
更關鍵的是遷移能力:要求它按同樣邏輯給"T 恤定製工廠"寫一個腳本,它成功輸出了可執行的 5 步模板,Hook 改成了"拉扯 T 恤展示彈性",實力證明換成"印花機噴墨特寫 + 揉搓不掉色",連評論區運營引導都寫好了。

還有一個"口述寫代碼"的測試。手繪一張故意畫得很粗糙的 APP 線框圖,打開攝像頭對着鏡頭口述需求,它直接生成了可運行的 React 代碼。繼續口述修改——側邊欄、圓角、深色主題、按壓動畫——多輪迭代下來上下文始終沒丟。邊看、邊説、邊改,這是人類最自然的交互方式,它接住了。

底層支撐這些表現的:混合注意力 MoE 架構,超 1 億小時音頻數據的原生多模態預訓練,215 項第三方測試取得 SOTA,多項指標超越 Gemini-3.1 Pro。256K 上下文窗口,支持超 10 小時音頻。113 種語言和方言的語音識別,36 種語言和方言的 TTS 合成。定價:每百萬 Token 輸入不到 0.8 元——不到 Gemini-3.1 Pro 的十分之一。
一句話概括:Qwen3.5-Omni 讓音視頻變得"可拆"——不是"看懂了"就完了,而是拆成可檢索、可複用、可以直接拿去幹活的數據資產。
三、當悟空拿起金箍棒
悟空能操作瀏覽器、讀寫文件、跨端執行、調用釘釘上千項能力,但它處理不了音視頻,就沒辦法讓用户在最自然的商業場景中廣泛使用;Qwen3.5-Omni 能把視頻按時間戳拆成結構化數據、聽懂多語言錄音、理解畫面和語音的混合輸入,恰恰彌補上了這一環。
如果兩者成功結合:你把兩小時的會議錄像扔給它。它不只是生成一份紀要——它聽出誰在什麼時間説了什麼、語氣是堅定還是猶豫、哪些話是待辦事項,然後直接在釘釘裏創建任務、分配給對應的人、設好截止日期。從"看懂會議"到"執行會議結論",中間不需要任何人再動手。
運營團隊不用每天人工盯競品的短視頻賬號了。AI 自己去看競品視頻、拆解轉化邏輯——就像 Qwen3.5-Omni 拆那條 TikTok 帶貨視頻一樣——輸出可遷移的腳本模板,然後在悟空裏自動在社交媒體上發佈改編後的內容,甚至進一步拉客獲客。從"分析競品"到"產出內容"到 “獲客轉化”,一條龍搞定。
或者更日常一點:客服錄音質檢。過去需要人聽、人記、人打分,一天能質檢的通話量有限。接入全模態能力後,AI 自己聽完所有錄音,輸出每通電話的情緒軌跡和話術評分,標記出問題通話,生成改進建議,再把結果寫進釘釘的管理系統。
這幾個場景的共同邏輯是一樣的:感知→理解→執行,完整閉環。悟空解決了執行,Qwen3.5-Omni 解決了感知,且 Qwen3.5-Omni 不到 0.8 元/百萬 Token 的定價也讓整個飛輪在價格上可行,拼圖就差合上這一步。
結語
西遊記裏,悟空從石頭縫蹦出來時就已經能打了。但他拿到金箍棒、認了師父、上了路之後,變得越來越強。
釘釘的悟空已經蹦出來了。金箍棒剛鑄好,還沒交到手上。取經的路很長——Token 成本要降,產品要磨,2700 萬企業的認知要一家一家啃。
但猴子、棒子、路,都在了。
本文來自微信公眾號 “硬 AI”,關注更多 AI 前沿資訊請移步這裏
