The new model 4.6 of Claude is here! More jobs are gone: Wall Street finance, compilers, security white hats, PPT... all have fallen

華爾街見聞
2026.02.06 03:59
portai
I'm PortAI, I can summarize articles.

Claude Opus 4.6 新模型發佈,導致華爾街金融數據服務商 FactSet 股價暴跌 10%,S&P Global、穆迪和納斯達克公司也紛紛下跌。投資者對 AI 顛覆的恐慌加劇。新模型在財務分析、研究和 Office 應用等領域表現出色,官方稱其在 GDPval-AA 評估中超越 OpenAI GPT-5.2。Opus 4.6 的定價保持不變,每百萬 token 輸入/輸出價格為 5 美元/25 美元。

一睜眼,Anthropic 上新模型,讓 Claude Opus 4.6 來給您拜!年!了!

消息一出,金融數據服務商 FactSet 最慘盤中暴跌 10%,S&P Global、穆迪、納斯達克公司紛紛下跌,各大指數全線跳水。

這已經是 Anthropic 你小子本週第二次攪動市場了

幾天前,它旗下一款自動化法律工作的插件悄悄上線,直接引爆了萬億美元級別的軟件股暴跌。

投資者的恐慌聚焦在一個問題:誰能保證幾年內不被 AI 顛覆?不能就拋售。

想不到今天的 Anthropic 更狠。

今天以前,大家對 Claude 的印象,就是編程能力斷檔性的強。

Claude Opus 4.6 冷笑一聲,梆梆一拳打破這個印象:俺在更多的領域都很強!

至少就官方説法而言,財務分析、研究,以及 Office 三件套,Claude Opus 4.6 都可以玩兒得很溜。

官網直接寫到:

在 GDPval-AA(一項評估金融、法律和其他領域經濟價值知識工作任務的性能指標)上,Opus 4.6 比行業下一最佳模型 OpenAI GPT-5.2 高出 144 個 Elo 喲~

(這意味着 Claude Opus 4.6 在大約 70% 的情況下在這個評估中獲得比 GPT-5.2 更高的分數,50% 的情況下意味着分數相當)

當然,編程這塊它依舊獨領風騷。

在 Agent 編程評估 Terminal-Bench 2.0 中取得了最高分,並在 “人類最後考試” 中領先所有其他前沿模型。

好消息是加量不加價,Opus 4.6 的定價保持原有標準:每百萬 token 輸入/輸出,價格是 5 美元/25 美元

(為了方便閲讀,以下簡稱新模型為 Opus 4.6)

帶着 1M 上下文和自適應思考殺回巔峯

Opus 4.6 最直觀的進步就是有了 1M Token 超大上下文,這是 Claude 首次在 Opus 級別模型中引入這個長度的上下文窗口。

這極大改善了 Opus 4.6 在處理長文本時會出現的 “上下文衰減” 情況。

在 MRCR v2 8-needle 1M 基準測試——大海撈針——中,Opus 4.6 得分 76%,而 Claude Sonnet 4.5 只有 18.5%。

伴隨而來的結果是搜索能力的提升。

在 BrowseComp 評測(評估在線檢索難獲取信息的能力)中,Opus 4.6 排名行業第一,深度多步驟代理式搜索表現最佳,能精準定位分散在長文檔中的關鍵信息。

Opus 4.6 還引入了自適應思考(Adaptive Thinking)功能。

以前,使用 Claude 模型的開發者只能二選一,擴展思考模式要麼開,要麼關。

現在,Claude 可以自己判斷什麼時候需要深度推理。

(講真,這一步比 ChatGPT 慢了哈,下次請搞快點上這種好功能)

配套的 effort 參數提供四檔選擇——low、medium、high、max——,默認 high,遇到模型過度思考的情況可以手動調低。

另一個實用功能是上下文壓縮(Context Compaction)

當對話接近上下文窗口上限時自動摘要並替換舊內容,讓長對話和 Agent 任務更輕鬆。

編碼、知識工作、搜索、推理等核心場景,殺爆了

官方博客顯示,Opus 4.6 一出,幾乎無模型能與其爭鋒。

在編碼、知識工作、搜索、推理等核心場景,Opus 4.6 有顯著突破

多項評測成績超越前代及行業競品,be like:

看完有了個大概印象,我們再一個一個掰開説。

首先是編程能力。

Opus 4.6 在 Terminal-Bench 2.0 中拿到了最高分。

從成績背後的實際能力來看,Opus 4.6 能更周密地進行任務規劃,可在大型代碼庫中穩定運行,代碼審查與調試精度提升。

而且能自主發現自身錯誤。

另一點是 Opus 4.6 支持多語言編碼,能處理跨語言軟件工程問題。

它能像高級工程師一樣完成數百萬行代碼庫遷移,且用時實打實少一半那種。

寫到這裏的時候,我不禁在想:

工程師們看到這個消息到底是高興得頭髮都不掉了,還是會掉更快呢……(陷入沉思.jpg)

其次,Opus 4.6 也在積極入侵傳統辦公領地。

這次它對 Office 三件套狠狠出手了。

  • 能直接在 Excel 裏攝入凌亂的非結構化數據,自行推斷合理的表格結構,一次操作中可處理多個複雜步驟;
  • 能銘記你公司的 PPT 模板,包括字體和佈局風格也記住,確保生成的 PPT 沒啥 AI 味,讓老闆以為是你熬夜框框一頓做的。

在 Cowork 環境下,Opus 4.6 可以代表用户自主多任務運行,一邊跑財務分析,一邊把研究成果整理成文檔

感覺,Anthropic 有點想把 Claude 從聊天框里拉到更多空間裏的意思?

第三,我們來説説它在推理能力上的進步

先上個總結:

Opus 4.6 在跨領域推理上,更強了。

在多學科複雜推理測試 “人類最後的考試” 中,Opus 領先所有前沿模型。

在法律領域,Opus 4.6 在 40% 為滿分的 BigLaw Bench 上,得分 90.2%。

在金融、法律等經濟價值導向任務評測 GDPval-AA 中,Opus 4.6 以 144 Elo 超越 “行業競品” OpenAI GPT-5.2。

無論是複雜的法律、金融專業知識還是刁鑽的學術研究,它的推理理解深度都達到了目前 frontier models 的頂峯。

難得的是,這種智力的飛躍並沒有以犧牲安全性為代價

在 Anthropic 最看重的自動化行為審計中,Opus 4.6 的對齊水平極高,同時,欺騙、奉承等負面行為極低

Opus 4.6 甚至解決了目前 AI 圈普遍頭疼的 “過度拒絕” 問題——

在面對正常的、無害的請求時,它比以往任何模型都更少地表現出那種死板的拒絕。


目前,Opus 4,6 已經在官網、API 和所有主流雲平台上線。

加量不加價,Opus 4.6 的定價保持原有標準:每百萬 token 輸入/輸出,價格是 5 美元/25 美元

不過在 10M token 上下文測試版本中,提示詞超過 200k token 的話會有額外付費。

劃!重!點!

想要使用 Opus 4.6 的話,需要在調用 API 的時候明確制定模型標識 “Claude-opus-4-6”。

更多飯碗沒了

16 個 Agent 兩週寫完 C 編譯器,運行毀滅戰士

Opus 4.6 帶來的一項核心能力升級是 Agent Teams,即多個 Claude 實例並行協作,無需人類實時監督。

Anthropic 安全團隊的研究員 Nicholas Carlini 拿它做了個壓力測試:讓 16 個 Agent 從零開始用 Rust 寫一個能編譯 Linux 內核的 C 編譯器。

兩週時間,近 2000 次 Claude Code 會話,燒掉 20 億輸入 Token 和 1.4 億輸出 Token,總成本不到 2 萬美元。

最終產出是一個 10 萬行的編譯器,能在 x86、ARM 和 RISC-V 三個架構上編譯 Linux 6.9,還能跑 Doom。

這套並行機制讓每個 Agent 跑在獨立的 Docker 容器裏,共享一個 git 倉庫。

為了防止多個 Agent 撞車,都屁顛屁顛跑去解決同一個問題,系統用了一個簡單的鎖機制。

Agent 通過往 current_tasks/目錄寫文件來” 認領” 任務,git 的同步機制自動處理衝突。Agent 之間沒有專門的通信協議,也沒有編排 Agent,每個 Claude 自己決定下一步幹什麼。

Carlini 在博客裏寫道:

“當 Agent 開始編譯 Linux 內核時曾一度卡住,因為這是一個巨型單體任務,16 個 Agent 全撞在同一個 bug 上互相覆蓋。”

解法是引入 GCC 作為” oracle” 對照組,讓每個 Agent 只編譯內核的隨機子集,通過二分法定位問題文件,這樣並行能力才真正發揮出來。

500 個零日漏洞,開箱即挖

Opus 4.6 在網絡安全領域的表現讓 Anthropic 自己都有點意外。

在發佈前的測試中,Anthropic 的前沿紅隊把 Opus 4.6 扔進一個沙箱環境,給它 Python 和常規漏洞分析工具(fuzzer、debugger 那些),沒有任何專門指令或領域知識,讓它自己去找開源代碼裏的漏洞。

結果它挖出了超過 500 個此前未知的高危零日漏洞

每一個都經過了 Anthropic 團隊成員或外部安全研究員的驗證的哦。

具體案例包括:

  • 在 GhostScript(一個處理 PDF 和 PostScript 文件的常用工具)中發現了一個可導致崩潰的漏洞,而且是在傳統 fuzzing 和人工分析都沒找到問題之後,Claude 自己翻了項目的 git 提交歷史才挖出來的;
  • 在 OpenSC(處理智能卡數據的工具)和 CGIF(處理 GIF 文件的工具)中發現了緩衝區溢出漏洞;在 CGIF 那個案例裏,Claude 甚至主動寫了 PoC(概念驗證代碼)來證明漏洞真實存在。

Anthropic 前沿紅隊負責人 Logan Graham 説,如果這成為未來開源軟件安全審計的主要方式之一,他一點也不驚訝。

不過 Anthropic 也承認,這種能力可能被濫用。

為此,團隊加了六套新的網絡安全探測機制,未來可能會上線實時攔截系統來阻止惡意流量。

One More Thing

官網顯示,Anthropic 現在已經是 “用 Claude 構建 Claude”。

自家工程師每天都在用 Claude Code 編寫代碼,每個新模型首先都在自己的工作環境中進行測試。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。