
The enhanced version Claude3.5 is officially launched, the era of controlling the computer with just one sentence is really coming

Claude 3.5 正式上線,推出了新功能 “計算機操控”,使其成為真正的智能代理,能夠理解用户意圖並自主執行任務。新模型 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 的性能顯著提升,尤其在推理、知識和編程能力方面表現出色。此升級標誌着 AI 在自主探索和問題解決能力上的重要進展。
夜裏十一點,大洋彼岸早上 8 點整。
Claude 帶着大貨閃亮登場了。

升級版的 Claude 3.5 Sonnet,新模型 Claude 3.5 Haiku,還有全新的新功能:computer use,翻譯過來後,我把他稱為,“計算機操控”。
一個一個來説。
首先新模型升級版 Claude 3.5 Sonnet。
Claude 的模型一直分為三個尺寸,分別是 Opus、Sonnet、Haiku。從大到小。
3 月的時候,Claude 正式推出 Claude 3 代的全系模型,從 Opus 到 Haiku 都有。
然後 6 月的時候推出了 Claude 3.5 Sonnet,只推了這一個,沒有 3.5 Opus 和 Haiku,參見這篇文章:我體驗完剛發佈的 Claude3.5,發現最強的是這個新功能。
那時候 Claude 3.5 Sonnet 的能力就吊打了舊的最大參數的模型。
而今天,推送的是升級版的 Claude 3.5 Sonnet,還有新的 Claude 3.5 Haiku。

有趣的是,Claude 3.5 Haiku 還是後訓的,知識截止時間是 7 月,而升級版 Claude 3.5 Sonnet 知識時間並沒有變,也就是加了更多的強化學習的合成數據以及 “計算機控制” 的訓練。
而 Claude 3.5 Sonnet 的整體性能上,基本傲視羣雄。

不管是推理、還是本科的知識、還是編程能力啥的,都是 No.1,而且 Claude 的跑分不像很多模型那種刷榜,他的跑分是真的可信的。
我相信 6 月 Claude 3.5 Sonnet 上線後,直接一波科技躍遷,帶着 cursor 之類的 A 編程一波昇天,就不會有任何人會懷疑 Claude 的代碼能力了吧。
最特別的評測基準其實是那個第七行的 SWE-bench Verified,大概就是測試寫代碼解決問題的真實能力,這個評測基準是 8 月份 OpenAI 提的,然後這波 Claude 3.5 直接把這個基準加在自己的跑分裏。
GPT4o 在這項的跑分是 33.2%,o1 不知道。
但是按 Claude 的話説,o1 是個什麼髒東西,不認識。

而新版的 Claude 3.5 Sonnet,目前也在 Claude 官網上上線了。

可以看到有了 new 的標籤。
我直接發了最簡單的一句話:給我生成一個非常精美的俄羅斯方塊遊戲。
然後,升級版 Claude 3.5 Sonnet,就開始嘟嘟嘟的生成。
直接一次性生成了 280 行代碼,而且這個遊戲,是真的可以直接玩的。。
也可以直接讓它生成一個隨時可調可互動的動效模擬器,徹底改變學習方式。

就,非常的酷。
其次是 Claude 3.5 Haiku。
這個其實就沒太多可説的了,常規升級,但是是目前最快、性價比最高的模型。
在跟 Claude 3 Haiku 的相同成本和速度下,直接擊敗了參數量最大的 Claude 3 Opus。
在編碼任務上,居然能直接打敗沒升級前的 Claude 3.5 Sonnet,這個是最離譜的。

只能説,Anthropic 的強化學習範式走的還是太超前了,合成數據的質量實在是太高太高了。
那最後,也是最重磅的一點,Claude 的 “computer use”,也就是新功能,計算機控制。
這個點就非常的科幻,能夠實時分析用户計算機屏幕上的活動,並自主執行在線任務,比如瀏覽、點擊和輸入。
我直接放一個官方 case 吧。
Anthropic 是這麼描述這個 “計算機控制” 的功能的:“Claude 3.5 Sonnet 可以按照用户的命令在計算機屏幕上移動光標,點擊相關位置,並通過虛擬鍵盤輸入信息,模擬人們與自己計算機的互動方式。”
這,就是一個能理解用户意圖,並幫他自主實現的真正的 Agent。
以前的 Agent,説實話,看上去更像一個 RPA,就是根據預設好的工作流,一步一步的執行下去,但是真正的 Agent 應該是什麼樣?
在我看來,他就應該跟人一樣,能理解你的複雜語義,把這個複雜語義具象成可執行的步驟,就像我説現在“凌晨 3 點半了我太困了,但是文章還沒有寫完,你幫我看看附近有沒有咖啡買,有的話幫我買一杯,沒有的話就算了。”
如果是個人,那肯定是會打開美團外賣或者餓了麼,看看附近有沒有咖啡店開着,如果有開着的,看看我最喜歡喝的冰美式有沒有的,沒有冰美式的話問我一句要換什麼口味?然後下單,等待送達。
如果 3 點半附近都關門了,那也應該告訴我,附近沒賣的了,哥們你自己撐一撐吧,一會就能睡了。
這才是 AI,這才是我們身邊,能進入到普通人生活中的,最酷的 AI 助手。
而這種 AI 助手,它勢必,需要學會操作手機或者電腦。
我們不止要讓 AI 學會寫文章,學會畫圖,也要讓他學會操作。
這樣,才能有很強的,自主探索、解決問題的泛化能力。

而升級版 Claude 3.5 ,只是在一些簡單軟件上進行了訓練,就有了操作一些不復雜軟件的能力,甚至還會自我糾錯,不斷重試,這又何嘗不是一種強化學習、自我博弈呢?
Anthropic,真的吧 Self-Play 玩出花了。
目前,在測試開發者讓模型使用計算機的一個基準評估(OSWorld)中,Claude 目前得分為 14.9%。
而人類水平通常為 70-75%,雖然差距很大,還有一些路要走,但已經遠高於目前其他最好 AI 模型的 7.7% 這個分數了。
不過現在這個功能普通用户還用不到,只對開發者進行開放,有 API 接入,Anthropic 的本意是還在前期測試階段,怕有危險,所以讓開發先幫忙測試一下。
我們也花了 N 久時間,把 API 接入進來,做了一些簡單的測試。

先裝了一個類似於模擬系統的東西,一切行為都會在這個模擬系統裏運行,Anthropic 還是怕對你的系統會有一個不可逆轉的損害影響。
我測了很多個 case,但是説實話,一是速度實在太磨嘰了...二是成功率,確實還有點低下。
比如這個案例:“打開淘寶網站頁面,找到小米手機官方旗艦店,找一個 2000 左右的手機,加到購物車。”
其實不算難,説實話。
但是 Claude 翻車了,翻車的點也很搞笑,是在輸入店名上,人明明叫小米官方旗艦店,它非要寫 “方店”,後面又試了一次,這次連兩個字都不寫了,直接寫了一個字 “艦”,這能搜到才有鬼了...
而且,這個視頻我已經兩倍速了,你們可以感受一下它有多慢。。
不過,讓他玩 2048,它玩的倒是非常的開心。這一次,是三倍速。
玩的還挺好,我感覺在這放着,他一個人能玩到天荒地老。這倒也是挺有趣的。
當然,也能做一些很實際的事情,比如給我的瀏覽器裝一個可以屏蔽廣告的插件。
他居然把插件地址背下來了,直接輸入,給我搜索 + 安裝一步到位。
起飛。
雖然總體任務的成功率還比較一般,但是還好,畢竟 Claude 自己也説了,成功率沒那麼高。
而且,這只是第一代。
他們堅信,使模型適應工具,這是必然,而模型也可以融入我們每天使用的環境裏,成為我們生活的方方面面。
他們的目標是讓 Claude 使用現有的計算機軟件,就像人一樣。就像人一樣。
真好。希望這個願景,能在不遠的未來達成。
我真的,很想擁有一個自己的。
賈維斯。
