
The first lobster large model ranking is here! Two domestic AI models have entered the global top three, a must-read for shrimp farming

首個龍蝦大模型排行榜發佈,騰訊的 OpenClaw 被譽為重要軟件,AI 在個性化環境中表現出色。新基準測試 PinchBench 評估 32 款大語言模型,Google 的 Gemini 3 Flash 以 95.1% 成功率奪冠,超越其他主流模型,顯示出模型效率優化的成果。
你現在養了幾隻龍蝦?
這就是現在打招呼最常見的問題,上週騰訊深圳總部排起龍等着免費裝 OpenClaw,真是一代人有一代人的雞蛋。

連黃仁勳也盛讚 OpenClaw 為「有史以來最重要的軟件發佈」,認為它已經證明了 AI 在高度個性化環境中,能夠完美復刻人類的複雜工作流。
養龍蝦太過火爆,也終於出現專門針對 OpenClaw 的基準測試 PinchBench,用於評估大語言模型在 OpenClaw 任務中的表現。

PinchBench 評分方式也很硬核,有的任務看代碼能不能跑通(自動化檢查),有的看寫得好不好(Claude Opus 當評委),還有的是兩者結合。所有題目和答案都開源在 GitHub 上,誰都可以去驗貨。

今天,OpenClaw 創始人 Peter Steinberger 分享這個龍蝦基準測試排行榜。
PinchBench 一口氣測了 32 款主流大模型,從成功率、速度、費用三個維度,看看哪個模型最適合養龍蝦。
PinchBench 官網???? https://pinchbench.com/
Gemini 3 Flash 成功率最高,國產模型也殺瘋了
來看最重磅的成功率排名。

Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率奪冠,這個成績説實話讓我有點意外。因為 Flash 系列一直是 Gemini 的「輕量版」,主打快和便宜,沒想到這次在準確率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。
這説明 Google 在模型效率優化上是真的下了功夫。輕量模型不代表能力弱,關鍵看怎麼調。
Gemini 3.1 Flash-Lite 更多介紹可以查看 APPSO 推文:剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
第二名是 MiniMax M2.1,成功率 93.6%。國產模型真的站起來了,MiniMax 的表現相當亮眼,成功壓過了 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)。
Kimi K2.5 緊隨其後,成功率 93.4%。Kimi 的長文本能力一直很強,這次在編程任務上也證明了自己。和 MiniMax 一起,國產雙雄直接佔據了 TOP3 的兩個席位。
再往後看,Claude Sonnet 4.5 排第四(92.7%),Gemini 3 Pro 第五(91.7%),Claude Haiku 4.5 第六(90.8%)。
有意思的是,Claude Opus 4.6 作為 Anthropic 的旗艦大模型,成功率只有 90.6%,排在第七。
看來「大」不一定「強」,至少在編程這個場景下,中端模型反而更香。
唯快不破,MiniMax 贏麻了
在開發這些重度任務中,誰都不想對着屏幕乾等。速度接影響幹活的心情。
MiniMax M2.5 以 105.96 秒的成績拿下速度冠軍,完成全部測試任務。什麼概念?比第二名 Gemini 2.0 Flash 只快了 0.09 秒,但第一就是第一。

第三名 Llama 3.1 70B(106.14 秒)、第四名 Gemini 1.5 Pro(106.85 秒)、第五名 Mistral Large(107.72 秒)——這幾個差距都不大,基本在同一梯隊。
但往下看就有意思了。
Claude Sonnet 4 用了 137.66 秒,比第一梯隊慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒,是 MiniMax M2.5 的兩倍多。
這説明一個規律:輕量級模型普遍更快。如果你做的是快速原型開發、需要頻繁迭代,選輕量模型準沒錯。但如果是那種「跑一遍就行」的任務,等等大模型也無妨。
怎麼養龍蝦最划算
養龍蝦,精打細算很重要,畢竟很多 OpenClaw 任務都是 Token 無底洞,稍不留神就能讓你懷疑人生。

GPT-5 Nano 以 0.03 美元的成本成為全場最便宜的選擇,成功率 85.8%。雖然準確率不算頂尖,但這個價格……還要什麼自行車?適合預算有限、對錯誤容忍度高的場景。
Gemini 2.5 Flash Lite 排第二,只要 0.05 美元,成功率 83.2%。這個性價比就很能打了——成本是 GPT-5 Nano 的不到兩倍,成功率只低了 2.6 個百分點。
MiniMax M2.1 排第五,成本 0.14 美元,但別忘了它的成功率是 93.6%。算下來每百分點的成本只有 0.0015 美元,性價比極高。
再看高端模型的成本,就有點觸目驚心了。
Claude Opus 4.6 完成測試要花 5.89 美元,是 GPT-5 Nano 的將近 200 倍。但它的成功率只有 90.6%,比 MiniMax M2.1 還低了 3 個百分點。
這賬怎麼算都不划算。除非你對 Claude 有特殊的品牌信仰,否則從純性價比角度,中端模型顯然是更理性的選擇。
龍蝦養殖怎麼選
看完三個維度的榜單,相信你已經有了自己的判斷。這裏 APPSO 再給大家幾個場景化的建議:
如果你追求成功率,無腦選 Gemini 3 Flash
95.1% 的成功率 + 0.72 美元的成本,目前綜合表現最優。適合對代碼質量要求高的生產環境,出錯的代價遠大於模型成本的時候,選它準沒錯。
⚡ 如果你追求速度,選 MiniMax M2.5 或 Gemini 2.0 Flash
都在 106 秒左右完成全部任務,適合快速原型開發、需要頻繁迭代的場景。時間就是金錢,這倆能幫你省下不少耐心。
如果你追求性價比,選 Gemini 2.5 Flash Lite
0.05 美元的成本,83.2% 的成功率,是入門「養龍蝦」的最佳選擇。個人項目、小團隊、預算有限的場景,閉眼入。
如果想少折騰傾向國產模型,MiniMax M2.1 和 Kimi K2.5 都很能打
MiniMax M2.1 成功率 93.6% 排第二,Kimi K2.5 成功率 93.4% 排第三,兩款國產模型都已經躋身第一梯隊。而且 MiniMax 的速度還是冠軍,性價比也極高,值得重點關注。
從這次 PinchBench 的榜單可以看出,Agent 已經進入了「百花齊放」的時代。Google 的 Gemini 系列在效率和成本上全面領先,國產模型 MiniMax 和 Kimi 緊隨其後,OpenAI 和 Anthropic 則在高端市場保持競爭力。
對於開發者來説,好消息是選擇越來越多了。壞消息是……選擇困難症可能更嚴重了。
但沒關係,記住一個原則:沒有最好的模型,只有最適合你場景的模型。生產環境看成功率,原型開發看速度,個人項目看性價比,按需選擇就好。
而且,APPSO 也想特別提醒大家,安裝 OpenClaw 或許不用花費什麼成本,但「養龍蝦」消耗的 Token ,可比過去我們和 AI 對話要多得多。
前幾天 OpenClaw 在紐約辦的聚會上不少用户分享自己的龍蝦養殖心得,有人每個月在 Token 上的花費高達 1000-2000 美元,更有一位「土豪」玩家每天燒掉 10 億 tokens,沒有信仰可禁不起這麼燒錢。

嚐鮮 OpenClaw 可以,但它其實並不適合所有人,目前有很多任務用龍蝦也並非最優解,更大的意義是可以感受 AI 帶來全新的交互體驗。
風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
