A new king of large models is born! Claude 3 surpasses GPT4 for the first time

華爾街見聞
2024.03.28 04:22
portai
I'm PortAI, I can summarize articles.

Claude 3 超大杯 Opus 登頂榜首,大杯 Sonnet 和小杯 Haiku 分別獲得第四和第六的好成績,Haiku 水平已達到 GPT-4 級別。

作者:卜淑情

來源:硬 AI

一覺醒來,大模型世界迎來了 “新王登基”!

當地時間週三,聊天機器人競技場 Chatbot Arena 更新對戰排行榜,Claude 3 反超 GPT-4,一舉摘得 “最強王者” 桂冠。

這次登頂榜首的是 Claude 3 系列的超大杯 Opus,它以 2 分 Elo 的微弱優勢,險勝 GPT-4-1106-preview 模型,GPT-4-0125-preview 位列第三。

而且,不僅僅是超大杯 Opus,Claude 3 家族其他兩個成員大杯 Sonnet 和小杯 Haiku 都殺進了 TOP10,分別獲得了第四和第六的好成績。

小杯 Haiku 達到 GPT-4 級別

尤其是小杯 Haiku,被官方單獨拉出來表揚。

“Haiku 給所有人留下了深刻的印象,根據我們的用户偏好,Claude 3 Haiku 已經達到了 GPT-4 級別!” 運行 Chatbot Arena 的 LMSYS 平台發帖大讚,“它的速度、功能和上下文長度目前在市場上是獨一份的。”

更難等可貴的是,Haiku 參數規模遠遠小於 Opus 以及任何的 GPT-4 模型,而且它的價格是 Opus 的 1/60,響應速度卻是它的 10 倍。

GPT-4 自去年 5 月被納入 Chatbot Arena 榜單以來一直牢牢霸佔榜首,但現在,Claude 3 憑藉其出色表現,尤其是其在高級任務處理上的能力,成功顛覆了這一格局。

這是史上第一次,面向高級任務的第一模型 Opus 和麪向成本效率的 Haiku 均出自非 OpenAI 的供應商,” 獨立 AI 研究員 Simon Willison 在接受媒體採訪時表示,“這非常讓人欣慰——在這個領域,頂尖供應商的多樣性對大家都有好處。”

“向新國王下跪!”

吃瓜網友也紛紛對 Claude 3 豎起大拇指。

“印象深刻,Very nice!”

還有人建議蘋果將 Claude 設置為默認 AI 工具。

更有人直呼:“舊王已死。安息吧,GPT-4。”

“向新國王下跪!”

相比之下,網友對 GPT-4 的感情更加複雜。

“GPT-4 變得非常蹩腳。”

最近幾個月,有關 GPT-4 變懶的話題在網上鬧得沸沸洋洋。

據稱,GPT 在高峰時段使用時,響應會變得非常緩慢且敷衍,甚至還會拒絕回應,單方面中斷對話。

比如,它在進行編程工作時會習慣性地跳過部分代碼,還出現了讓人類自己寫代碼的名場面

評分準確嗎?

在一陣讚揚 Claude 3 的聲音中,也夾雜着質疑的聲音。

那麼,Chatbot Arena 究竟是如何給這些大模型打分的?

Chatbot Arena 由伯克利大學主導團隊的 LMSYS 開發。平台採用匿名、隨機的方式讓不同的大模型 “打擂台”,並讓人類用户擔任裁判,最後根據大模型所得的積分進行排名。

具體來説,系統每次會隨機選擇兩個不同的大模型和用户匿名聊天,讓用户決定哪款大模型的表現更好一些,系統會根據用户的選擇對大模型進行打分,然後將分數匯總整理形成最終的積分,最後以排行榜的形式呈現。

自推出以來,已有超過 40 萬名用户成為 Chatbot Arena 的裁判。新一輪排名又吸引了 7 萬名用户加入。

在本次激烈的 “擂台賽” 中,Claude 3 通過成千上萬次的對戰,在 GPT-4、Gemini 等一眾強勁對手中殺出重圍,成為新的大模型之王。

值得一提的是,在評價一個大模型的好壞時,用户的 “感覺” 也就是體驗感至關重要。

“所謂的參數標準無法真正評價大模型的價值,” AI 軟件開發者 Anton Bacaj 此前發貼説,“我剛和 Claude 3 Opus 進行了一場長時間的編碼會話,真的是遠超 GPT-4。”

Claude 3 的進化可能會令 OpenAI 感到一絲不安,一些用户已經開始在工作中 “叛變”,放棄 ChatGPT,轉而使用 Claude 3。

“自從有了 Claude 3 Opus,我再也沒有用過 ChatGPT。”

軟件開發者 Pietro Schirano 在 X 平台寫道:“老實説,Claude 3 > GPT-4 最令人震驚的事情之一,就是切換太容易了。”

但也有人指出,Chatbot Arena 並沒有考慮到添加工具後的表現,這恰恰是 GPT-4 的強項。

另外,Claude 3 Opus 和 GPT-4 之間的分數非常接近,而且 GPT-4 已經問世一年了,預計今年某個時候會出現更強大的 GPT-4.5 或 GPT-5。

毋庸置疑,到那時這兩大模型之間的 PK 將會更加激烈。