"Stealing" data, using Tesla GPUs, what has Musk turned AI into?

虎嗅
2024.08.16 00:21
portai
I'm PortAI, I can summarize articles.

馬斯克的 Grok2 AI 模型在性能上有顯著提升,表現優異,綜合能力排名第三,並新增圖片功能,特別擅長數學和常識性問題。一個匿名模型 sus-column-r 的發佈引起關注,實為 xAI 的 Grok2。Grok2 的對戰勝率表顯示其在大模型競技場中表現傑出,基本與市面上最先進的 AI 不相上下。

差評 X.PIN(ID:chaping321),作者:世超,編輯:江江,題圖來自:視覺中國

馬斯克的 Grok2 AI 模型在性能和特色上有顯著提升。

• 🚀 Grok2 在大模型競技場上表現優異,綜合能力排名第三。

• 🖼️ 新增圖片功能,與 FLUX.1 合作,整活能力突出。

• 🧠 在數學和常識性問題上表現優秀,並與 GPT-4o 一較高低。

有個怪事兒,前段時間,大模型競技場上,一個代碼為 sus-column-r 的匿名模型橫空出世。

沒人知道它師出何門,但在過去的一個月裏,它卻稱得上是過關斬將……

累計一萬多人的投票,硬生生讓它擠進了排行榜前列。到現在,綜合能力已經和 5 月 13 號發的GPT-4o(API 版本)並列第三了。

看這勢頭,當時就有不少人猜測,這可能是 OpenAI 那個遲遲沒向大眾公佈的,神秘的“草莓 Q*”項目。

然而,就在昨天,這個困擾大夥兒很久的謎語,終於有答案了。但解開它的,不是 OpenAI,而是經常被大家忽略,但也在搞 AI 的馬斯克。

這個匿名的 sus-column-r 模型,其實就是 xAI 要推出的新模型 Grok2,現在已經上線會員版的 X 了。

而之所以在大模型競技場上整這麼一出,説白了,是想給昨天的發佈熱熱場子。

像是在官宣推出 Grok2 的博客裏,就明晃晃地展示了之前 sus-column-r 積累的戰績,甚至還做了對戰勝率表

按照他們自個兒的説法,表裏面除了谷歌的 Gemini 1.5 Pro 外,其餘無論是 GPT-4o,還是 Claude3.5 Sonnet,都只能是 Grok2 的 “手下敗將”。

當然了,其他的紙面成績,Grok2 答得也挺不錯。光從各個基準的數據來看,它的各項能力,都和市面上最先進的 AI 差不多,這一線大模型的行列,也算是被 Grok 給擠進去了。

不過,一個模型好不好,光看這些數據也還不行,最重要的是,得看大夥們的實際使用體驗。

相較於上次的還只能文字開開玩笑的 Grok1.5,這次 Grok2 最明顯的一個升級,就是新增了圖片功能

但和其他家自己動手搞多模態 AI 不一樣,這次馬斯克倒挺罕見地選擇了和別人合作。

合作的對象,差友們應該還有點印象,就是前兩天咱剛寫過的FLUX.1

看到這,世超也沒對 Grok2 的圖片功能抱太大的期待,畢竟是前腳剛試過的 AI……

但沒想到集成到 Grok2 裏面的 FLUX.1,還真撞出了一點不一樣的火花。

倒也不是説,在性能上它一夜之間飆升了一大截。而是相較於市面上的其他圖片 AI,Grok2 的整活能力可以稱得上是一騎絕塵。

同樣是迪士尼公主的一個提示詞,Grok2 在尺度上就比其他模型要大膽得多。

而且,Grok2 還能直接對着自己的老闆惡搞,比如這是一個愛吃甜品,吃到發胖的馬斯克。

轉眼,他還能穿越到權力的遊戲裏,玩角色扮演。

更搞的是,還有網友直接拿 Grok2 生成的圖,和視頻 AI 配合起來,做起了視頻。

不過,Grok2 這麼肆無忌憚地惡搞各種公眾人物、卡通人物,風險肯定還是有的。

像是有網友生成馬里奧抽煙喝酒、觀望 “911” 事件的圖片,就已經有人督促任天堂起訴了。

除了新增有圖片功能外,Grok2 這次提升的基礎能力,咱肯定也得上手測測,看看實力。

考慮到目前 X 上線的,還只是性能差一點的小杯 mini 版,於是世超在大模型競技場上,試用了下能力更強的 Grok2,還拉來了最新版本的 GPT-4o 作比較。

比試第一招,先從 AI 容易犯錯的題目開始。前段時間,大模型集體在 “小數比較” 上翻車,大夥應該都聽説過了。

這次再來波經典重現,讓它倆來比比9.5 和 9.11的大小。

沒想到的是,GPT-4o 依舊是死性不改,結果對了,但一看解題思路,完全就是一塌糊塗。反倒是 Grok2 倒有理有據,給出了正確答案。

還有經典的數數問題,GPT-4o 依舊讓人大跌眼鏡,“我一把把把把住了” 它竟然數出來 5 個把字,Grok2 這邊倒還是穩定發揮。

不過緊接着問它倆這句話的意思,Grok2 就有點露怯了,亂説了一大堆,沒一個踩到得分點。而這次 GPT-4o 簡單幾句話就給解釋清楚了。

接下來世超又試了一些比較基礎的常識性問題,比如説 “李政道是誰”,它倆回答的,都還算正確。就是不知道為啥,GPT-4o 很容易犯懶,草草幾句話就結束了。

而 Grok2 這邊,每次給出的答案都挺詳細,還貼心地分了類。

反正世超在實際用的時候,是真有感覺到 Grok2 能力的提升。

另外,按照官方給的數據,這次 Grok2 在數學這塊兒,也能算得賊溜了。

於是我就又翻出了之前 Grok 做錯的那道數學題,是一道求導的問題。

結果馬斯克還真沒忽悠咱,它倆都把這道題給整明白了。

而把 Grok 奶成現在的模樣,馬斯克在背後出得力可不止一星半點兒。

但有意思的是,馬斯克主打的,就是薅自己其他公司的羊毛……

先是員工這塊兒,xAI 一共就只有 50 來個員工,其中有 11 個都是在特斯拉工作的,而且裏面還有 6 個是在 Autopilot 團隊工作的,是一點兒都不想避嫌。

據華爾街日報消息,甚至原本要給特斯拉用的 GPU,也被馬斯克要求優先供應給 xAI,還冠冕堂皇的説,特斯拉現在也沒地兒用,在倉庫裏放着也是放着。

偷完特斯拉的家,還不過癮,馬斯克把手也伸到了 X 上。

就在前兩天,科技媒體 Techcrunch 稱,為了 “悄悄” 用用户們的數據訓練 AI,X 在更新的時候,還偷摸着把用户的默認設置給改了,而且要關掉還得專門登錄網頁版……

不過總這麼偷家,難免會吃上官司。像是馬斯克和他的 X,就被特斯拉的股東,還有好幾個國家的數據保護機構給起訴了。

目前,關於特斯拉的案件,已經在特拉華州的一個法院審理了。

而另外幾個數據保護機構,也把 X 告得,暫停用用户數據訓練 Grok 了。甚至 X 還有可能遭到“4% 平台營業額”的罰款。

但無論如何,在大模型這塊兒,馬斯克的 Grok 也算是真正趕上大傢伙的進度了。和其他大模型比,不管是圖片生成,還是其他基礎能力上,Grok2 都不算差,甚至還整出了一點兒自己的特色。

據説,xAI 下一步會把 Grok 更深入地揉到 X 平台上面,而且還要再發一個多模態理解的預覽版 AI。

不知道為啥,世超已經有點期待,馬斯克還能整出什麼花活兒來了……

資料來源:

X、WSJ、Techcrunch