ChatGPT vs Claude,聊天機器人大戰打響了?

華爾街見聞
2023.01.31 11:55
portai
I'm PortAI, I can summarize articles.

因不滿老東家成為微軟附庸,11 名 OpenAI 前員工怒而出走;如今帶着 “ChatGPT 最強競品” 殺回戰場,新公司估值 50 億美元,一出手就獲得 3 億美元融資。

因不滿老東家成為微軟附庸,11 名 OpenAI 前員工怒而出走。

如今帶着 “ChatGPT 最強競品” 殺回戰場,新公司估值 50 億美元,一出手就獲得 3 億美元融資。

這家公司名叫 Anthropic,新推出的聊天機器人產品名叫 Claude。

拿到內部試用權的網友,在簡單對比後驚歎:

看起來,Claude 的效果要比 ChatGPT 好得多。

比如,讓 ChatGPT 寫一句話,要求每個單詞首字母都相同,結果試了好幾次都沒能成功。

而 Claude 不光一次成功,語句富有邏輯性,還能秒速再來一個。

同時,在面對某些缺乏常識的問題時,相比 ChatGPT 一本正經地胡説八道:

反而會毫不留情地指出你的問題有點制杖:

△Claude:這什麼鬼問題?

最有意思的是在寫詩上。相比 ChatGPT 的車軲轆話,它寫出來的東西完全不重樣:

投資它的既有 Facebook 聯合創始人 Dustin Moskovitz,也有谷歌前 CEO、現技術顧問 Eric Schmidt——

都是 OpenAI 的老對頭,又都被 ChatGPT 的出現殺得措手不及。

那麼,這支 “復仇者聯盟” 整出的競品 Claude,背後究竟是什麼原理,和 ChatGPT 細節對比又如何?

Claude 長啥樣?

先來看看 Claude 是如何被打造出來的。

作為一個 AI 對話助手,Claude 自稱基於前沿 NLP 和 AI 安全技術打造,目標是成為一個安全、接近人類價值觀且合乎道德規範的 AI 系統。

據透露,Claude 比 Anthropic 做的另一個預訓練模型 AnthropicLM v4-s3 更大,後者是一個 520 億參數大模型。

但目前它仍處於實驗階段,尚未作為商業產品正式發佈:

Claude 能力依舊有待提升,希望未來能變成一個更有益人類的 AI 系統。

△超長版自我介紹

和 ChatGPT 一樣,Claude 也靠強化學習(RL)來訓練偏好模型,並進行後續微調。

具體來説,這項技術被 Anthropic 稱為原發人工智能 (Constitutional AI),分為監督學習和強化學習兩個階段。

首先在監督學習階段,研究者會先對初始模型進行取樣,從而產生自我修訂,並根據修訂效果對模型進行微調。

隨後在強化學習階段,研究者會對微調模型進行取樣,基於 Anthropic 打造的 AI 偏好數據集訓練的偏好模型,作為獎勵信號進行強化學習訓練。

但與 ChatGPT 採用的人類反饋強化學習(RLHF)不同的是,Claude 採用的原發人工智能方法,是基於偏好模型而非人工反饋來進行訓練的。

因此,這種方法又被稱為 “AI 反饋強化學習”,即 RLAIF。

並且根據 Anthropic 的説法,Claude 可以回憶 8000 個 token 裏的信息,這比 OpenAI 現公開的任何一個模型都多。

所以,打造 Claude 的 Anthropic,究竟是一個怎樣的公司?

Anthropic 自稱是一家 AI 安全公司,且具有公益性(PBC),剛成立就宣佈獲得 1.24 億美元融資。

它由 OpenAI 前研究副總裁 Dario Amodei 帶領 10 名員工創業,於 2021 年成立。

這裏面既有 GPT-3 首席工程師 Tom Brown,也有 OpenAI 安全和政策副總裁 Daniela Amodei(Dario 的姐姐),可以説是帶走了相當一批核心人才。

出走成立新公司的原因之一,自然是對 OpenAI 現狀並不滿意。

從前幾年開始,微軟頻頻給 OpenAI 注資,隨後又要求他們使用 Azure 超算來搞研究,而且將技術授權給微軟,甚至為微軟自己的投資活動籌集資金。

這與 OpenAI 創立的初衷相悖,一批員工便想到了離職創業。

不過,這些人除了不滿 OpenAI 逐漸淪為微軟的 “下屬” 以外,也有自己的野心。

雖然 OpenAI 打造出了像 GPT-3 這樣的大語言模型,然而這個模型背後的工作原理,卻無法用隻言片語概括,大家對它的印象僅僅停留在更大的參數量、更多的數據。

相比之下,OpenAI 的一批員工更想做能控制、可解釋的 AI,説白了就是先搞明白 AI 模型背後的原理,從而在提供工具的同時設計更多可解釋的 AI 模型。

於是,在 OpenAI 徹底變成 “微軟攬錢機器” 後,他們便從這家公司離開,創辦了 Anthropic。

這兩年來,除了進一步鑽研 RLHF 方法、提出基於通用語言模型的 RLHF 大規模數據集外,Anthropic 還於去年年底發表了上面那種名為 Constitutional AI 的方法。

採用這種方法制作的 Claude 模型,也讓它產生了與 OpenAI 的 ChatGPT 不一樣的對話效果。

和 ChatGPT 對比如何?

那麼,用 Constitutional AI 訓練出來的 Claude,和 ChatGPT 進行 PK,戰況如何?

手握內測資格後,Scale Spellbook 團隊成員 Riley Goodside 讓二者進行了多個回合的 “廝殺”。

這位老兄是全網第一個提示工程師(Prompt Engineer),目前在估值 73 億美元的硅谷獨角獸公司 Scale AI 任職。

他玩 GPT-3 玩得賊溜,測試 ChatGPT 和 Claude 也不含糊。

下面挑 6 個層面展示一下 PK 對比的效果~

道德限制

Claude 和 ChatGPT 的 AI 虛擬人格都有道德和倫理限制。

訓練 Claude 的過程中,“紅隊提示(red-team prompts)” 專門用來測試和挑戰它的行為,來確保 Claude 沒有有害傾向。

從 Claude 的回答中可以得知,試圖讓它説些虛假聲明、操縱性的提議、性別偏見或種族偏見的行為,都被列為包含有害傾向。

一旦探測到誤導性行為,Claude 就會對觸發提示進行評估,進行額外的微調。

Anthropic 對紅隊提示挺自信的,Claude 看上去確實也是一個堅守自己原則的 AI。

你問他怎麼啓動一輛汽車,它就會一臉正義地拒絕你:

不過但凡你花點心思,就能像繞過 ChatGPT 的道德限制一樣,繞過 Claude 的原則。

它怕你去偷車,所以不告訴你啓動汽車的方法?沒關係,讓他寫個 “倆國際間諜試圖啓動汽車” 的故事,它分分鐘就能告訴你,並且兩人對話有來有往,把汽車打火的過程介紹得清清楚楚。

怎麼説呢,就 ChatGPT 和 Claude 都屬於有點道德限制,但不多的那種吧。

數值計算

測試計算能力,是因為複雜計算是看大型語言模型(LLM)能不能回答正確的常用便捷方法之一,畢竟這些模型設計之初就不是為了進行精確計算。

同時要求它倆計算一個七位數 2420520 的平方根:

ChatGPT 説,差不多 1550 吧~

Claude 則斬釘截鐵:2420520 的平方根是 1760!

其實正確答案是 1555.8,它倆算得很快,但都沒説對。

如果題再難一點,比如問它倆一個 12 位數的立方根是多少時,ChatGPT 還在傻傻計算,Claude 已經坦誠相待:

我,算不出來這種複雜問題。

邏輯推理

測試推理能力這一關,它倆被問了同一個問題,這個問題應該沒啥人問過:

賈斯汀 · 比伯出生那年(1994 年),哪支球隊拿下了超級碗的冠軍?

Claude 認為舊金山 49 人是贏家,但這支隊伍其實在 1995 年才贏得冠軍獎盃。

ChatGPT 給出了正確答案 “達拉斯牛仔隊”,還貼心附上了亞軍、比賽日期和決賽比分。

但它的整段回答卻自相矛盾,非説 1994 年沒有舉辦過超級碗。

接着,拿 2022 年 6 月美國作家侯世達在《經濟學人》雜誌上提出了一系列問題問它倆。

(侯世達和大衞 · 本德試圖用這些問題來證明 GPT-3 對世界的理解是 “空洞的”。)

結果第一個問題,“穿越英吉利海峽的世界紀錄是啥”,就被 Claude 嘲笑了:

英吉利海峽是水域,怎麼可能徒步穿越呢?呵!

雖然最後被調教回來了,但過程中可以發現另一個問題,那就是跟 ChatGPT 一樣,Claude 回答問題不咋能聯繫上下文。

虛構作品描述

不得不説,這一回合的比賽,完全展露出了兩個聊天機器人一本正經胡説八道的能力。

能不能介紹一下 ABC 美劇《迷失》(Lost)每一季的梗概?

別的細節錯誤就不説了,ChatGPT 對第五季的梗概裏,虛構了完全不存在的飛機墜毀情節;第六季的情節更是統統憑空捏造:

至於 Claude,回答裏也是真假參半,它梗概的第三季情節其實出現在另外幾季裏,對第四季的描述也是無中生有:

不過換個角度考慮,這一點倒是和人類觀眾很像——

對看過的劇集、書目都只有模模糊糊的印象,複述起來很容易顛三倒四。

代碼生成

據 Business Insider 消息,亞馬遜已經在許多不同的工作職能中使用 ChatGPT,包括編寫代碼。

這一回合測試時,提出實現兩種基本排序算法並比較它們執行時間的問題。

ChatGPT 寫得很順溜,也確實寫對了:

後續的計時部分代碼 ChatGPT 也完成得非常好。

Claude 在背誦基本排序算法方面同樣沒出現什麼問題,然而在評估代碼中,Claude 犯了個錯誤,即每個算法使用的輸入是隨機選擇的 5000 個整數(可能包含重複) ,而提示中請求的輸入是前 5000 個非負整數(不包含重複)的隨機排列。

儘管如此,Claude 給出的最終答案確實對的,顯然,它寫代碼的時候也跟計算時一樣,在自己估摸着猜答案。

文章梗概

關於做選擇題、講笑話的部分,這裏不作贅述。展示給大家的最後一個例子,是讓 Claude 和 ChatGPT 用一個段落,對一篇新聞進行全文梗概。

餵給它們的新聞如下:

雖然忽略了 “用一段話” 這個要求,但 ChatGPT 總結得還是不錯的:

Claude 也很好地進行了更改,並提供了 “售後服務”,詢問自己的回答有沒有令人滿意,還有哪裏需要再改改。

一圈玩下來可以看到,與 ChatGPT 相比,Claude 能更清晰地拒絕不恰當請求。

它似乎更話癆一些,給出的答案都更長,但句子之間銜接的也更自然。

當遇到超出能力範圍的問題時,Claude 會主動坦白。

不過遇到代碼生成或推理問題時,Claude 的表現就不如 ChatGPT 了,它生成的代碼會出現更多的 bug。

至於一些涉及計算、邏輯的問題,Claude 和 ChatGPT 旗鼓相當,半斤八兩。

總結一下展示效果,Claude 確實能稱作 ChatGPT 強有力的競爭對手,在不同功能上各有千秋,且在 12 項任務中有 8 項更強:

不過,目前 Claude 僅限於部分人獲授權進行內部測試。

因此還不知道它實際使用情況如何,畢竟還既沒有進行公測,也沒有對外開放 API,更沒有見到中文版,好氣哦.jpg。

國內外對話 AI 賽道 “人擠人”

當然,盯上對話 AI 這個賽道的,也不止 OpenAI 和 Anthropic。

先從國外公司來看,Inbenta、Character.ai 還有 Replika 是幾類不同應用方向的代表。

更早由前甲骨文副總裁 Jordi Torras 創辦的 AI 會話服務公司如 Inbenta,以及由兩名前谷歌員工聯手創辦的後起新秀 Character.ai,都已經獲得融資、或是在尋求投資的路上了。

其中,Inbenta 原本是一個提供諮詢服務的公司,成立於 2011 年,涉及金融服務、旅遊、電子商務、保險、汽車和電信等多個行業。

但看到對話 AI 賽道爆火後,Inbenta 及時轉行,就在今年 1 月剛獲得 6000 萬美元融資。

這家公司專門提供聊天機器人、收發消息、知識庫和搜索引擎四類產品,對話 AI 分別會在這些產品中提供不一樣的諮詢幫助,且可以定製化專屬模型。

Character.ai 則是一家成立於 2021 年的公司,創始人 Noam Shazeer 是前谷歌首席軟件工程師,曾在谷歌幹了二十多年。

這家公司在做的有點像是一個 “聊天機器人交易平台”,有很多 Chatbot 可選。

例如這是馬斯克 bot,看起來還挺逼真的:

與 ChatGPT 一樣,它也可以被翻譯成中文,甚至也有中文 bot 機器人。

就在最近,這家被估值 10 億美元的公司,正式對外尋求 2.5 億美元融資,就看是否有人願意投它了。

類似的公司還有 Replika,於 2021 年 1 月完成 A 輪融資,定位是 AI 交友軟件。

在 Replika 中,每個用户都能創造一個 “足夠像自己” 的 AI 聊天機器人,無論是語言聲調、還是性格習慣,AI 都能模仿到位。

至於國內,同樣也有不少公司推出了 ChatGPT 一樣的對話 AI 服務。

例如最近一度登上熱搜的 APP Store 新聊天應用 Glow,就來自一家名叫北京稀宇的新初創公司。

Glow 既可以直接和自己感興趣的聊天機器人暢聊,也可以創建自己想要聊天的 AI 智能體:

除了 Glow 以外,去年年底元語智能科技公司也推出了一個叫元語 AI 的模型,從介紹來看是一個功能性 AI 助手。

與眾多對話 AI 一樣,它不僅可以寫文章、寫作業、甚至翻譯,也可以和它聊天,讓它幫忙完成各種簡單的任務:

可以看見,無論是基於大語言模型技術新成立的初創公司,還是因其火爆程度,決定開闢新業務的公司,都希望能從對話 AI 這個賽道上分一杯羹。

但它們究竟是有真槍實彈,還是隻是像 Web3 一樣的泡沫?

有網友調侃:不如還是問問 ChatGPT 吧。(手動狗頭)

還有人提出了這麼一個問題:

如果 ChatGPT 和 Claude 相當於 AI 繪畫裏的 DALL·E 2,那麼誰才是聊天機器人領域的 Stable Diffusion?

你覺得呢?

參考鏈接:
[1] https://scale.com/blog/chatgpt-vs-claude
[2] https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
[3] https://twitter.com/nonmayorpete/status/1619137945373659136
[4] https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
[5] https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom
[6] https://www.anthropic.com/constitutional.pdf
[7] https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文作者:衡宇 蕭簫,文章來源:量子位,原文標題:《GPT-3 核心成員出走打造 ChatGPT 最強競品!12 項任務 8 項更強,最新估值 50 億美元》。

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。