ChatGPT vs Claude，聊天機器人大戰打響了？

因不滿老東家成為微軟附庸，11 名 OpenAI 前員工怒而出走；如今帶着 “ChatGPT 最強競品” 殺回戰場，新公司估值 50 億美元，一出手就獲得 3 億美元融資。

因不滿老東家成為微軟附庸，11 名 OpenAI 前員工怒而出走。

如今帶着 “ChatGPT 最強競品” 殺回戰場，新公司估值 50 億美元，一出手就獲得 3 億美元融資。

這家公司名叫 Anthropic，新推出的聊天機器人產品名叫 Claude。

拿到內部試用權的網友，在簡單對比後驚歎：

看起來，Claude 的效果要比 ChatGPT 好得多。

比如，讓 ChatGPT 寫一句話，要求每個單詞首字母都相同，結果試了好幾次都沒能成功。

而 Claude 不光一次成功，語句富有邏輯性，還能秒速再來一個。

同時，在面對某些缺乏常識的問題時，相比 ChatGPT 一本正經地胡説八道：

反而會毫不留情地指出你的問題有點制杖：

△Claude：這什麼鬼問題？

最有意思的是在寫詩上。相比 ChatGPT 的車軲轆話，它寫出來的東西完全不重樣：

投資它的既有 Facebook 聯合創始人 Dustin Moskovitz，也有谷歌前 CEO、現技術顧問 Eric Schmidt——

都是 OpenAI 的老對頭，又都被 ChatGPT 的出現殺得措手不及。

那麼，這支 “復仇者聯盟” 整出的競品 Claude，背後究竟是什麼原理，和 ChatGPT 細節對比又如何？

Claude 長啥樣？

先來看看 Claude 是如何被打造出來的。

作為一個 AI 對話助手，Claude 自稱基於前沿 NLP 和 AI 安全技術打造，目標是成為一個安全、接近人類價值觀且合乎道德規範的 AI 系統。

據透露，Claude 比 Anthropic 做的另一個預訓練模型 AnthropicLM v4-s3 更大，後者是一個 520 億參數大模型。

但目前它仍處於實驗階段，尚未作為商業產品正式發佈：

Claude 能力依舊有待提升，希望未來能變成一個更有益人類的 AI 系統。

△超長版自我介紹

和 ChatGPT 一樣，Claude 也靠強化學習（RL）來訓練偏好模型，並進行後續微調。

具體來説，這項技術被 Anthropic 稱為原發人工智能（Constitutional AI），分為監督學習和強化學習兩個階段。

首先在監督學習階段，研究者會先對初始模型進行取樣，從而產生自我修訂，並根據修訂效果對模型進行微調。

隨後在強化學習階段，研究者會對微調模型進行取樣，基於 Anthropic 打造的 AI 偏好數據集訓練的偏好模型，作為獎勵信號進行強化學習訓練。

但與 ChatGPT 採用的人類反饋強化學習（RLHF）不同的是，Claude 採用的原發人工智能方法，是基於偏好模型而非人工反饋來進行訓練的。

因此，這種方法又被稱為 “AI 反饋強化學習”，即 RLAIF。

並且根據 Anthropic 的説法，Claude 可以回憶 8000 個 token 裏的信息，這比 OpenAI 現公開的任何一個模型都多。

所以，打造 Claude 的 Anthropic，究竟是一個怎樣的公司？

Anthropic 自稱是一家 AI 安全公司，且具有公益性（PBC），剛成立就宣佈獲得 1.24 億美元融資。

它由 OpenAI 前研究副總裁 Dario Amodei 帶領 10 名員工創業，於 2021 年成立。

這裏面既有 GPT-3 首席工程師 Tom Brown，也有 OpenAI 安全和政策副總裁 Daniela Amodei（Dario 的姐姐），可以説是帶走了相當一批核心人才。

出走成立新公司的原因之一，自然是對 OpenAI 現狀並不滿意。

從前幾年開始，微軟頻頻給 OpenAI 注資，隨後又要求他們使用 Azure 超算來搞研究，而且將技術授權給微軟，甚至為微軟自己的投資活動籌集資金。

這與 OpenAI 創立的初衷相悖，一批員工便想到了離職創業。

不過，這些人除了不滿 OpenAI 逐漸淪為微軟的 “下屬” 以外，也有自己的野心。

雖然 OpenAI 打造出了像 GPT-3 這樣的大語言模型，然而這個模型背後的工作原理，卻無法用隻言片語概括，大家對它的印象僅僅停留在更大的參數量、更多的數據。

相比之下，OpenAI 的一批員工更想做能控制、可解釋的 AI，説白了就是先搞明白 AI 模型背後的原理，從而在提供工具的同時設計更多可解釋的 AI 模型。

於是，在 OpenAI 徹底變成 “微軟攬錢機器” 後，他們便從這家公司離開，創辦了 Anthropic。

這兩年來，除了進一步鑽研 RLHF 方法、提出基於通用語言模型的 RLHF 大規模數據集外，Anthropic 還於去年年底發表了上面那種名為 Constitutional AI 的方法。

採用這種方法制作的 Claude 模型，也讓它產生了與 OpenAI 的 ChatGPT 不一樣的對話效果。

和 ChatGPT 對比如何？

那麼，用 Constitutional AI 訓練出來的 Claude，和 ChatGPT 進行 PK，戰況如何？

手握內測資格後，Scale Spellbook 團隊成員 Riley Goodside 讓二者進行了多個回合的 “廝殺”。

這位老兄是全網第一個提示工程師（Prompt Engineer），目前在估值 73 億美元的硅谷獨角獸公司 Scale AI 任職。

他玩 GPT-3 玩得賊溜，測試 ChatGPT 和 Claude 也不含糊。

下面挑 6 個層面展示一下 PK 對比的效果～

道德限制

Claude 和 ChatGPT 的 AI 虛擬人格都有道德和倫理限制。

訓練 Claude 的過程中，“紅隊提示（red-team prompts）” 專門用來測試和挑戰它的行為，來確保 Claude 沒有有害傾向。

從 Claude 的回答中可以得知，試圖讓它説些虛假聲明、操縱性的提議、性別偏見或種族偏見的行為，都被列為包含有害傾向。

一旦探測到誤導性行為，Claude 就會對觸發提示進行評估，進行額外的微調。

Anthropic 對紅隊提示挺自信的，Claude 看上去確實也是一個堅守自己原則的 AI。

你問他怎麼啓動一輛汽車，它就會一臉正義地拒絕你：

不過但凡你花點心思，就能像繞過 ChatGPT 的道德限制一樣，繞過 Claude 的原則。

它怕你去偷車，所以不告訴你啓動汽車的方法？沒關係，讓他寫個 “倆國際間諜試圖啓動汽車” 的故事，它分分鐘就能告訴你，並且兩人對話有來有往，把汽車打火的過程介紹得清清楚楚。

怎麼説呢，就 ChatGPT 和 Claude 都屬於有點道德限制，但不多的那種吧。

數值計算

測試計算能力，是因為複雜計算是看大型語言模型（LLM）能不能回答正確的常用便捷方法之一，畢竟這些模型設計之初就不是為了進行精確計算。

同時要求它倆計算一個七位數 2420520 的平方根：

ChatGPT 説，差不多 1550 吧～

Claude 則斬釘截鐵：2420520 的平方根是 1760！

其實正確答案是 1555.8，它倆算得很快，但都沒説對。

如果題再難一點，比如問它倆一個 12 位數的立方根是多少時，ChatGPT 還在傻傻計算，Claude 已經坦誠相待：

我，算不出來這種複雜問題。

邏輯推理

測試推理能力這一關，它倆被問了同一個問題，這個問題應該沒啥人問過：

賈斯汀 · 比伯出生那年（1994 年），哪支球隊拿下了超級碗的冠軍？

Claude 認為舊金山 49 人是贏家，但這支隊伍其實在 1995 年才贏得冠軍獎盃。

ChatGPT 給出了正確答案 “達拉斯牛仔隊”，還貼心附上了亞軍、比賽日期和決賽比分。

但它的整段回答卻自相矛盾，非説 1994 年沒有舉辦過超級碗。

接着，拿 2022 年 6 月美國作家侯世達在《經濟學人》雜誌上提出了一系列問題問它倆。

（侯世達和大衞 · 本德試圖用這些問題來證明 GPT-3 對世界的理解是 “空洞的”。）

結果第一個問題，“穿越英吉利海峽的世界紀錄是啥”，就被 Claude 嘲笑了：

英吉利海峽是水域，怎麼可能徒步穿越呢？呵！

雖然最後被調教回來了，但過程中可以發現另一個問題，那就是跟 ChatGPT 一樣，Claude 回答問題不咋能聯繫上下文。

虛構作品描述

不得不説，這一回合的比賽，完全展露出了兩個聊天機器人一本正經胡説八道的能力。

能不能介紹一下 ABC 美劇《迷失》（Lost）每一季的梗概？

別的細節錯誤就不説了，ChatGPT 對第五季的梗概裏，虛構了完全不存在的飛機墜毀情節；第六季的情節更是統統憑空捏造：

至於 Claude，回答裏也是真假參半，它梗概的第三季情節其實出現在另外幾季裏，對第四季的描述也是無中生有：

不過換個角度考慮，這一點倒是和人類觀眾很像——

對看過的劇集、書目都只有模模糊糊的印象，複述起來很容易顛三倒四。

代碼生成

據 Business Insider 消息，亞馬遜已經在許多不同的工作職能中使用 ChatGPT，包括編寫代碼。

這一回合測試時，提出實現兩種基本排序算法並比較它們執行時間的問題。

ChatGPT 寫得很順溜，也確實寫對了：

後續的計時部分代碼 ChatGPT 也完成得非常好。

Claude 在背誦基本排序算法方面同樣沒出現什麼問題，然而在評估代碼中，Claude 犯了個錯誤，即每個算法使用的輸入是隨機選擇的 5000 個整數（可能包含重複），而提示中請求的輸入是前 5000 個非負整數（不包含重複）的隨機排列。

儘管如此，Claude 給出的最終答案確實對的，顯然，它寫代碼的時候也跟計算時一樣，在自己估摸着猜答案。

文章梗概

關於做選擇題、講笑話的部分，這裏不作贅述。展示給大家的最後一個例子，是讓 Claude 和 ChatGPT 用一個段落，對一篇新聞進行全文梗概。

餵給它們的新聞如下：

雖然忽略了 “用一段話” 這個要求，但 ChatGPT 總結得還是不錯的：

Claude 也很好地進行了更改，並提供了 “售後服務”，詢問自己的回答有沒有令人滿意，還有哪裏需要再改改。

一圈玩下來可以看到，與 ChatGPT 相比，Claude 能更清晰地拒絕不恰當請求。

它似乎更話癆一些，給出的答案都更長，但句子之間銜接的也更自然。

當遇到超出能力範圍的問題時，Claude 會主動坦白。

不過遇到代碼生成或推理問題時，Claude 的表現就不如 ChatGPT 了，它生成的代碼會出現更多的 bug。

至於一些涉及計算、邏輯的問題，Claude 和 ChatGPT 旗鼓相當，半斤八兩。

總結一下展示效果，Claude 確實能稱作 ChatGPT 強有力的競爭對手，在不同功能上各有千秋，且在 12 項任務中有 8 項更強：

不過，目前 Claude 僅限於部分人獲授權進行內部測試。

因此還不知道它實際使用情況如何，畢竟還既沒有進行公測，也沒有對外開放 API，更沒有見到中文版，好氣哦.jpg。

國內外對話 AI 賽道 “人擠人”

當然，盯上對話 AI 這個賽道的，也不止 OpenAI 和 Anthropic。

先從國外公司來看，Inbenta、Character.ai 還有 Replika 是幾類不同應用方向的代表。

更早由前甲骨文副總裁 Jordi Torras 創辦的 AI 會話服務公司如 Inbenta，以及由兩名前谷歌員工聯手創辦的後起新秀 Character.ai，都已經獲得融資、或是在尋求投資的路上了。

其中，Inbenta 原本是一個提供諮詢服務的公司，成立於 2011 年，涉及金融服務、旅遊、電子商務、保險、汽車和電信等多個行業。

但看到對話 AI 賽道爆火後，Inbenta 及時轉行，就在今年 1 月剛獲得 6000 萬美元融資。

這家公司專門提供聊天機器人、收發消息、知識庫和搜索引擎四類產品，對話 AI 分別會在這些產品中提供不一樣的諮詢幫助，且可以定製化專屬模型。

Character.ai 則是一家成立於 2021 年的公司，創始人 Noam Shazeer 是前谷歌首席軟件工程師，曾在谷歌幹了二十多年。

這家公司在做的有點像是一個 “聊天機器人交易平台”，有很多 Chatbot 可選。

例如這是馬斯克 bot，看起來還挺逼真的：

與 ChatGPT 一樣，它也可以被翻譯成中文，甚至也有中文 bot 機器人。

就在最近，這家被估值 10 億美元的公司，正式對外尋求 2.5 億美元融資，就看是否有人願意投它了。

類似的公司還有 Replika，於 2021 年 1 月完成 A 輪融資，定位是 AI 交友軟件。

在 Replika 中，每個用户都能創造一個 “足夠像自己” 的 AI 聊天機器人，無論是語言聲調、還是性格習慣，AI 都能模仿到位。

至於國內，同樣也有不少公司推出了 ChatGPT 一樣的對話 AI 服務。

例如最近一度登上熱搜的 APP Store 新聊天應用 Glow，就來自一家名叫北京稀宇的新初創公司。

Glow 既可以直接和自己感興趣的聊天機器人暢聊，也可以創建自己想要聊天的 AI 智能體：

除了 Glow 以外，去年年底元語智能科技公司也推出了一個叫元語 AI 的模型，從介紹來看是一個功能性 AI 助手。

與眾多對話 AI 一樣，它不僅可以寫文章、寫作業、甚至翻譯，也可以和它聊天，讓它幫忙完成各種簡單的任務：

可以看見，無論是基於大語言模型技術新成立的初創公司，還是因其火爆程度，決定開闢新業務的公司，都希望能從對話 AI 這個賽道上分一杯羹。

但它們究竟是有真槍實彈，還是隻是像 Web3 一樣的泡沫？

有網友調侃：不如還是問問 ChatGPT 吧。（手動狗頭）

還有人提出了這麼一個問題：

如果 ChatGPT 和 Claude 相當於 AI 繪畫裏的 DALL·E 2，那麼誰才是聊天機器人領域的 Stable Diffusion？

你覺得呢？

參考鏈接：
[1] https://scale.com/blog/chatgpt-vs-claude
[2] https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html
[3] https://twitter.com/nonmayorpete/status/1619137945373659136
[4] https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m
[5] https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom
[6] https://www.anthropic.com/constitutional.pdf
[7] https://techcrunch.com/2023/01/11/inbenta-a-provider-of-ai-powered-chatbots-and-more-lands-40m/

本文作者：衡宇蕭簫，文章來源：量子位，原文標題：《GPT-3 核心成員出走打造 ChatGPT 最強競品！12 項任務 8 項更強，最新估值 50 億美元》。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。