國產 ChatGPT「套殼」的秘密，現在被找到了

通往 AGI 的道路，對數據數量和數據質量都將持續提出極高的要求。

“科大訊飛套殼 ChatGPT！”“百度文心一言套皮 Stable Diffusion！”“商湯大模型實則抄襲！”……

外界對國產大模型產生質疑已經不是一次兩次了。

業內人士對這個現象的解釋是，高質量的中文數據集實在緊缺，訓模型時只能讓採買的外文標註數據集 “當外援”。訓練所用的數據集撞車，就會生成相似結果，進而引發烏龍事件。

其餘辦法中，用現有大模型輔助生成訓練數據容易數據清洗不到位，重複利用 token 會導致過擬合，僅訓練稀疏大模型也不是長久之計。

業內漸漸形成共識：

通往 AGI 的道路，對數據數量和數據質量都將持續提出極高的要求。

時勢所需，近 2 個月來，國內不少團隊先後開源了中文數據集，除通用數據集外，針對編程、醫療等垂域也有專門的開源中文數據集發佈。

高質量數據集雖有但少

大模型的新突破十分依賴高質量、豐富的數據集。

根據 OpenAI《Scaling Laws for Neural Language Models》提出大模型所遵循的伸縮法則（scaling law）可以看到，獨立增加訓練數據量，是可以讓預訓練模型效果變更好的。

這不是 OpenAI 的一家之言。

DeepMind 也在 Chinchilla 模型論文中指出，之前的大模型多是訓練不足的，還提出最優訓練公式，已成為業界公認的標準。

△主流大模型，Chinchilla 參數最少，但訓練最充分

不過，用來訓練的主流數據集以英文為主，如 Common Crawl、BooksCorpus、WiKipedia、ROOT 等，最流行的 Common Crawl 中文數據只佔據 4.8%。

中文數據集是什麼情況？

公開數據集不是沒有——這一點量子位從瀾舟科技創始人兼 CEO、當今 NLP 領域成就最高華人之一週明口中得到證實——如命名實體數據集 MSRA-NER、Weibo-NER 等，以及 GitHub 上可找到的 CMRC2018、CMRC2019、ExpMRC2022 等存在，但整體數量和英文數據集相比可謂九牛一毛。

並且，其中部分已經老舊，可能都不知道最新的 NLP 研究概念（新概念相關研究只以英文形式出現在 arXiv 上）。

中文高質量數據集雖有但少，使用起來比較麻煩，這就是所有做大模型的團隊不得不面對的慘烈現狀。此前的清華大學電子系系友論壇上，清華計算機系教授唐傑分享過，千億模型 ChatGLM-130B 訓練前數據準備時，就曾面臨過清洗中文數據後，可用量不到 2TB 的情況。

解決中文世界缺乏高質量數據集迫在眉睫。

行之有效的解決方法之一，是直接用英文數據集訓大模型。

在人類玩家打分的大模型匿名競技場 Chatbot Arena 榜單中，GPT-3.5 在非英文排行榜位居第二（第一是 GPT-4）。要知道，96% 的 GPT-3.5 訓練數據都是英文，再刨去其他語種，用來訓練的中文數據量少到可以用 “千分之 n” 來計算。

國內 top3 高校某大模型相關團隊在讀博士透露，如果採用這種方法，不嫌麻煩的話，甚至可以給模型接一個翻譯軟件，把所有語言都轉換成英語，然後把模型的輸出轉換為中文，再返回給用户。

然而這樣餵養出的大模型始終是英文思維，當遇到成語改寫、俗語理解、文章改寫這類含有中文語言特色的內容，往往處理不佳，出現翻譯錯誤或潛在文化的偏差。

還有個解決辦法就是採集、清洗和標註中文語料，做新的中文高質量數據集，供給給大模型們。

開源數據集眾人拾柴

察覺現況後，國內不少大模型團隊決定走第二條路，着手利用私有數據庫做數據集。

百度有內容生態數據，騰訊有公眾號數據，知乎有問答數據，阿里有電商和物流數據。

積累的私有數據不一，就可能在特定場景和領域建立核心優勢壁壘，將這些數據嚴格蒐集、整理、篩選、清洗和標註，能保證訓出模型的有效性和準確性。

而那些私有數據優勢不那麼明顯大模型團隊，開始全網爬數據（可以預見，爬蟲數據量會非常大）。

華為為了打造盤古大模型，從互聯網爬取了 80TB 文本，最後清洗為 1TB 的中文數據集；浪潮源 1.0 訓練採用的中文數據集達 5000GB（相比 GPT3 模型訓練數據集為 570GB）；最近發佈的天河天元大模型，也是天津超算中心蒐集整理全域網頁數據，同時納入各種開源訓練數據和專業領域數據集等的成果。

與此同時，近 2 個月來，中文數據集出現眾人拾柴火焰高的現象——

許多團隊陸續發佈開源中文數據集，彌補當前中文開源數據集的不足或失衡。

其中部分整理如下：

CodeGPT：由 GPT 和 GPT 生成的與代碼相關的對話數據集；背後機構為復旦大學。
CBook-150k：中文語料圖書集合，包含 15 萬本中文圖書的下載和抽取方法，涵蓋人文、教育、科技、軍事、政治等眾多領域；背後機構為復旦大學。
RefGPT：為了避免人工標註的昂貴成本，提出一種自動生成事實型對話的方法，並公開我們的部分數據，包含 5 萬條中文多輪對話；背後是來自上海交大、香港理工大學等機構的 NLP 從業者。
COIG：全稱 “中國通用開放指令數據集”，是更大、更多樣化的指令調優語料庫，並由人工驗證確保了它的質量；背後的聯合機構包括北京人工智能研究院、謝菲爾德大學、密歇根大學、達特茅斯學院、浙江大學、北京航空航天大學、卡內基梅隆大學。
Awesome Chinese Legal Resources：中國法律數據資源，由上海交大收集和整理。
Huatuo：通過醫學知識圖譜和 GPT3.5 API 構建的中文醫學指令數據集，在此基礎上對 LLaMA 進行了指令微調，提高了 LLaMA 在醫療領域的問答效果；項目開源方是哈工大。
Baize：使用少量 “種子問題”，讓 ChatGPT 自己跟自己聊天，並自動收集成高質量多輪對話數據集；加州大學聖迭戈分校（UCSD）與中山大學、MSRA 合作團隊把使用此法收集的數據集開源。

當更多的中文數據集被開源到聚光燈下，行業的態度是歡迎與欣喜。如智譜 AI 創始人兼 CEO 張鵬表達出的態度：

中文高質量數據只是被藏在深閨而已，現在大家都意識到這個問題了，自然也會有相應的解決方案，比如數據開源。總之是在向好的方向發展，不是嗎？

值得注意的是，除了預訓練數據，目前階段人類反饋數據同樣不可或缺。

現成的例子擺在眼前：

與 GPT-3 相比，ChatGPT 疊加的重要 buff 就是利用 RLHF（人類反饋強化學習），生成用於 fine-tuing 的高質量標記數據，使得大模型向與人類意圖對齊的方向發展。

提供人類反饋最直接的辦法，就是告訴 AI 助手 “你的回答不對”，或者直接在 AI 助手生成的回覆旁邊點贊或踩一踩。

先用起來就能先收集一波用户反饋，讓雪球滾起來，這就是為什麼大家都搶着發佈大模型的原因之一。

現在，國內的類 ChatGPT 產品，從百度文心一言、復旦 MOSS 到智譜 ChatGLM，都提供了進行反饋的選項。

但由於在大部分體驗用户眼中，這些大模型產品最主要的還是 “玩具” 屬性。

當遇到錯誤或不滿意的回答，會選擇直接關掉對話界面，並不利於背後大模型對人類反饋的蒐集。

So～

今後遇到 AI 生成回答有錯誤或遺漏時，請不要吝惜一次點擊，高舉你手中的 “” 或 “”，讓大模型能收集更多的人類反饋。

本文來源：量子位，作者：衡宇，原標題：《國產 ChatGPT「套殼」的秘密，現在被找到了》

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。