當大模型不再稀缺：得數據者得天下

民生證券認為，儘管目前表面上大模型百花齊放，但是能夠擁有高質量數據場景助力持續迭代，使得逐步性能逼近 ChatGPT 的大模型預計最終仍是 “鳳毛麟角”。掌握優質數據的公司或將取得競爭優勢。

緊隨 OpenAI、谷歌的步伐，國內大模型軍備競賽正打得火熱。繼百度、三六零之後，本週阿里、華為、京東等大模型陸續浮出水面。

大模型不再稀缺之後，AI 競賽的下一步將走向何處？民生證券分析師呂偉發表研報指出，儘管目前表面上大模型百花齊放，但是能夠擁有高質量數據場景助力持續迭代，使得逐步性能逼近 ChatGPT 的大模型預計最終仍是 “鳳毛麟角”。數據將成為差異化競爭的關鍵，最終是得數據者得天下。

分析師認為，未來的 AI 競爭中，三類企業將掌控主動權：

1.同時擁有搜索引擎、瀏覽器、辦公插件等高質量數據的公司；

2.掌握音箱、攝像頭等物聯網終端數據的公司；

3.垂直行業有絕佳數據卡位優勢的企業。

具體來看：

搜索引擎公司

搜索引擎公司天然具備數十年網絡爬蟲積累的高質量互聯網數據資源，而且憑藉這一數據卡位戰略入口，其數據資源與質量仍將不斷迭代提升：當搜索引擎爬蟲完成對某個網站或者某個主題下所有相關網站的抽取後，需要對其進行處理和分析。這通常包括以下幾個方面：1）數據清洗與去重；2）數據挖掘與分析；3）建立索引以便後續查詢。

繼微軟公司已經在其必應（Bing）搜索引擎中部署 ChatGPT 系統背後的技術後，據《華爾街日報》4 月 6 日報道，谷歌 CEOSundarPichai 透露，谷歌計劃在其搜索引擎中添加 AI 對話功能，目前該公司正在對幾種搜索引擎版本進行測試。他表示，此舉是為了應對 ChatGPT 等聊天機器人帶來的競爭和商業壓力，但聊天機器人不會對谷歌的搜索業務構成威脅，AI 的進步反而能進一步增強谷歌的信息檢索能力。

從 GPT-1 的 1.17 億參數到 GPT-2 的 15 億參數，再到 GPT-3 劃時代的 1750 億參數，OpenAI 依託篩選過的優質數據形成參數量的階梯式上升，最終帶來 GPT-3 乃至 ChatGPT 具備理解上下文、連貫性等諸多先進特徵。

在提出 GPT-3 的論文《LanguageModelsareFew-ShotLearners》中，OpenAI 在收集近一萬億文字（參數）的數據庫後，放棄直接使用海量數據訓練模型，而是轉向通過三種模式篩選優質數據進行訓練，從而從萬億參數歸納出眾人所熟知的 1750 億參數，其核心原因在於 “未經過濾或輕度過濾的爬蟲數據往往比篩選後數據集質量更低”。

物聯網終端

近期天貓精靈。通過音箱端接入阿里大模型，做出了一款阿里版 ChatGPT 個性化語音助手，標誌這一趨勢已經開啓。AIoT 終端的 “賣鏟人” 以及視頻攝像頭數據入口企業都擁有巨大優勢。

垂直行業有絕佳數據卡位優勢的企業

彭博新聞社近期發佈了專門為金融領域打造的大型語言模型 (LLM)—BloombergGPT 就是垂直數據優勢 “挑戰” 巨頭通用大模型的案例。

在過去 40 年裏，彭博收集了海量的金融市場數據，擁有廣泛的金融數據檔案，涵蓋一系列的主題。使用該公司數據終端的客户遍佈全球，包括交易員、投行、美聯儲、美國其他官方機構以及全球各大央行等。這些特有數據，使得 BloombergGPT 比 ChatGPT 擁有更專業的訓練語料。

據彭博社發佈的報告中可以看出，研究人員利用彭博社現有的數據，對資源進行創建、收集和整理，構建了一個 3630 億個標籤的數據集，並基於通用和金融業務的場景進行混合模型訓練，以支持金融行業內各種各樣的自然語言處理 (NLP) 任務。

映射至國內，掌握垂直優質數據的公司，將有機會開發自己的 BloombergGPT。

本文主要觀點來自民生證券呂偉（執業：S0100521110003）發表的研報《當大模型不再稀缺：得數據者得天下》，有刪節