為何最近突然火了？沒有顛覆性創新？關於 ChatGPT/AIGC 的核心問答

申萬宏源指出，ChatGPT 優化負面結果，同時連貫對話也更加流暢，達到了可以商用的效果。但傳統 NLP 最大缺陷，即自然語言理解、缺乏邏輯等問題，在 GPT 中仍未被解決。

近期，ChatGPT 火爆全球，僅用了兩個月就達到 1 億活躍用户，成為史上用户增長最快的消費應用。

不僅如此，ChatGPT 在資本市場掀投資狂潮，多隻概念股持續走高，還吸引眾多科技巨頭爭相入局。

同時，也有不少有關 ChatGPT 的問題，如為何最近突然火了？到底沒有顛覆性創新？申萬宏源證券洪依真團隊在最新的報告中對這些關鍵問題一一作出解答。

Q1：為何 GPT-3 在 2020 年就推出了，而資本市場近期才開始對大模型高關注？

申萬宏源指出，2020 年的 GPT-3 仍有較多缺陷，其中無法商用的最大問題是輸出結果有毒或不真實，OpenAI2022 年 1 月正式公開了改良版 InstructGPT。比 GPT-3 小了 100 多倍，僅有 13 億個參數。

OpenAI 使用了一種通過人類反饋來強化學習 (RLHF) 的現有技術，根據用户和 API 的交互結果，對模型的多個輸出進行了排名，然後再利用這些數據微調 GPT-3，大幅減少了有毒結果的輸出。因此，我們現在看到的 ChatGPT 可以優化負面結果，同時連貫對話也更加流暢，達到了可以商用的效果。

Q2：為何也有人認為 GPT 等大模型並未對 NLP 做出顛覆式創新？

傳統 NLP 最大缺陷，即自然語言理解、缺乏邏輯等問題，在 GPT 中仍未被解決。

GPT 等模型依賴於大規模離線收集的語料進行訓練，但是對於在線提供的即時信息，往往並不能進行充分理解並且納入自己的回覆中。更進一步的，對於對話中提供的因果關係，ChatGPT 也往往缺乏很好的理解能力。

此外，GPT 會給出部分問題貌似合理但不正確或荒謬的答案，或者過度使用一些詞句和特定表達，同時缺乏類似人類的舉一反三的能力等。

Q3：國內 transformer 大模型做的怎樣？

申萬宏源指出，首先需要承認這一類大模型底層創新在美國開始，2017 年 Google《AttentionIsAllYouNeed》首次提出了 NLP 模型 Transformer，OpenAI 的 GPT-3 等。中國在 2021 年後加速追趕，尤其是在 CV 大模型和多模態融合。

據國內 OpenBMB 開源社區統計，目前，在全球超千億參數的大模型中，中國企業或機構貢獻了 1/3，美國貢獻了 1/2，世界其他國家或組織貢獻了剩下的 1/6。

其次，國內大部分視覺類 AI 公司都以小模型路線為主，投入大模型研發較多的包括百度、華為等，優勢可能會在多模態融合。

申萬宏源在這裏列劇了百度文心和華為盤古大模型：

百度文心大模型：NLP+CV，基本實現跨模態和多下游應用。應用場景涵蓋：NLP 大模型、CV 大模型、跨模態大模型、生物計算大模型、行業大模型。API 包括了：1）ERNIE3.0 文本理解與創作：預置作文生成、文案創作、情感分析等任務提示，2）ERNIE-ViLGAI 作畫大模型，3）PLATO 大模型開放域對話服務。

華為盤古大模型：最大中文語言預訓練模型。2021 年 4 月華為發佈千億參數 40TB 訓練數據的全球最大中文語言（NLP）預訓練模型，30 億參數的全球最大視覺（CV）預訓練模型。將 P-tuning、priming 等最新技術融入到盤古的微調框架中，提升微調效果；在樣本極少的情況下，盤古的少樣本學習能力遠超 GPT 系列和 BERT 系列；要得到相同的 F1 結果，盤古所需的數據量僅為中文 GPT-3 的 1/9，實現了近 10 倍的生產效率提升。

Q4：大規模預訓練模型（大模型）與小模型的核心區別？大模型有什麼優勢？

最核心區別在於參數量，例如 GPT-3 參數量達到了 1,750 億個，是傳統深度學習小模型參數量的至少一萬倍以上。申萬宏源表示，通過模型的擴大，可以帶來提升包括：

1）GPT-2 等大模型捨棄了小模型中常見的調參 Fine-Tuning 過程，轉向容量更大、無監督訓練。

2）在自然語言理解 NLP 中，常見任務包括翻譯、問答、文本填空等，常見小模型需要對不同的任務使用不同模型分別訓練解決，而 GPT-3 等大規模預訓練模型不再規定任務，而是對以上不同任務都有較好效果。

3）傳統的模型訓練方式是反向傳播算法，先對網絡中的參數進行隨機初始化，再利用隨機梯度下降等優化算法不斷優化模型參數，這種方式下對數據需求量較大。GPT-3 先使用海量數據預訓練大模型，得到一套模型參數，然後用這套參數對模型進行初始化，再進行訓練。大幅降低後續對數據量的需求。

Q5：GPT-3 等大模型和 Transformer 的關聯？

Transformer 是目前 NLP 領域效果較好的深度學習模型，因此 GPT/Bert 等都使用了 Transformer。

Transformer 引入了 Self-Attention 自注意力機制：讓機器注意到整個輸入中不同部分之間的相關性。Transformer 最大的特點是，可以讓每個單元都可以捕捉到整句的信息，這也是 RNN/LSTM 等更早期 NLP 模型無法做到的一點。

Q6：大規模預訓練思路對 AI 應用落地有什麼幫助？

小模型時代，商用模型開發會綜合考慮調參等研發投入量和帶來的商業價值，模型開發出來後能否複用以攤薄研發成本，同時對於部分訓練樣本量較少的場景，沒有很好解決方法。

大模型可以在長尾場景應用落地，降低訓練成本、減少數據要求。基於大規模預訓練思路，一方面大模型可以應對多個泛化任務，大模型 + 細分場景微調，更適合長尾落地；另一方面，對於小樣本訓練，大模型也有較好提升。

Q7：那 Transformer 對於 CV 機器視覺可以有類似 NLP 的提升嗎？

Transformers 用在 CV 上的難點，Transformers 自注意力操作中，每個元素需要和每個元素互相進行兩兩互動，最後算得一個 Attention 自注意力圖，通過加權平均，最後得到輸出。由於單元間兩兩互動，因此複雜度是序列長度的平方，也就是 n^2，在自然語言處理中，一個句子的長度一般就是幾百或上千，例如 BERT 為 512 序列長度。

而對於一個比較常見的 224x224 大小的圖片，如果直接以每一個像素點為單位進行兩兩互動的話，那序列長度為 50176，大概為 BERT 序列長度的 100 倍，因此複雜度極高。

但在 2021 年後，隨着 swintransformer、mae 等論文推出，transformer 在 CV 和跨模態等應用增加。因此，國內擅長 CV 的 AI 公司，在 2022 年前對於基於 transformer 的大模型關注投入較少，但是申萬宏源認為隨着 VIT 等效果提升，應用類的 CV 公司也會開始關注並投入大模型。

Q8：怎樣的公司有機會參與大模型底層技術研發？

申萬宏源認為大模型對存儲、算力要求極高，普通機構或難以復現。GPT-3 發佈一年後，只有 NVIDIA、微軟等大企業可以復現。

據 NVIDIA 估算，如果要訓練 GPT-3，即使單個機器的顯存/內存能裝得下，用 8 張 V100 的顯卡，訓練時長預計要 36 年；如果擁有 1024 張 80GBA100，那麼完整訓練 GPT-3 的時長可以縮減到 1 個月。

以微軟與 OpenAI 合作建造的 AzureA 工智能算力平台為例，該算力平台投資約 10 億美元，使用該超算中心訓練一次超大模型 GPT-3 大約花費 1200 萬美元。同時需要解決分佈式訓練問題：上百台服務器之間的通信、拓撲、模型並行、流水並行等問題，模型訓練是顯存峯值問題。

本文主要摘取自申萬宏源報告《ChatGPT/AIGC 九問九答》