ChatGPT 真實參數只有 200 億,首次被微軟曝光!網友:難怪 OpenAI 對開源很緊張

華爾街見聞
2023.11.01 06:15
portai
I'm PortAI, I can summarize articles.

微軟論文裏一張「乍一看不足為奇」的統計圖,泄露了 “天機”。引領全球風暴的 ChatGPT,背後大模型參數竟只有 200 億???

突然間,整個大模型圈都在談論同一件事。

微軟論文裏一張「乍一看不足為奇」的統計圖,泄露了 “天機”。

引領全球風暴的 ChatGPT,背後大模型參數竟只有 200 億???

論文一經發布,就吸引了國內外眾多關注。

不少網友還不相信:確定不是拼寫錯了?

有網友表示:難怪 OpenAI 對開源這麼緊張。又或者,這也許是為 OpenAI 開源做準備。

無獨有偶,就在前幾天有網友在 GitHub Copilot 的 API 中發現了疑似 GPT-4 新型號:copilot-gpt-4-2,所擁有的知識更新到了 2023 年 3 月。

這篇論文説了啥?

除了泄露機密,這篇論文本身也值得一看:業內首個用擴散模型做代碼生成。

研究團隊設想了這樣一個場景:

如果開發人員只能修改最後一行代碼,那麼需要多少次從頭開始編寫一個函數才能完成呢?

用自然語言生成代碼的自迴歸模型也有類似的侷限性:不太容易重新考慮之前生成的 tokens。

微軟研究員提出了採用編碼 - 解碼架構的 CODEFUSION,主要包括編碼器、解碼器、去噪器以及 Classification Head,將自然語言輸入編碼為連續表示,然後將其附加條件輸入 Diffusion 模型中用高斯噪聲進行迭代去噪。

為了生成語法正確的代碼,去噪後輸入解碼器中獲得代碼 tokens,通過針對代碼的連續段落去噪 (CPD) 任務預訓練 CODEFUSION。

在 Python、Bash 和 Excel 條件格式化(CF)規則三個語言任務上評估了 CODEFUSION。

結果顯示其 7500 萬參數規模 CODEFUSION 性能,同 200 億參數的 GPT-3.5-turbo 接近,而且還生成更加多樣化的代碼。

與純文本生成的 diffusion 模型相比,CODEFUSION 生成更多語法正確的代碼;與自動迴歸模型相比,生成更加多樣化的候選代碼。

與最先進的自迴歸系統(350M-175B 參數)相比,在前 1 名的準確率方面表現相當,而在前 3 名和前 5 名的準確率方面,由於其在多樣性與質量之間取得了更好的平衡,其表現優於自迴歸系統。

結果這原本只是一次再正常不過的性能比較,沒想到引起軒然大波。

也有人開始了陰謀論,或許這是 OpenAI 開源的 “前菜”,故意而為之——

因為不少大模型已經追趕上來了,而且早在今年 5 月,路透社就曾爆料 OpenAI 準備開源新大語言模型。

One More Thing

值得一提的是,早在今年 2 月份福布斯一則新聞報道里,就曾透露過 ChatGPT 只有 200 億參數。

當時標題是「越大越好嗎?為什麼 ChatGPT VS GPT-3 VS GPT-4 的 “戰鬥 “只是一次家庭聊天?」

只是當時沒有太多人在意。

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。