The birth of a non-mainstream large model: questioned, plagiarized, and modified

虎嗅
2024.10.12 08:28
portai
I'm PortAI, I can summarize articles.

RWKV 創始人彭博在 Transformer 架構盛行的背景下,花費三年時間構建了 RWKV 架構,這是一種不同於 Transformer 的 RNN 架構。儘管面臨質疑和融資困難,彭博堅持自己的創新之路,並收到了 OpenAI 的入職邀請,顯示出其顛覆 OpenAI 的潛力。業內對 RWKV 架構的看法不一,認為其與 Transformer 並無本質區別。

在見到 RWKV 創始人彭博之前,我也像一些人那樣,懷疑過他是騙子或者 “民科”。

他的公司元始智能員工在小紅書發表的,諸如 “OpenAI 走到死衚衕” 這樣的 “暴論” 下面,評論區也不時會有對他們質疑和詆譭的聲音,比如讓他們拿出證據,證明他們自研的大模型架構 RWKV6 確實比 OpenAI 強。

但彭博完全不在意這些聲音,或許這就是成為另類的代價。——在諸多大模型公司都選擇與 OpenAI 相同的 Transformer 架構時,彭博用了三年時間走上了另一條,將 Transformer 改寫成 RNN 形式,保留了較低的時間空間複雜度。“給我十萬張卡和 100 個小弟,我把 OpenAI 幹趴下。” 彭博半開玩笑半認真地告訴虎嗅。

雖然他們走的是完全不同於 OpenAI 的路子,但 2023 年春節,彭博收到了 “競對” OpenAI 的入職邀請。元始智能聯創羅璇解釋説這能夠説明他們確實有顛覆 OpenAI 的可能性,而這個 offer 更像是一張用以招安的投名狀,是對彭博一種另類的 “認同”。

但業內也有一些聲音,認為 RWKV 架構與 Transformer 架構並沒有本質上的區別。

另外,他們在融資進程上也難言 “絲滑”,資本對他們的認可度並不高。彭博毫不避諱地告訴我,一些投資人對他們的判斷也是 “野生科學家”。

這導致了算力和人力資源限制,也影響了 RWKV 的硬指標。“現在大家 scale 得比較先進,煉的 token 也多,這方面我們相對還比較落後”,彭博表示,token 多的模型先天有很大優勢,但他也相信 “等到 token 量上去了,他們就不能輕易黑我們了”。

少有人走的路

但相信 RWKV 路線的人,仍然存在。

比如某技術出身的知名投資人,在 2023 年底,這位投資人給予了 RWKV 團隊千萬元級別的種子輪投資。為了獲得 RWKV 團隊的信任,他專程去彭博樓下的咖啡館聊了兩小時,認購了 1% 股權。

讓這樣的知名投資人親自登門拜訪,並非創業者的常態。但彭博幾乎足不出户,他需要足夠的獨處時間來 “煉丹”。

在大多數都做做模型層的工作時,彭博卻選擇了模型底層架構的研究,他認為現在的 AI 公司專注的是機械智力的提升,而他同時也關注創造力和智慧的提升。前者指向大腦,有明確的通路(如通過合成數據);而後者最終指向心和意,路徑卻有待探索——但這將是真正有趣的問題,需要理解和創造靈性。

最初做這件 “希望改變世界時間線” 的事情,初衷是因為彭博想探索 AI 是否能寫出 “真正有力量” 的小説,特別是架空小説。彭博用 “愚公移山” 來形容這項工作,“這其實是體力活,需要實現和測試大量細節。”

2020 年,彭博開始做模型,起初是對 transformer 架構的改進——引入顯式 decay 和短卷積。

在優化 attention 機制時,彭博發現它可以寫成 RNN,引入 RNN 效率更高和形式優雅的優點後,效果仍然得以保持,通過這種方法,RWKV-2 誕生了。

在 2016 年,AI 學術界最流行的架構是 RNN 循環神經網絡的變種——LSTM;但半年後,與其對標的 Transformer 橫空出世,使得曾經大火的 RNN 成為落伍的少數派。因此,RWKV 可以稱得上是 RNN 的復興。

2023 年,彭博很快獲得了開源社區的關注,LSTM 之父 Sepp Hochreiter 也轉發 RWKV 的推文,並介紹這是一種無需使用注意力機制,就能達到 Transformer 性能的 RNN 架構,運行速度很快。

隨着關注度的提升,對 RWKV 的質疑也接踵而至。有某頭部 AI 公司技術負責人向虎嗅直言:“RWKV 架構與 Transformer 架構並沒有本質上的區別。”

在 7 月的一次見面交流時,為了改變我將信將疑的態度,元始智能聯合創始人羅璇特地給我展示了研究 RWKV 架構並發表論文的研究人員,這包括:上海人工智能實驗室、阿里達摩院、騰訊優圖實驗室等等機構的學者,他們在官網 rwkv.cn 上展示了二十多篇在各種模態使用 RWKV 的論文。

學術界一直在探索將物理世界壓縮復刻到一個大模型的世界模型,而彭博堅信,RWKV 架構作為 RNN,是通往世界模型的最合適通路。

彭博的邏輯是:因為 RNN 更接近人腦和宇宙的運作方式,RWKV 是 state 大小恆定的 RNN——正是固定大小的限制,迫使模型學到真正的東西,必須把世界壓縮到它的 state 裏去。就像在玩《星露谷》時,由於揹包格數有限,玩家只能選擇儲存最重要的物品。

彭博從物理學的角度向我解釋了 RWKV 的優勢。在物理上,宇宙的下一狀態只與上一狀態有關,這是所謂的 locality 和 causality,量子場論遵循這一原則。而 Transformer 是一種 state(KV cache)不斷增大的 RNN,它每個字都要和前面的字比對一遍,這相當於 “超距作用”,不符合我們這個宇宙的物理。因此,在彭博看來 RWKV 更加接近這個世界的本質。

彭博甚至更激進地表述:我們目標是做真正的智能,現在可以用混合模型作為過渡方案,以後一定是純 RWKV。

而能做成這件事的信心,除了以上的優勢外,“運氣也很重要”,彭博自認為一向是個運氣挺好的人。

跳出循環

出乎我意料的是,彭博身上並沒有我所假設的——那些恃才傲物的刻板印象,他多次向我強調他其實是個謙虛和謹言慎行的人。例如,當有投資者問到 RWKV 目前的弱點和缺陷,他會直説,並給出解決改進方案。他也告訴我:“現在的算力和人力資源限制,在一定程度上影響了他證明 RWKV 架構的先進性。”

這樣的資源限制,是因為他們得不到太多來自資本的支持。

雖然在 2024 年的奇績創壇路演上,陸奇曾用 “受北美尊重的公司” 來介紹他們,但大部分時間他們並不是風投的寵兒。

幾乎每次見投資人,彭博都需要花費很長時間去解釋 RWKV,羅璇感覺 “他們好像來學習” 一樣,學完之後,可能還會有人説被騙了,“這就是個民科”。很多投資人不敢投,是因為他們也看不懂這些大模型的底層技術,另外在大多數人都選擇 Transformer 路線時,投資人對於 RWKV 這樣非主流的路線更為謹慎。也會有一些來自 Transformer 主流路線的聲音,干擾他們的判斷。

而彭博也不會過度花時間去向投資人解釋,拉齊認知。因此,彭博選擇只在自己家樓下見投資人,這也是一種篩選機制——“如果一個投資人要我過去見面才肯投的話,那説明他不懂我們在做的事情。”

在對沖基金工作過的他,很清楚這樣的投資邏輯: 大家追求風險較低的頭部路線,有大佬或團隊履歷背書更佳,這樣可以有較為穩定的退出策略。

因此他也十分理解這些投資人的選擇,“畢竟有認知有魄力的投資人是少數”。

但大模型研發卻需要巨量的資源,我粗略算了下,現在十萬張 GPU 大概需要兩百億人民幣。算力和人力資源是擺在彭博眼前的首要限制。“如果我們算力上去了,就很容易證明自己了”。雖然 RWKV 在一代代迭代下越來越強,但 “在算力不夠的情況下,有些硬指標確實是不好做的。” 在大家都要看硬指標的情況下,難免會陷入被動的循環。

在我表達這樣的循環有些可惜後,彭博對此卻非常平和自洽:“我覺得沒有可惜的,這就是創新者的考驗。你選擇了更難的道路,就要承擔這樣的事情,如果你應對不了,就不要創新了,我覺得是很合理。”

彭博認為,時間是站在 RWKV 這邊的。目前資源的限制,會影響大模型的訓練,但不會影響 RWKV 的迭代速度,反而可以成為他的動力:“以小搏大,更好玩。既然要做大事——構建人類所有 AI 模型的基礎架構,就不妨證明自己有能力在任何環境把它做出來,這在後世看,只會更有戲劇性。”

非共識的相遇

為了做這樣全新的架構創新,必須有足夠的獨處空間。彭博幾乎沒有參加過任何公開活動,因為他有一個關鍵幫手——元始智能聯合創始人羅璇。

羅璇就像美國大片裏永遠陪伴在男主角左右的靠譜配角一樣,充當彭博代言人的角色,頻繁出沒於各種科技活動現場,積極佈道 RWKV 架構。

羅璇追隨彭博,是因為他認為彭博是天才,“他似乎是生來就要做這件事情的”,而彭博認為他只是 “很擅長看到其它人難以看到的角度”,他會用更高的視角看待 AI 與人類的關係。

見面之後我發現,一頭長髮酷似藝術家的彭博,遠比我想象中要鮮活得多。在工作之餘,他也會玩《崩壞:星穹鐵道》,關注社會和人心,在今年還開始了情感關係諮詢的 “新業務”。

而在聽羅璇講述了彭博的故事後,我逐漸開始理解羅璇:彭博 6 歲從三年級讀起,16 歲參加高考,他的第一志願是南大物理系,但最終高考分數超出廣東省清華分數線 40 分,在南大入學後,彭博很快就以全獎獎學金轉學去了香港大學。

沒有選擇計算機系的原因是:感覺不需要專門學。在大學任教的父母都認為計算機編程是未來的方向,因此從六歲時彭博就開始寫代碼,在高中時就出版過遊戲編程的書籍。

2006 年,彭博在香港大學畢業後去了當時全球最大的外匯對沖基金,做量化模型,並在後來成為其中的幾位基金經理之一,在二十多歲管理六千多萬美金。

2013 年,彭博從香港回到深圳,開始智能硬件創業——稟臨科技。2019 年,他觀察到市場需求,開始做沒那麼智能的全光譜燈,知乎上也有人戲稱彭博為賣燈泡的。

這時還在天貓精靈 AI Lab 的羅璇,發現智能音箱是一個當時仍然不成立的故事,於是開始了物流機器人創業。

隨後疫情來臨,公司銷量受影響,彭博保持公司運作,專心投入 AI 模型底層架構的研發,RWKV 架構的誕生之路也由此開啓。而羅璇所在的行業也受疫情影響,他開始投身組織、參與黑客松活動——用編程解決實際問題的線下活動。

在一次羅璇組織的黑客松上,他跟彭博第一次見面,兩個人的命運也由此交匯。

見面時彭博告訴羅璇,他可能是實現 AGI 的最佳人選——那時他已經獨立做了 RWKV-1 到 RWKV-4,並在海外有了不少擁躉。羅璇之前也見過不少天才,但彭博是天才中比較有意思的那類,雖然羅璇當時覺得彭博的説法有些神經病,但他非常認同彭博所做的事情和底層邏輯,於是決定加入元始智能。

而彭博選擇羅璇的原因也非常簡單:羅璇能夠幫彭博做很多他沒法分心去做的事情,而且做得不錯,兩個人非常互補。

“我們正在走向一個正確的非共識,而且這個非共識絕對是沒有共識。” 羅璇這樣形容他加入元始智能後的感想。

“漫長的路,自己選的,自己走。” 未來彭博會按照計劃,一代代迭代,去解開這個死循環。他説未來的 RWKV8 會是一個非常有意思的東西。

“你認為人與人本質區別是什麼?”

——在交流的最後,善於從本質出發的彭博問我。

“是認知”,他告訴我:“我只能説我後面做的方向是他們做夢也想不到的。”