
Musk xAI's first research findings are released! Co-first authors Yang Ge and Yao Ban, both founding members and alumni.

馬斯克的 xAI,首項公開研究成果來了! 共同一作之一,正是 xAI 創始成員、丘成桐弟子楊格(Greg …
馬斯克的 xAI,首項公開研究成果來了!
共同一作之一,正是 xAI 創始成員、丘成桐弟子楊格(Greg Yang)。
此前,楊格就曾公開表示,自己在 xAI 的研究方向是 “Math for AI” 和 “AI for Math”。
其中一項重點就是延續他此前的研究:
描述神經網絡架構的統一編程語言 Tensor Programs——相關成果,在 GPT-4 中已有應用。
這次的新論文,就歸屬該系列,重點探討了 “如何訓練無限深度網絡”。
為此,楊格本人還專門在????上進行了一場直播分享。
一起來看看有哪些精彩內容值得 mark~
訓練無限深度神經網絡
簡單來説,這篇文章研究的是殘差網絡(ResNet)在深度方向的擴展。
我們知道,殘差網絡解決了深度增加時,深度卷積神經網絡性能退化的問題。但當網絡繼續加深,訓練一個好的深度殘差網絡仍非易事:
當網絡加深時,特徵的規模會不斷增大,導致網絡不穩定;加深網絡後,需要重新調整超參數,工作量不小……
楊格和他的小夥伴們的想法是,找到一種深度參數化方法,既可以學習特徵,又可以實現超參數遷移。
他們首先想到了無限寬神經網絡存在的兩種極限情況:要麼是核機(kernel machines),要麼是特徵學習器 (feature learners)。對於後者而言,最佳超參數是不會隨寬度變化而變化的。

在這裏,他們使用 Tensor Programs 框架分析了無限寬網絡的極限情況。
正如前文提到的,Tensor Programs 是楊格的一項長期研究目標:用數學語言,建立能夠描述和分析神經網絡架構的底層編程語言。

具體而言,Tensor Programs 由矩陣乘法和激活函數組成。楊格發現,如果神經網絡函數能夠使用這種語言表達,就可以自動且完備地進行初始化分析。
數學推導的部分,這裏不做具體展開,我們可以淺淺感受一下畫風……

在這些推導分析的基礎之上,作者提出了Depth-μP方法,可以實現深度方向上的超參數遷移,大大簡化了不同深度下的超參數調節。
Depth-μP 包含以下要點:
每個殘差分支和深度 L 的平方根成反比的係數 a/sqrt(L)。
每個權重矩陣的學習率隨深度 L 變大而減小,具體取決於優化算法的類型。對於 SGD,學習率取常數η,對於 Adam 等自適應優化算法,學習率取η/sqrt(L)。
值得關注的是,作者發現,當殘差塊深度為 1 時,Depth-μP 是深度參數化的最優方式,可以保證超參數隨着深度的增加而收斂,實現深度方向的超參數傳遞。

但當殘差塊深度≥2 時,還是會出現超參數遷移失敗和訓練性能下降的問題。

另外,論文還探討了 “特徵多樣性” 的概念,認為它在深度網絡中發揮着關鍵作用。
論文的另一位共同一作是來自普林斯頓的 Dingli Yu。他本科畢業於清華姚班,目前在普林斯頓計算機科學系攻讀博士。
楊格在直播中都説了啥?
在直播中,楊格還就觀眾感興趣的問題進行了解答。在不改變原意基礎上,量子位對部分問題做了梳理。
Q:對於我們許多人來説,(論文內容)可能超出了我們的理解範圍。但我想知道,你提到的模型與我們能夠體驗到的 ChatGPT 以及 OpenAI 的技術有何不同?這篇論文與 OpenAI 的成果相比有什麼顯著的差異或是創新點?
楊格:我簡單評論一下,我想説這些特性目前與實際應用並沒有直接關係,更像是研究性質的。
當然,做這一切的最終目標是為了讓模型更好、更安全,然後造福人類。我們現在所進行的是描述預期的效果,它不一定會有直接的影響。
現在我們同處一條船上,我們正在做我們所能做的事,無論是短期工作還是長期應用研究,都是為了讓它造福每個人。
Q:聽起來像是你們正在建造一個能夠進行推理的人工計算機大腦,所以這是你們正在研究的嗎?此外,我還是一位母親,我 7 歲的兒子對數學非常感興趣,你有什麼可以讓他繼續對 AI 領域保持興趣和熱情的建議嗎?
楊格:“新型網絡” 指的是人工神經網絡,我認為它是現代眾多技術的支柱,包括您每天使用的 Google、Facebook、Instagram 等,這些服務的底層都使用了這些人工神經網絡。這些網絡大約在六七十年前受到動物、人類的真實神經網絡啓發而誕生,但已與真實的神經科學有所偏離。
這些網絡本質上是數學問題,因此我們掌握這些新的數學問題後進行大量分析,可以深入地理解這些神經網絡。
雖然我們尚不明確真正的神經元的連接方式,但通過數學研究,我們能優化這些人工神經網絡,助力科技公司改善人們的生活。
關於您的第二個問題,聽説您的兒子對數學非常感興趣,這太棒了。這是在技術領域創造偉大成就和改善每個人生活的基礎。
我想給的建議是,首先您要保持您兒子對數學的熱情,這非常重要。一旦失去了這份熱愛,想再繼續學習就會變得很困難。
還要注意觀察他喜歡的東西,讓學習過程變得有趣,進一步激發他的興趣。同時,也要培養他對事物運作原理的好奇心,並嘗試培養一種科學思維,要在好奇心的驅使下研究。就像拆解事物,嘗試理解它們的工作原理。
如果一個人失去了對宇宙數學真理的探索熱情,可能很難再有前進的動力。總的來説,我建議您培養您兒子對這個世界,特別是對數學和科學本質的濃厚興趣和好奇心。
Q:我有一個更為抽象的問題。你有了深度趨近於無窮的想法,然後根據這種想法寫了這篇論文。那你是否考慮過採用不同架構的神經網絡?不是帶有神經元和無數層的標準架構,而是完全不同的東西。比如這些神經元的連接方式完全不同,也許是某種正方形?
楊格:其實關於非線性以及我們這項工作中對層數的洞察,都只是非常初級的研究。關於什麼是合適的結構,或者應該是怎樣的結構,當然還有很多可以探討的問題。
像 Meta 團隊之前就研究了隨機連接神經元會發生什麼,得到了一些有趣的結果。所以,這裏絕對還有很多可以做的事情。現在我確實沒有具體的答案來説什麼將是正確的或者更好的結構。
關於楊格
楊格出生於湖南省,小學畢業後去了美國,本科就讀於哈佛師從丘成桐教授。

2017 年,楊格哈佛畢業,之後在沈向洋引薦下進入微軟。
在微軟,楊格獲得了沈向洋的高度評價。幾個月前,在一場名為 “基礎科學與人工智能” 的論壇上,沈向洋公開表示:
微軟研究院平時只招博士生的,楊格作為一個本科畢業生進了微軟研究院。不僅進了微軟研究院,過去這五年還做得無比優秀,特別是在 GPT 發展過程中做了舉足輕重的貢獻。
值得一提的是,他本人也曾承認 GPT-4 就用到了他的μTransfer(Tensor Programs 系列)方法。
而楊格對 Tensor Programs 的研究,從很早就開始了,2019 年就發表了 “Tensor Programs I”,在微軟工作時也是持續深入探索。他認為深度學習中幾乎任何計算都可以表示為 Tensor Programs。
今年 7 月,馬斯克宣佈成立新公司 xAI,楊格離開微軟,加入 xAI 創始團隊,成為 xAI 的數學家。
加入 xAI 後,楊格不止一次透露 Tensor Programs 項目長期目標是開發大規模深度學習的 “萬物理論”,也就是找到一種理論上的規則,可以真正理解 AI 大模型的行為。
他還表示:
AI 將使每個人都能以此前難以想象的方式理解我們的數學宇宙。
本文作者:西風、魚羊,來源:量子位,原文標題:《馬斯克 xAI 首個研究成果發佈!創始成員楊格&姚班校友共同一作 》
