
Guotai Junan: DeepSeek NSA architecture leads AI efficiency revolution, bringing new development opportunities from infrastructure to application layer

國泰君安發佈研報稱,DeepSeek 推出 NSA(Native Sparse Attention)技術,突破長文本處理瓶頸,推動 AI 大模型向算法效率競爭轉型。NSA 通過三條並行注意力分支提升長文本處理效率,降低 AI 應用開發門檻,促進 AI 技術普及,催生新應用場景和商業模式創新。該技術顯著減少預訓練所需計算資源,降低中小企業參與 AI 開發的門檻,帶來新的市場機遇。
智通財經 APP 獲悉,國泰君安發佈研報稱,DeepSeek 發佈 NSA(Native Sparse Attention) 相關論文,突破長文本處理瓶頸,低成本模型訓練可行性推動 AI 大模型轉向算法效率競爭。通過降低 AI 應用開發門檻,有望激發新一輪創新浪潮,最終加速 AI 在各行業的滲透,帶動整個產業鏈升級,從基礎設施到應用層都將會迎來新的發展機遇。
國泰君安主要觀點如下:
NSA 通過原生稀疏注意力機制在長上下文處理實現突破。
長上下文處理是大模型發展的關鍵瓶頸之一,softmax 架構中注意力計算佔解碼 64k 上下文總延遲的 70%-80%。NSA 採用三條並行的注意力分支:壓縮注意力捕獲全局信息,選擇性注意力保留重要 token,滑動窗口注意力處理局部上下文,在通用基準測試中不遜於全注意力模型,同時實現了長文本處理的效率提升。
算力門檻的降低將加速 AI 民主化進程。
NSA 技術通過端到端的稀疏訓練顯著降低了預訓練所需的計算資源,減少了 A100 GPU 在預訓練過程中的使用時長,降低了企業開發大模型的資金與技術門檻,使更多中小企業有機會參與 AI 底層開發。算力門檻的顯著降低,將推動 AI 技術從少數科技巨頭向更廣泛市場普及。
長文本處理能力的提升將催生新的應用場景,驅動商業模式創新。
NSA 技術使模型能夠直接處理整本書籍、代碼倉庫或千輪級別的客服對話。這種長序列處理能力的提升,將顯著擴展 AI 在文檔分析、代碼生成等領域的應用邊界。特別是在邊緣計算等低延遲場景中,NSA 的高效推理特性或催生出全新的商業模式,從而也給硬件廠商、解決方案商等帶來新的市場機遇。
風險提示:技術競爭加劇、商業化進程不及預期的風險。
