![]()
機器之心報道
編輯:張倩、+0
Kimi 押注線性注意力,MiniMax 青睞全注意力,究竟哪條路能走得更遠?
在智能體時代,推理的計算需求正成為一個核心瓶頸,尤其是在長時程和強化學習場景中。此時,標準注意力機制中存在的低效問題變得更加突出。
線性注意力為降低計算復雜度提供了一種有前景的方法,但由于表達能力有限,它在語言建模方面的表現歷來不如 softmax 注意力,即使對于短序列也是如此。
最近的進展顯著縮小了這一差距,主要得益于兩項創新:門控或衰減機制以及 delta 規則。這些進展共同推動線性注意力在中等長度序列上的性能接近 softmax 水平。盡管如此,純粹的線性結構從根本上仍受限于有限狀態容量,這使得長序列建模和上下文內檢索在理論上仍具有挑戰性。
因此,結合 softmax 注意力和線性注意力的混合架構成為在質量和效率之間的一種折衷方案。但之前的混合模型往往規模較小,缺乏多樣化基準評估。關鍵挑戰是開發出一種新的注意力架構,能夠在速度和內存上顯著提高效率,同時保證或超過全注意力的質量,推動下一代解碼密集型 LLM 的發展。
最近,月之暗面在這一方向有所突破。在一篇新的技術報告中,他們提出了一種新的混合線性注意力架構 ——Kimi Linear。該架構在各種場景中都優于傳統的全注意力方法,包括短文本、長文本以及強化學習的 scaling 機制。
![]()
- 技術報告:KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE
- 報告鏈接:https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
- GitHub 鏈接:https://github.com/MoonshotAI/Kimi-Linear?tab=readme-ov-file
- HuggingFace 鏈接:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
Kimi Linear 的核心是 Kimi Delta 注意力(KDA)—— 這是 Gated DeltaNet(GDN)的改進版本,引入了更高效的門控機制,以優化有限狀態 RNN 內存的使用。作者表示,雖然 GDN 與 Mamba2 類似,采用了粗糙的 head-wise 遺忘門,但 KDA 引入了一種 channel-wise 的變體,其中每個特征維度都保持獨立的遺忘率,類似于門控線性注意力(GLA)。
這種細粒度的設計能夠更精確地調控有限狀態 RNN 的記憶,從而在混合架構中釋放 RNN 風格模型的潛力。關鍵在于,KDA 通過 Diagonal-Plus-Low-Rank(DPLR)矩陣的一種專門變體來參數化其轉換動態,這使得一種定制的分塊并行算法成為可能,該算法相較于通用的 DPLR 公式能顯著減少計算量,同時仍與經典的 delta 規則保持一致。Kimi Linear 以 3:1 的固定比例將 KDA 與周期性的全注意力層交錯排列。
作者基于 KDA 與多頭潛在注意力(MLA)的分層混合架構,預訓練了一個 Kimi Linear 模型。該模型激活參數為 3B,總參數達 48B。
Kimi Linear 實現了卓越的性能和硬件效率,尤其在長上下文任務中表現突出。它最多可將對大型 KV 緩存的需求減少 75%,并且在處理長達 100 萬個 token 的上下文時,能將解碼吞吐量提升到完整 MLA 模型的 6 倍。
![]()
![]()
月之暗面團隊在 FLA 中開源了 KDA 內核,并發布了兩個版本的模型檢查點,這些檢查點是用 5.7 萬億個 token 訓練的。
![]()
整個項目的核心看點包括:
- Kimi Delta 注意力(KDA):一種線性注意力機制,通過細粒度門控優化門控 Delta 規則。
- 混合架構:3:1 的 KDA 與全局 MLA 比例在降低內存使用的同時,保持甚至超越全注意力的質量。
- 卓越性能:在多種任務中表現優于全注意力,包括在 1.4 萬億 token 的訓練運行中,通過公平對比,在長上下文和強化學習風格的基準測試中均有出色表現。
- 高吞吐量:實現了高達 6 倍的更快解碼速度,并顯著減少了每個輸出 token 的時間(TPOT)。
目前,vLLM 已經官宣支持 Kimi Linear。
![]()
在技術報告發布后,Kimi 的研究員「熊貍」在 X 上表示:「我很榮幸在過去一年中見證了這項偉大的工作。線性注意力在表達能力上具有巨大潛力,但在處理長上下文時存在較高的風險。KDA 不是一個玩具式的想法,它經受住了各種不可作弊的內部評估,這些評估的目的就是為了驗證其有效性。」
![]()
該項目的重要貢獻者 Zongyu Lin(目前在 UCLA)表示,「坦白說,這只是一個中間階段,最終我們仍然在朝著實現無限上下文模型邁進。只要我們使用全局注意力,長時間解碼依然受到其限制,而線性注意力背后仍然有一些基礎設施挑戰。但我相信這些問題都會被解決,而且來自不同實驗室 / 公司的更多令人激動的成果即將到來。」
![]()
所以,K3 也會延續線性注意力架構嗎?
而另外的大模型玩家中,Qwen 也曾表示要大膽押注線性注意力:
![]()
但 MiniMax 似乎更青睞全注意力。
![]()
到底哪個方向能走得更遠?我們拭目以待。
以下是 Kimi Linear 的技術細節。
Kimi Delta Attention:通過細粒度門控改進 Delta 規則
Kimi Delta Attention (KDA) 是一種新型的門控線性注意力變體。它通過引入一個細粒度的對角化門控 來改進 GDN 的標量衰減,從而實現了對記憶衰減和位置感知的細粒度控制。
![]()
![]()
硬件高效的分塊算法
通過將公式 1 的遞歸部分展開為分塊公式,可得到:
![]()
- WY Representation
通常用于將一系列秩 - 1 更新打包成單個緊湊的表示。該方法遵循了 Comba 中 P 的公式,以減少后續計算中額外矩陣求逆的需求。
![]()
其中,輔助向量 和 通過以下遞歸關系計算得出:
![]()
![]()
![]()
- UT transform
該算法應用了 UT transform 來減少非矩陣乘法的 FLOPs,這對于在訓練期間提升硬件利用率至關重要。
![]()
下三角矩陣的逆可以通過高斯消元法中的前向替換,采用逐行迭代的方法高效計算。等效地,以矩陣形式,可以按如下方式分塊更新狀態:
![]()
![]()
在輸出階段,該算法采用塊間遞歸和塊內并行的策略來最大化矩陣乘法吞吐量,從而充分利用 Tensor Cores 的計算潛力。
![]()
效率分析
在表示能力方面,KDA 與廣義的 DPLR 公式一致,即
![]()
兩者都表現出細粒度的衰減行為。然而,這種細粒度的衰減會在除法運算(例如,公式 9 中的塊內計算)過程中引入數值精度問題。
為了解決這個問題,以往的工作(如 GLA)在對數域中執行計算,并在全精度下引入二級分塊。然而,這種方法妨礙了半精度矩陣乘法的充分利用,并顯著降低了算子速度。
通過將變量 a 和 b 同時綁定到 k,KDA 有效地緩解了這一瓶頸 —— 將二級分塊矩陣計算的數量從四次減少到兩次,并進一步消除了三次額外的矩陣乘法。因此,與 DPLR 公式相比,KDA 的算子效率提升了大約 100%。
![]()
在批量大小統一為 1 且頭數為 16 的條件下,算子隨輸入長度變化的執行時間。
Kimi 線性模型架構
該模型架構的主干遵循 Moonlight 的設計。除了細粒度門控之外,該模型還利用了幾個組件來進一步提高 Kimi Linear 的表達能力。Kimi Linear 的整體架構如圖 3 所示。
![]()
神經參數化
![]()
在這里,輸出門采用了類似于遺忘門的低秩參數化,以確保公平的參數比較,同時保持與全秩門控相當的性能,并緩解注意力下沉問題。
混合模型架構
長上下文檢索仍然是純線性注意力的主要瓶頸,因此,本文將 KDA 與少數幾個全全局注意力 (Full MLA) 層進行了混合。
對于 Kimi Linear,研究人員選擇了一種逐層方法(交替使用整個層),而不是逐頭方法(在層內混合不同的頭),因為前者在基礎設施簡單性和訓練穩定性方面更具優勢。
經驗表明,采用統一的 3:1 比例,即每 3 個 KDA 層重復 1 個全 MLA 層,可提供最佳的質量 - 吞吐量權衡。
MLA 層的無位置編碼 (NoPE)
在 Kimi Linear 中,NoPE 被應用于所有全注意力層。這種設計將編碼位置信息和近期偏好的全部責任委托給了 KDA 層。
因此,KDA 被確立為主要的位置感知算子,其扮演的角色類似于(甚至可以說強于)短卷積或 SWA 等輔助組件。這一發現與先前的研究結果一致,后者同樣證明了:使用一個專用的位置感知機制來補充全局 NoPE 注意力,可以產生具有競爭力的長上下文性能。
值得注意的是,NoPE 提供了顯著的實用優勢,特別是對于 MLA 層。首先,NoPE 使得這些層在推理過程中可以轉換為高效的純多查詢注意力。其次,它簡化了長上下文訓練,因為它避免了 RoPE(旋轉位置編碼)的參數調整需求,例如頻率基調優或使用像 YaRN 這樣的方法。
![]()
實驗結果
對 Kimi Linear 關鍵組件的消融實驗
作者通過將不同模型與 first-scale scaling law 模型(即 16 個注意力頭、16 層)進行直接比較,開展了一系列消融研究。下表 1 記錄了訓練和驗證的困惑度(PPL)。
![]()
從表中還可以得出以下信息:
- 輸出門控:移除門控會降低性能,swish 門控性能明顯不如 Sigmoid。
- 卷積層:卷積層在混合模型中仍然發揮著不可忽視的作用。
- 混合比例:在測試的配置中,3:1 的比例(每 1 個 MLA 層對應 3 個 KDA 層)產生了最佳結果,實現了最低的訓練損失和驗證損失。
NoPE vs. RoPE 的對比結果見表 5。從中可以看出,采用 NoPE 的 Kimi Linear 在不同的長上下文基準測試中取得了最佳的平均分數。
![]()
Kimi Linear 的 scaling law
作者基于 Moonlight 架構,對一系列 MoE 模型進行了 scaling law 實驗。在所有實驗中,他們從 64 個專家中激活了 8 個,并使用了 Muon 優化器。詳細信息和超參數列于表 2 中。
![]()
對于 MLA,他們遵循 Chinchilla scaling law,訓練了五個不同規模的語言模型,并通過網格搜索仔細調整它們的超參數,以確保每個模型都能達到最佳性能。對于 KDA,他們保持了表 1 中驗證的 3:1 這一最佳混合比例。除此之外,他們嚴格遵循 MLA 的訓練配置,未做任何修改。如圖 5 所示,與經過計算優化訓練的 MLA 基線相比,Kimi Linear 的計算效率約為其 1.16 倍。作者預計,仔細的超參數調整將為 KDA 帶來更優的縮放曲線。
![]()
與基線對比的主要實驗結果
Kimi Linear @1.4T 結果:
- 預訓練結果
在表 3 中,團隊使用一個 1.4T 的預訓練語料庫,比較了 Kimi Linear 模型與兩個基線模型(MLA 和 hybrid GDN-H)。評估重點關注三個領域:通用知識、推理(數學和代碼)以及中文任務。Kimi Linear 在幾乎所有類別中都持續優于兩個基線模型。
![]()
- 通用知識: Kimi Linear 在所有關鍵基準(如 BBH, MMLU 和 HellaSwag)上均獲得最高分。
- 推理: 它在數學(GSM8K)和大多數代碼任務(CRUXEval)上處于領先地位。然而,在 EvalPlus 上的得分略低于 GDN-H。
- 中文任務: Kimi Linear 在 CEval 和 CMMLU 上取得了最高分。
總之,Kimi Linear 展現了最強的性能,使其成為短上下文預訓練中全注意力架構的有力替代方案。
- SFT 結果
在經歷了相同的監督微調(SFT)流程后,Kimi Linear 在通用任務以及數學和代碼任務上均表現出強勁性能,持續優于 MLA 和 GDN-H。
在通用任務中,Kimi Linear 全面領先,在各種 MMLU 基準、BBH 和 GPQA-Diamond 上均取得了最高分。在數學和代碼任務中,它在 AIME 2025、HMMT 2025、PolyMath-en 和 LiveCodeBench 等高難度基準上超越了兩個基線模型。
![]()
盡管在 MATH500 和 EvalPlus 等個別項目上存在微小例外,但 Kimi Linear 在各項任務中均顯示出穩健的優勢,證實了其相較于其他測試模型(GDN-H 和 MLA)的明顯優越性。
- 長上下文性能評估
團隊在 128k 上下文長度下,評估了 Kimi Linear 相對于三個基線模型 ——MLA、GDN-H 和 Kimi Linear (RoPE)—— 在幾個基準上的長上下文性能(見表 5)。
![]()
結果凸顯了 Kimi Linear 在這些長上下文任務中的明顯優勢。它持續優于 MLA 和 GDN-H,在 RULER (84.3) 和 RepoQA (68.5) 上以顯著優勢取得了最高分。這種超越模式在除 LongBench V2 和 Frames 之外的大多數其他任務中也得以保持。
總體而言,Kimi Linear 取得了最高的平均分 (54.5),進一步鞏固了其作為長上下文場景中領先注意力架構的有效性。
- RL 結果
為了比較 Kimi Linear 和 MLA 的強化學習(RL)收斂特性,團隊使用了 內部數學訓練集進行了 RLVR,并在數學測試集(例如 AIME 2025, MATH500)上進行評估,同時保持算法和所有超參數一致,以確保公平的性能比較。
![]()
如圖 6 所示,與 MLA 相比,Kimi Linear 展示了更高的效率。在訓練集上,盡管兩個模型起點相似,但 Kimi Linear 的訓練準確率增長速度明顯高于 MLA,且差距逐漸拉大。在測試集上也觀察到了類似現象。例如,在 MATH500 和 AIME2025 上,Kimi Linear 相比 MLA 取得了更快、更好的提升。
總體而言,團隊根據經驗觀察到,在強化學習下的推理密集型長文本生成中,Kimi Linear 的表現明顯優于 MLA。
- 總體研究結果總結
在預訓練和 SFT 階段,一個清晰的性能層級得以確立:Kimi Linear 優于 GDN-H,而 GDN-H 又優于 MLA。然而,這個層級在長上下文評估中發生了變化。雖然 Kimi Linear 保持了其領先地位,但 GDN-H 的性能有所下降,使其排名落后于 MLA。
此外,在 RL 階段,Kimi Linear 也表現出優于 MLA 的性能。總體而言,Kimi Linear 在所有階段始終名列前茅,確立了其作為全注意力架構的卓越替代方案的地位。
效率對比結果
作者在圖 7a 和圖 7b 中比較了全注意力 MLA、GDN-H 和 Kimi Linear 的訓練及解碼時間。
![]()
作者觀察到,盡管融入了更精細的衰減機制,但 Kimi Linear 在預填充期間相較于 GDN-H 僅引入了可忽略不計的延遲開銷。如圖 7a 所示,它們的性能曲線幾乎難以區分,這證實了 Kimi Linear 的方法保持了較高的效率。隨著序列長度的增加,混合的 Kimi Linear 模型相較于 MLA 基線展現出明顯的效率優勢。雖然在較短長度(4k–16k)時其性能與 MLA 相當,但從 128k 開始,它的速度顯著提升。這種效率差距在規模擴大時急劇拉大。如圖 1b 所示,Kimi Linear 在解碼階段充分展現了其優勢。在 1M 上下文長度下進行解碼時,Kimi Linear 的速度是全注意力的 6 倍。
更多技術細節請參見原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.