網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi開源新線性注意力架構(gòu)，首次超越全注意力模型，推理加速6倍

2025-10-31 16:46:04　來源: 量子位

北京舉報(bào)

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

Transformer的時(shí)代，正在被改寫。

月之暗面最新發(fā)布的開源Kimi Linear架構(gòu)，用一種全新的注意力機(jī)制，在相同訓(xùn)練條件下首次超越了全注意力模型

在長(zhǎng)上下文任務(wù)中，它不僅減少了75%的KV緩存需求，還實(shí)現(xiàn)了高達(dá)6倍的推理加速。

有網(wǎng)友表示期待：這個(gè)架構(gòu)下的Kimi K2.5何時(shí)來？？

不過，咱還是先來看一下Kimi Linear是如何挑戰(zhàn)傳統(tǒng)Transformer的。

讓注意力真正線性化

Transformer確實(shí)聰明，但聰明得有點(diǎn)太燒錢。

它的注意力機(jī)制是全連接的，每個(gè)token都要和其他所有token打交道。

計(jì)算量也隨著輸入長(zhǎng)度呈平方增長(zhǎng)（O(N2)），而且每生成一個(gè)新詞，還要查一遍之前的所有緩存。

這就導(dǎo)致推理階段的KV Cache占顯存極大，尤其是在128K以上的上下文中，顯卡直接崩潰警告。

模型越強(qiáng)，顯卡越崩，錢包越痛。

所以，過去幾年無數(shù)團(tuán)隊(duì)都在研究線性注意力，希望把計(jì)算從 O(N2) 降到 O(N)，讓模型能又快又省。

但問題是，以前的線性注意力都記不住東西，快是快了，but智商打折。

現(xiàn)在，Kimi Linear以既要又要還要的姿態(tài)登場(chǎng)了。

Kimi Linear的核心創(chuàng)新是Kimi Delta Attention（KDA）

它在原有線性注意力的基礎(chǔ)上，引入了細(xì)粒度遺忘門控，不再像傳統(tǒng)線性注意力那樣一刀切地遺忘，而是讓模型可以在每個(gè)通道維度上獨(dú)立地控制記憶保留，把重要信息留下，把冗余信息扔掉。

更關(guān)鍵的是，KDA的狀態(tài)更新機(jī)制是基于一種改進(jìn)的Delta Rule（增量學(xué)習(xí)規(guī)則）。

它在數(shù)學(xué)上保證了穩(wěn)定性，即使是在百萬級(jí)token序列中，梯度也不會(huì)爆炸或消失。

這也讓Kimi Linear能在超長(zhǎng)上下文中跑得穩(wěn)。

整個(gè)模型采用3:1的混合層設(shè)計(jì)，每3層線性注意力（KDA）后加1層全注意力。這樣既保留全局語義的建模能力，又能在多數(shù)層用線性計(jì)算節(jié)省資源。

團(tuán)隊(duì)還干脆把傳統(tǒng)的RoPE（旋轉(zhuǎn)位置編碼）砍掉，讓KDA自己通過時(shí)間衰減核函數(shù)學(xué)習(xí)序列位置信息。

結(jié)果，沒有RoPE，模型反而更穩(wěn)、更泛化。

在KDA的狀態(tài)更新過程中，Kimi Linear用了一種叫Diagonal-Plus-Low-Rank（DPLR）的結(jié)構(gòu)。

核心思路是把注意力矩陣拆成「對(duì)角塊+低秩補(bǔ)丁」，這樣GPU在并行計(jì)算時(shí)能一次性處理更多內(nèi)容，吞吐率直接翻倍。

此外，團(tuán)隊(duì)還引入了分塊并行計(jì)算和kernel fusion優(yōu)化（內(nèi)核融合），極大地減少了顯存I/O開銷。

在工程部署上，它還能無縫對(duì)接vLLM推理框架，不需要改模型結(jié)構(gòu)，也不需要改緩存管理，直接替換即可。

這意味著，任何基于Transformer的系統(tǒng)在理論上都能一鍵升級(jí)為Kimi Linear。

實(shí)驗(yàn)結(jié)果顯示，在相同訓(xùn)練規(guī)模下，比如1.4T tokens，Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多個(gè)基準(zhǔn)測(cè)試上全面超越Transformer。

長(zhǎng)上下文推理中，解碼速度提升最高達(dá)6倍，KV緩存減少75%。

不僅沒丟精度，還在數(shù)學(xué)推理、代碼生成等任務(wù)上更穩(wěn)定、更高分。

One More Thing

不得不說，Transformer的地位正在被重新審視。

Mamba的作者曾用長(zhǎng)文論述Transformer并非最終解法，狀態(tài)空間模型（SSM）在長(zhǎng)序列建模和高效計(jì)算上展現(xiàn)出強(qiáng)大的替代潛力，這也讓人們重新思考注意力是否真的是唯一答案。

之前谷歌推出的MoR架構(gòu)，探索用遞歸結(jié)構(gòu)取代部分注意力，通過動(dòng)態(tài)計(jì)算深度來減少冗余推理，進(jìn)一步提升效率。

蘋果公司也在多項(xiàng)研究中傾向采用Mamba，而非傳統(tǒng)Transformer，理由很現(xiàn)實(shí)——SSM架構(gòu)更節(jié)能、延遲更低、適合在終端設(shè)備上部署。

現(xiàn)在，Kimi Linear則從另一條路線突圍，在線性注意力方向上取得突破。

或許這也預(yù)示著，AI架構(gòu)正在告別對(duì)傳統(tǒng)Transformer的路徑依賴，邁向多元?jiǎng)?chuàng)新時(shí)代。

但值得一提的是，剛剛坐上開源模型王座的MiniMax M2，卻重新用回了全注意力機(jī)制。

技術(shù)報(bào)告：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

LLaVA-OneVision-1.5開源，8B模型預(yù)訓(xùn)練只需4天、1.6萬美元

機(jī)器之心Pro 2025-10-13 18:37:02
0 跟貼 0
輕量高效，即插即用：Video-RAG為長(zhǎng)視頻理解帶來新范式

機(jī)器之心Pro 2025-10-20 18:23:17
0 跟貼 0

抖音SAIL團(tuán)隊(duì)聯(lián)合港中文MMLab推出SAIL-Embedding

機(jī)器之心Pro 2025-11-04 13:34:28
0 跟貼 0

經(jīng)典ReLU回歸！重大缺陷「死亡ReLU問題」已被解決

機(jī)器之心Pro 2025-06-03 17:08:54
0 跟貼 0
Qwen3-Max思考版上線，集成代碼解釋器攻堅(jiān)復(fù)雜數(shù)學(xué)

DeepTech深科技 2025-11-04 17:45:57
2 跟貼 2

又一推理新范式：將LLM自身視作改進(jìn)操作符，突破長(zhǎng)思維鏈極限

機(jī)器之心Pro 2025-10-04 18:35:49
0 跟貼 0

2張4090竟能本地微調(diào)萬億參數(shù)Kimi K2！國(guó)產(chǎn)玩家把算力門檻擊穿了

量子位 2025-11-05 15:56:24
6 跟貼 6
穿搭和臉有沒有關(guān)系，戴上頭套一目了然，果然建模才是最重要的！

搞笑大蘑菇 2025-11-05 13:09:35
3 跟貼 3

金魚損失隨機(jī)剔除token，讓AI不再死記硬背

量子位 2025-09-03 17:37:23
0 跟貼 0
你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

機(jī)器之心Pro 2025-11-05 16:27:02
0 跟貼 0
兼得快與好！訓(xùn)練新范式TiM，原生支持FSDP+Flash Attention

量子位 2025-09-14 13:46:24
0 跟貼 0
開源即爆火！英偉達(dá)重磅推出OmniVinci全模態(tài)大模型

機(jī)器之心Pro 2025-11-06 15:54:29
0 跟貼 0
中關(guān)村學(xué)院新發(fā)現(xiàn)：輕量級(jí)驗(yàn)證器可解鎖LLM推理最優(yōu)選擇

機(jī)器之心Pro 2025-11-06 16:11:29
0 跟貼 0
RLinf上新πRL：在線強(qiáng)化學(xué)習(xí)微調(diào)π0和π0.5

機(jī)器之心Pro 2025-11-06 17:29:51
0 跟貼 0
美國(guó)發(fā)射洲際彈道導(dǎo)彈俄方回應(yīng)

央視新聞客戶端 2025-11-06 05:35:52
14483 跟貼 14483
足協(xié)官宣 45歲邵佳一出任國(guó)足新主帥

央視新聞客戶端 2025-11-05 17:36:01
13235 跟貼 13235
微信AI團(tuán)隊(duì)，悄悄干了件大事，算力消耗暴降44%！

智東西 2025-11-05 22:10:40
0 跟貼 0
丑女易容后的報(bào)復(fù)，最被忽視的推理神作《回廊亭殺人事件》

壹哥追劇 2025-11-05 19:42:43
1 跟貼 1
爸爸去哪兒6個(gè)娃現(xiàn)狀：有人出國(guó)，有人進(jìn)國(guó)家隊(duì)，kimi石頭很可惜

娛樂看阿敞 2025-11-06 15:06:43
1 跟貼 1
1斤豆芽賣28.8元？網(wǎng)友直呼“吃不起”，知名餐飲品牌回應(yīng)

都市快報(bào)橙柿互動(dòng) 2025-11-02 16:20:16
8617 跟貼 8617
林志穎痊愈了？曾因沒有女兒倍感遺憾，陳若儀肚大腰圓疑懷四胎

八星人 2025-11-05 15:43:19
0 跟貼 0
量子雷達(dá)開“天眼”，隱身神話要被終結(jié)？

一飲山河 2025-11-05 11:12:04
0 跟貼 0
女生自信展示卸妝過程，看完后知道什么叫天生麗質(zhì)。網(wǎng)友：建模怪覺得自己老有操作了

音樂下午茶官方 2025-11-05 20:23:08
10 跟貼 10
請(qǐng)善用你的注意力：人一旦覺醒會(huì)變得非常強(qiáng)大

正見救世 2025-11-05 01:03:53
0 跟貼 0
國(guó)務(wù)院公告后搜索暴漲3倍上海人立馬出手：怕?lián)尣坏?/a>

極目新聞 2025-11-05 15:06:20
737 跟貼 737
阿里的AI敘事，多個(gè)夸克，差了豆包

鈦媒體APP 2025-10-16 09:12:09
0 跟貼 0
“存力中國(guó)行”探討AI推理新挑戰(zhàn)，華為開源UCM技術(shù)成破局關(guān)鍵

每日經(jīng)濟(jì)新聞 2025-11-06 12:19:02
0 跟貼 0
有些人天生就帶光環(huán)，同樣是跳廣場(chǎng)舞，我的注意力只在她身上！

田泡芙搞笑 2025-11-03 09:21:10
11 跟貼 11
美國(guó)肯塔基州州長(zhǎng)：本州進(jìn)入緊急狀態(tài)

央視新聞客戶端 2025-11-06 05:30:35
741 跟貼 741
重慶行政區(qū)劃調(diào)整撤銷江北區(qū)、渝北區(qū)

央視新聞客戶端 2025-11-06 12:04:05
821 跟貼 821
造價(jià)10億地標(biāo)13.6億起拍！廣州圓大廈第三次上架找買家

南方都市報(bào) 2025-11-06 11:51:15
476 跟貼 476
三亞海灘“長(zhǎng)滿”了俄羅斯人！網(wǎng)友調(diào)侃：我在這里反而成了“老外”

封面新聞 2025-11-02 12:57:02
148 跟貼 148
機(jī)場(chǎng)回應(yīng)：不是飛機(jī)出來了，可能是模型什么的

江西都市現(xiàn)場(chǎng) 2025-11-05 14:15:29
0 跟貼 0
小學(xué)不會(huì)十字相乘法，不會(huì)方程，沒關(guān)系，建模畫圖法依能解決

瓜田料下 2025-11-05 13:14:46
0 跟貼 0
小鵬機(jī)器人里面是不是真人？全球網(wǎng)友吵翻了，CEO 現(xiàn)場(chǎng)「扒開衣服」自證

愛范兒 2025-11-06 17:18:24
0 跟貼 0
谷歌AlphaEvolve太香了，陶哲軒甚至發(fā)了篇論文，啟發(fā)數(shù)學(xué)新構(gòu)造

機(jī)器之心Pro 2025-11-06 17:28:11
0 跟貼 0
小鵬全新飛行汽車亮相：續(xù)航超500公里！何小鵬打出“安全牌”：高管先飛，必須飛滿5000公里

每日經(jīng)濟(jì)新聞 2025-11-05 19:25:06
2575 跟貼 2575
格力機(jī)床斬獲國(guó)際金獎(jiǎng)，為何國(guó)內(nèi)無人喝彩？我們的注意力早跑偏了

罐頭告訴貓迷 2025-11-06 04:38:54
0 跟貼 0
聽風(fēng)的蠶：中國(guó)量子雷達(dá)關(guān)鍵組件突破，美隱身優(yōu)勢(shì)不再

原來仙女不講理 2025-11-05 02:45:50
0 跟貼 0
大雄：注意力這東西我有，但是不多

小健搞笑 2025-11-02 13:04:38
10 跟貼 10

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Kimi開源新線性注意力架構(gòu)，首次超越全注意力模型，推理加速6倍

讓注意力真正線性化

One More Thing

小鵬機(jī)器人里藏真人?何小鵬發(fā)一鏡到底視頻

孫東旭離開東方甄選 曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

孫東旭離開東方甄選 曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

送走兩位全明星，公牛成了東部第一

“黑料纏身”的白百何 誰給她的勇氣？

南銀法巴加速發(fā)展背后:資金饑渴癥待解

是我眼花了么？怎么大猩猩都來參加新車發(fā)布了？

態(tài)度原創(chuàng)

2025年第三季度，中國(guó)手機(jī)在印度遭遇了什么？

黔南：“石榴籽”抱緊，幸福路同行

景色醉人真情暖心，山東多景區(qū)用心“寵客”換來“秋游熱”

超聲探頭會(huì)加重受傷情況嗎？

10億美元！新版Siri將融入谷歌Gemini大模型，明年上線

孫東旭離開東方甄選曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

孫東旭離開東方甄選曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

“黑料纏身”的白百何誰給她的勇氣？