![]()
LLM領(lǐng)域,線性注意力機(jī)制正在回歸,工程實(shí)踐主要還是國(guó)產(chǎn)模型在推進(jìn),主要原因大家都清楚,我們算力有限,當(dāng)然也有長(zhǎng)期的目標(biāo),Agent要真正落地干貨,注意力機(jī)制必須要改變,目前國(guó)外主要模型都是閉源的,技術(shù)細(xì)節(jié)我們不了解,看起來都是仗著有卡,暴力解算,以下是這場(chǎng)技術(shù)路線之爭(zhēng)的簡(jiǎn)要梳理
早期:效率與精度的兩難
線性注意力并非新技術(shù)。早在2020年代,相關(guān)論文就已大量涌現(xiàn)。
其核心目標(biāo)是將注意力機(jī)制的時(shí)間和內(nèi)存復(fù)雜度從O(n2)降低到O(n),從而在處理長(zhǎng)序列時(shí)實(shí)現(xiàn)更高的效率。
然而,這些早期的嘗試從未真正獲得主流認(rèn)可。根本原因在于,它們以犧牲模型精度為代價(jià),因此從未被應(yīng)用在任何一個(gè)開源的、達(dá)到業(yè)界頂尖水平(SOTA)的大語言模型中。
新的浪潮:國(guó)產(chǎn)模型引領(lǐng)
轉(zhuǎn)折點(diǎn)發(fā)生在今年下半年,線性注意力變體迎來了一輪復(fù)興
6月,MiniMax-M1:擁有4560億總參數(shù)、460億激活參數(shù)的MoE模型,采用了“閃電注意力”(lightning attention)
8月,Qwen3-Next:由Qwen3團(tuán)隊(duì)推出,采用了線性注意力變體
9月,DeepSeek V3.2:由DeepSeek團(tuán)隊(duì)發(fā)布,采用了稀疏注意力(sparse attention),雖然并非嚴(yán)格的線性,但仍是亞二次方復(fù)雜度
這三個(gè)模型的共同點(diǎn)是,在大部分或所有層中,都用高效的線性或亞二次方注意力變體取代了傳統(tǒng)的二次方注意力
劇情反轉(zhuǎn):MiniMax悄然“倒戈”
就在線性注意力看似前景大好之時(shí),劇情出現(xiàn)了反轉(zhuǎn)。
MiniMax團(tuán)隊(duì)發(fā)布了其新的2300億參數(shù)模型M2,但出人意料地放棄了線性注意力,回歸了常規(guī)注意力機(jī)制
團(tuán)隊(duì)給出的解釋是,線性注意力在生產(chǎn)環(huán)境的LLM中非常棘手。雖然它在處理常規(guī)提示時(shí)表現(xiàn)尚可,但在推理和多輪對(duì)話任務(wù)中存在明顯的精度問題——而這兩項(xiàng)能力對(duì)于聊天會(huì)話和智能體應(yīng)用至關(guān)重要
這一舉動(dòng)一度讓外界認(rèn)為,線性注意力的探索或許不值得再繼續(xù)下去
Kimi入局:混合策略帶來新解法
然而,上周,Kimi團(tuán)隊(duì)發(fā)布了其全新的Kimi Linear模型,再次將線性注意力拉回舞臺(tái)中央。
官方數(shù)據(jù)顯示,與常規(guī)的全注意力(full attention)相比,Kimi Linear實(shí)現(xiàn)了:
75%的KV緩存縮減
最高達(dá)6倍的解碼吞吐量
在架構(gòu)上,Kimi Linear與Qwen3-Next有諸多相似之處,兩者都依賴于一種混合注意力策略。
具體來說,它們都將輕量級(jí)的線性注意力與重量級(jí)的全注意力層結(jié)合使用。兩者的比例均為3:1,即每三個(gè)采用線性注意力(Gated DeltaNet變體)的Transformer塊,就搭配一個(gè)使用全注意力的塊
但Kimi Linear在此基礎(chǔ)上進(jìn)行了改進(jìn):
1.線性部分:采用了Kimi Delta Attention (KDA)機(jī)制,這是對(duì)Gated DeltaNet的精煉,關(guān)于KDA解讀可以看我之前的文章
2.全注意力部分:用多頭潛在注意力(multi-head latent attention, MLA)取代了標(biāo)準(zhǔn)的全注意力模塊
雖然Kimi Linear的論文中沒有與Qwen3-Next的直接比較,但與Gated DeltaNet論文中的Gated DeltaNet-H1模型(本質(zhì)上是Gated DeltaNet與滑動(dòng)窗口注意力的結(jié)合)相比,Kimi Linear在保持相同token生成速度的同時(shí),實(shí)現(xiàn)了更高的建模精度
需要的注意的目前Kimi Linear中的多頭潛在注意力(MLA)尚未整合輸出門(sigmoid bypass),但團(tuán)隊(duì)計(jì)劃在未來加入這一特性
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.