<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Kimi開源新線性注意力架構(gòu),首次超越全注意力模型,推理加速6倍

      0
      分享至

      聞樂 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      Transformer的時(shí)代,正在被改寫。

      月之暗面最新發(fā)布的開源Kimi Linear架構(gòu),用一種全新的注意力機(jī)制,在相同訓(xùn)練條件下首次超越了全注意力模型



      在長(zhǎng)上下文任務(wù)中,它不僅減少了75%的KV緩存需求,還實(shí)現(xiàn)了高達(dá)6倍的推理加速。



      有網(wǎng)友表示期待:這個(gè)架構(gòu)下的Kimi K2.5何時(shí)來??



      不過,咱還是先來看一下Kimi Linear是如何挑戰(zhàn)傳統(tǒng)Transformer的。

      讓注意力真正線性化

      Transformer確實(shí)聰明,但聰明得有點(diǎn)太燒錢。

      它的注意力機(jī)制是全連接的,每個(gè)token都要和其他所有token打交道。

      計(jì)算量也隨著輸入長(zhǎng)度呈平方增長(zhǎng)(O(N2)),而且每生成一個(gè)新詞,還要查一遍之前的所有緩存。

      這就導(dǎo)致推理階段的KV Cache占顯存極大,尤其是在128K以上的上下文中,顯卡直接崩潰警告。

      模型越強(qiáng),顯卡越崩,錢包越痛。



      所以,過去幾年無數(shù)團(tuán)隊(duì)都在研究線性注意力,希望把計(jì)算從 O(N2) 降到 O(N),讓模型能又快又省。

      但問題是,以前的線性注意力都記不住東西,快是快了,but智商打折。

      現(xiàn)在,Kimi Linear以既要又要還要的姿態(tài)登場(chǎng)了。



      Kimi Linear的核心創(chuàng)新是Kimi Delta Attention(KDA)

      它在原有線性注意力的基礎(chǔ)上,引入了細(xì)粒度遺忘門控,不再像傳統(tǒng)線性注意力那樣一刀切地遺忘,而是讓模型可以在每個(gè)通道維度上獨(dú)立地控制記憶保留,把重要信息留下,把冗余信息扔掉。

      更關(guān)鍵的是,KDA的狀態(tài)更新機(jī)制是基于一種改進(jìn)的Delta Rule(增量學(xué)習(xí)規(guī)則)。

      它在數(shù)學(xué)上保證了穩(wěn)定性,即使是在百萬級(jí)token序列中,梯度也不會(huì)爆炸或消失。

      這也讓Kimi Linear能在超長(zhǎng)上下文中跑得穩(wěn)。

      整個(gè)模型采用3:1的混合層設(shè)計(jì),每3層線性注意力(KDA)后加1層全注意力。這樣既保留全局語義的建模能力,又能在多數(shù)層用線性計(jì)算節(jié)省資源。

      團(tuán)隊(duì)還干脆把傳統(tǒng)的RoPE(旋轉(zhuǎn)位置編碼)砍掉,讓KDA自己通過時(shí)間衰減核函數(shù)學(xué)習(xí)序列位置信息。

      結(jié)果,沒有RoPE,模型反而更穩(wěn)、更泛化。



      在KDA的狀態(tài)更新過程中,Kimi Linear用了一種叫Diagonal-Plus-Low-Rank(DPLR)的結(jié)構(gòu)。

      核心思路是把注意力矩陣拆成「對(duì)角塊+低秩補(bǔ)丁」,這樣GPU在并行計(jì)算時(shí)能一次性處理更多內(nèi)容,吞吐率直接翻倍。

      此外,團(tuán)隊(duì)還引入了分塊并行計(jì)算和kernel fusion優(yōu)化(內(nèi)核融合),極大地減少了顯存I/O開銷。

      在工程部署上,它還能無縫對(duì)接vLLM推理框架,不需要改模型結(jié)構(gòu),也不需要改緩存管理,直接替換即可。

      這意味著,任何基于Transformer的系統(tǒng)在理論上都能一鍵升級(jí)為Kimi Linear。

      實(shí)驗(yàn)結(jié)果顯示,在相同訓(xùn)練規(guī)模下,比如1.4T tokens,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多個(gè)基準(zhǔn)測(cè)試上全面超越Transformer。



      長(zhǎng)上下文推理中,解碼速度提升最高達(dá)6倍,KV緩存減少75%。



      不僅沒丟精度,還在數(shù)學(xué)推理、代碼生成等任務(wù)上更穩(wěn)定、更高分。



      One More Thing

      不得不說,Transformer的地位正在被重新審視。

      Mamba的作者曾用長(zhǎng)文論述Transformer并非最終解法,狀態(tài)空間模型(SSM)在長(zhǎng)序列建模和高效計(jì)算上展現(xiàn)出強(qiáng)大的替代潛力,這也讓人們重新思考注意力是否真的是唯一答案。

      之前谷歌推出的MoR架構(gòu),探索用遞歸結(jié)構(gòu)取代部分注意力,通過動(dòng)態(tài)計(jì)算深度來減少冗余推理,進(jìn)一步提升效率。

      蘋果公司也在多項(xiàng)研究中傾向采用Mamba,而非傳統(tǒng)Transformer,理由很現(xiàn)實(shí)——SSM架構(gòu)更節(jié)能、延遲更低、適合在終端設(shè)備上部署。

      現(xiàn)在,Kimi Linear則從另一條路線突圍,在線性注意力方向上取得突破。

      或許這也預(yù)示著,AI架構(gòu)正在告別對(duì)傳統(tǒng)Transformer的路徑依賴,邁向多元?jiǎng)?chuàng)新時(shí)代。

      但值得一提的是,剛剛坐上開源模型王座的MiniMax M2,卻重新用回了全注意力機(jī)制。

      技術(shù)報(bào)告:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

      — 完 —

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      炸裂!曝湖南省人醫(yī)男院長(zhǎng)與女主任的大瓜,熱情火辣、撥人心弦

      炸裂!曝湖南省人醫(yī)男院長(zhǎng)與女主任的大瓜,熱情火辣、撥人心弦

      鋭娛之樂
      2025-11-06 15:01:03
      已確認(rèn):17歲女生不幸去世!遺體在橋下找到

      已確認(rèn):17歲女生不幸去世!遺體在橋下找到

      魯中晨報(bào)
      2025-11-06 16:31:04
      記者:泰山以次頂薪續(xù)約瓦科,有海濱城市球隊(duì)報(bào)價(jià)但球員無意

      記者:泰山以次頂薪續(xù)約瓦科,有海濱城市球隊(duì)報(bào)價(jià)但球員無意

      懂球帝
      2025-11-06 14:39:03
      特大暴雪!驟降10℃!明天立冬,全國(guó)降溫日歷來了

      特大暴雪!驟降10℃!明天立冬,全國(guó)降溫日歷來了

      魯中晨報(bào)
      2025-11-06 17:07:06
      缺政工將領(lǐng)?他從兵團(tuán)司令轉(zhuǎn)為政委,后在地方20年,又主政總政部

      缺政工將領(lǐng)?他從兵團(tuán)司令轉(zhuǎn)為政委,后在地方20年,又主政總政部

      大運(yùn)河時(shí)空
      2025-11-05 16:20:03
      山姆翻車再上熱搜!商品頭圖全是假的,網(wǎng)友刷屏“辭退高管”

      山姆翻車再上熱搜!商品頭圖全是假的,網(wǎng)友刷屏“辭退高管”

      雷科技
      2025-11-04 14:50:05
      已確認(rèn)!是知名演員王祖藍(lán)

      已確認(rèn)!是知名演員王祖藍(lán)

      吉刻新聞
      2025-11-06 10:54:06
      劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      劉強(qiáng)東問蔡磊錢夠嗎?蔡哽咽:兒子才1歲!隨后劉的決定令蔡淚崩

      瑤卿文史
      2025-10-29 22:56:09
      通過放貸獲取大額回報(bào),遵義醫(yī)科大學(xué)原副校長(zhǎng)王達(dá)利被公訴

      通過放貸獲取大額回報(bào),遵義醫(yī)科大學(xué)原副校長(zhǎng)王達(dá)利被公訴

      正義網(wǎng)新聞
      2025-11-06 16:19:04
      云南省能源投資集團(tuán)副總裁張鐳接受審查調(diào)查

      云南省能源投資集團(tuán)副總裁張鐳接受審查調(diào)查

      界面新聞
      2025-11-06 17:00:26
      哪些弦外之音是你多年后才醒悟的?網(wǎng)友:好多都沒聽出來,沒眼力

      哪些弦外之音是你多年后才醒悟的?網(wǎng)友:好多都沒聽出來,沒眼力

      帶你感受人間冷暖
      2025-11-05 00:05:16
      連續(xù)8個(gè)漲停板!股民:真龍現(xiàn)身了!

      連續(xù)8個(gè)漲停板!股民:真龍現(xiàn)身了!

      數(shù)據(jù)挖掘分析
      2025-11-06 15:14:36
      A股:放量大漲,重返4000點(diǎn),釋放兩個(gè)信號(hào),股市將進(jìn)入尾聲了?

      A股:放量大漲,重返4000點(diǎn),釋放兩個(gè)信號(hào),股市將進(jìn)入尾聲了?

      丁丁鯉史紀(jì)
      2025-11-06 11:51:30
      叫板川普,馬姆達(dá)尼先帶紐約人體驗(yàn)委內(nèi)瑞拉“免費(fèi)”價(jià)格

      叫板川普,馬姆達(dá)尼先帶紐約人體驗(yàn)委內(nèi)瑞拉“免費(fèi)”價(jià)格

      移光幻影
      2025-11-06 08:10:33
      拾荒父親供兒子上大學(xué),兒子婚禮叫父親上臺(tái),岳父聽到竟直接跪下

      拾荒父親供兒子上大學(xué),兒子婚禮叫父親上臺(tái),岳父聽到竟直接跪下

      今天說故事
      2024-09-24 18:07:26
      東契奇35+13無緣今日最佳!米切爾46+8也落選,只因威少刷爆紀(jì)錄

      東契奇35+13無緣今日最佳!米切爾46+8也落選,只因威少刷爆紀(jì)錄

      你的籃球頻道
      2025-11-06 14:48:23
      競(jìng)爭(zhēng)對(duì)手爆發(fā)終結(jié)雷霆 楊瀚森開拓者生涯提前結(jié)束

      競(jìng)爭(zhēng)對(duì)手爆發(fā)終結(jié)雷霆 楊瀚森開拓者生涯提前結(jié)束

      體壇周報(bào)
      2025-11-06 14:46:33
      上海律師帶小三孕檢新后續(xù):空姐是10年白月光,婆婆態(tài)度讓人寒心

      上海律師帶小三孕檢新后續(xù):空姐是10年白月光,婆婆態(tài)度讓人寒心

      壹月情感
      2025-11-04 22:50:11
      不會(huì)吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      不會(huì)吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      糊咖娛樂
      2025-11-05 11:33:50
      又一位“電詐頭目”!阿努廷撤銷其泰籍凍結(jié)7000萬,騙子組織崩盤

      又一位“電詐頭目”!阿努廷撤銷其泰籍凍結(jié)7000萬,騙子組織崩盤

      素衣讀史
      2025-11-04 18:17:45
      2025-11-06 18:08:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      11636文章數(shù) 176326關(guān)注度
      往期回顧 全部

      科技要聞

      小鵬機(jī)器人里藏真人?何小鵬發(fā)一鏡到底視頻

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

      頭條要聞

      孫東旭離開東方甄選 曾因與董宇輝"小作文風(fēng)波"引爭(zhēng)議

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財(cái)經(jīng)要聞

      南銀法巴加速發(fā)展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發(fā)布了?

      態(tài)度原創(chuàng)

      手機(jī)
      教育
      旅游
      健康
      數(shù)碼

      手機(jī)要聞

      2025年第三季度,中國(guó)手機(jī)在印度遭遇了什么?

      教育要聞

      黔南:“石榴籽”抱緊,幸福路同行

      旅游要聞

      景色醉人真情暖心,山東多景區(qū)用心“寵客”換來“秋游熱”

      超聲探頭會(huì)加重受傷情況嗎?

      數(shù)碼要聞

      10億美元!新版Siri將融入谷歌Gemini大模型,明年上線

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产普通话对白刺激| 色老99久久九九爱精品| 国产成人午夜精品福利| 欧美国产激情18| 美欧日韩一区二区三区视频| 桃花岛亚洲成在人线AV| 老妇肥熟凸凹丰满刺激| 国产精品日韩中文字幕| 国产精品福利中文字幕| 欧美疯狂xxxxxbbbbb| 一区二区三区黄色一级片| 色爱综合激情五月激情| 无码人妻斩一区二区三区| 风流老熟女一区二区三区| 国产欲女高潮正在播放| 突泉县| 无码一区二区三区av在线播放| 最新AV中文字幕无码专区| 深夜精品免费在线观看| 日本免费一区二区三区日本| A级毛片无码久久精品免费| 国产精品污双胞胎在线观看| 国产色视频一区二区三区| 狠狠干| 国产女人18毛片水真多1| 亚洲综合视频一区二区三区| 日韩中文字幕v亚洲中文字幕| 国产二区三区不卡免费| 国产成人人综合亚洲欧美丁香花| 陆川县| 丝袜美腿亚洲综合在线观看视频| 亚洲欧美激情另类| 国产一区二区三区导航| 久久综合老鸭窝色综合久久| 少妇被多人c夜夜爽爽av| 一出一进一爽一粗一大视频| 蜜臀91精品国产高清在线| 99久久精品久久久久久婷婷| 高级艳妇交换俱乐部小说| 日韩精品视频一二三四区| 国产亚洲av手机在线观看|