<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      唯快不破:上海AI Lab 82頁綜述帶你感受LLM高效架構(gòu)的魅力

      0
      分享至



      作者:孫偉高上海人工智能實(shí)驗(yàn)室

      近年來,大語言模型(LLMs)展現(xiàn)出強(qiáng)大的語言理解與生成能力,推動(dòng)了文本生成、代碼生成、問答、翻譯等任務(wù)的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經(jīng)深刻改變了人機(jī)交互方式。LLMs 的邊界也不止于語言和簡(jiǎn)單問答。隨著多模態(tài)(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴(kuò)展到多模態(tài)理解、生成與復(fù)雜推理場(chǎng)景。

      但模型性能持續(xù)提升的背后,是模型尺寸、數(shù)據(jù)規(guī)模、RL 推理長(zhǎng)度的快速 Scaling,是算力和存儲(chǔ)資源的急劇消耗。大模型的訓(xùn)練與推理的成本居高不下,成為制約其廣泛落地和應(yīng)用的現(xiàn)實(shí)瓶頸。

      本文從 LLM 架構(gòu)角度出發(fā),帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構(gòu)。Transformer 的自注意力機(jī)制雖帶來了遠(yuǎn)距離建模的突破,卻因O(N2)的復(fù)雜度在長(zhǎng)序列任務(wù)中成本高昂。而在 RAG、智能體、長(zhǎng)鏈推理、多模態(tài)等新興場(chǎng)景下,長(zhǎng)序列需求愈發(fā)突出,進(jìn)一步放大了效率與性能之間的矛盾。同時(shí) Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規(guī)模放大后的訓(xùn)練和推理效率問題。

      近年來針對(duì) Transformer 架構(gòu)改進(jìn)的創(chuàng)新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進(jìn)行總結(jié)。



      圖 1:常見長(zhǎng)序列場(chǎng)景

      近期,上海 AI Lab聯(lián)合港科廣、澳門大學(xué)、中科院自動(dòng)化所、蘇州大學(xué)、瑞典 KTH、北大、港中文等多家機(jī)構(gòu),總結(jié) 440 余篇相關(guān)論文,深入探討了當(dāng)前LLM 高效結(jié)構(gòu)的最新進(jìn)展,形成這篇 82 頁的綜述論文:



      • 論文標(biāo)題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
      • 論文地址:
      • https://arxiv.org/pdf/2508.09834
      • 項(xiàng)目倉庫:
      • https://github.com/weigao266/Awesome-Efficient-Arch



      圖 2:大語言模型高效架構(gòu)概覽

      該綜述將目前 LLM 高效架構(gòu)總結(jié)分類為以下 7 類:

      • 線性序列建模:降低注意力訓(xùn)練和推理復(fù)雜度,無需 KV Cache 開銷。
      • 稀疏序列建模:通過稀疏化注意力矩陣,降低計(jì)算與顯存需求。
      • 高效全注意力:在保持完整注意力的前提下優(yōu)化內(nèi)存訪問與 KV 存儲(chǔ)。
      • 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計(jì)算成本。
      • 混合模型架構(gòu):結(jié)合線性/稀疏序列建模與全注意力,兼顧效率與性能。
      • 擴(kuò)散語言模型:利用非自回歸的擴(kuò)散模型進(jìn)行語言生成。
      • 其他模態(tài)應(yīng)用:將這些高效架構(gòu)應(yīng)用于視覺、語音、多模態(tài)模型。

      這些方向的探索不僅關(guān)乎 LLM 的未來效率,也關(guān)乎如何在算力受限的條件下,持續(xù)推動(dòng) AI 走向更強(qiáng)的智能的關(guān)鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:



      圖 3:綜述完整組織架構(gòu)

      線性序列建模

      線性序列建模是近年來研究相當(dāng)火熱的一個(gè)方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構(gòu)方向都引起過廣泛關(guān)注。我們將這類技術(shù)細(xì)分為以下幾個(gè)類別:

      • 線性注意力
      • 線性 RNN
      • 狀態(tài)空間模型
      • 測(cè)試時(shí)推理 RNN

      并且正如在多篇文獻(xiàn)里已經(jīng)提出的,這些線性序列建模方法可以概括為統(tǒng)一建模的數(shù)學(xué)形式,并且能夠通過線性化過程將預(yù)訓(xùn)練模型權(quán)重的 Softmax Attention 架構(gòu)轉(zhuǎn)為 Linear Sequence Modeling 架構(gòu),從而獲得模型效率的大幅提升,如下圖所示。



      圖 4:線性序列建模方法

      我們將已有的線性序列建模方法從記憶視角和優(yōu)化器視角分別進(jìn)行梳理和對(duì)比,詳細(xì)形式可見下表:



      表 1:線性序列建模方法統(tǒng)一建模的 Memory 視角和 Optimizer 視角

      其中線性化技術(shù)可以進(jìn)一步細(xì)分為基于微調(diào)的線性化,和基于蒸餾的線性化,如下圖所示:



      圖 5:線性化方法

      綜述還進(jìn)一步總結(jié)歸納了目前在線性序列建模領(lǐng)域常見的硬件高效實(shí)現(xiàn)方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:



      圖 6:線性序列建模方法的硬件高效實(shí)現(xiàn)

      稀疏序列建模

      稀疏序列建模是另一類有代表性的高效注意力機(jī)制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計(jì)算,這類方法可以進(jìn)一步細(xì)分為:

      • 靜態(tài)稀疏注意力
      • 動(dòng)態(tài)稀疏注意力
      • 免訓(xùn)練稀疏注意力

      代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:



      圖 7:稀疏注意力的幾種經(jīng)典形式

      高效全注意力

      另一類高效注意力算法可以統(tǒng)一歸納為高效全注意力,這類方法可以根據(jù)算法思路進(jìn)一步細(xì)分為如下幾類:

      • IO-Aware Attention
      • Grouped Attention
      • Mixture of Attention
      • Quantized Attention

      其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。



      圖 8:Grouped Attention 的幾種代表性方法

      稀疏混合專家

      稀疏混合專家是對(duì) Transformer 架構(gòu)中另一個(gè)重要模塊 FFN 做的一類重要改進(jìn),已經(jīng)逐漸成為(語言和多模態(tài))大模型架構(gòu)的事實(shí)標(biāo)準(zhǔn)。綜述中將相關(guān)文獻(xiàn)按以下三個(gè)方向進(jìn)行分類:

      • Routing Mechanisms
      • Expert Architectures
      • MoE Conversion

      路由機(jī)制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:



      圖 9:MoE 路由機(jī)制

      專家結(jié)構(gòu)的創(chuàng)新工作包括:共享專家、細(xì)粒度專家、零專家、深度路由等,其作用和原理可見下圖:



      圖 10:MoE 專家架構(gòu)

      另外一個(gè)重要的方向是 MoE 轉(zhuǎn)換,已有的工作包括通過 Split、Copy、Merge 等手段對(duì)專家進(jìn)行構(gòu)造,如下圖所示:



      圖 11:MoE 轉(zhuǎn)化機(jī)制

      混合架構(gòu)

      混合架構(gòu)是近年來出現(xiàn)的一種實(shí)用的新型架構(gòu),可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點(diǎn)。具體可細(xì)分為:

      • 層間混合
      • 層內(nèi)混合



      圖 12:混合架構(gòu)形式

      擴(kuò)散大語言模型

      擴(kuò)散大語言模型是近期出現(xiàn)的一個(gè)熱門方向,創(chuàng)新性地將擴(kuò)散模型從視覺生成任務(wù)遷移至語言任務(wù),從而在語言生成速度上取得大幅進(jìn)步。相關(guān)工作可以細(xì)分為:

      • Non-Autoregressive Diffusion LLM
      • Bridging Diffusion LLM and Autoregressive
      • Extending Diffusion LLM to Multimodality



      圖 13:擴(kuò)散大語言模型機(jī)制

      應(yīng)用至其他模態(tài)

      最后一個(gè)重要的部分是高效架構(gòu)在其他模態(tài)上的應(yīng)用,涵蓋視覺、音頻和多模態(tài)。以 Mamba 為代表的線性模型被廣泛應(yīng)用至多種模態(tài)任務(wù)上,并取得了優(yōu)秀的表現(xiàn),綜述將這類模型總結(jié)梳理至如下表格:



      寄語

      最后正如帝國時(shí)代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構(gòu)建,更快更便宜地訓(xùn)練出更強(qiáng)更實(shí)用的大模型。請(qǐng)記住這條神奇代碼:「Speed Always Wins」

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      年羹堯,一個(gè)被歷史低估的人物,他究竟有多殘暴你可知道?

      年羹堯,一個(gè)被歷史低估的人物,他究竟有多殘暴你可知道?

      小豫講故事
      2025-11-06 06:00:03
      特斯拉在德國銷量“腰斬”:10月僅賣出750輛,比亞迪卻狂漲9倍

      特斯拉在德國銷量“腰斬”:10月僅賣出750輛,比亞迪卻狂漲9倍

      IT之家
      2025-11-05 21:34:10
      斯諾克賽程:趙心童PK塞爾比,半決賽或迎中國德比,7冠王戰(zhàn)黑馬

      斯諾克賽程:趙心童PK塞爾比,半決賽或迎中國德比,7冠王戰(zhàn)黑馬

      劉姚堯的文字城堡
      2025-11-06 08:03:26
      最高院:這種屬于濫用訴權(quán),法院可以不立案還要賠償對(duì)方律師費(fèi)!

      最高院:這種屬于濫用訴權(quán),法院可以不立案還要賠償對(duì)方律師費(fèi)!

      周軍律師聊案子
      2025-11-06 09:50:06
      一則利好,萬億巨頭大漲

      一則利好,萬億巨頭大漲

      中國基金報(bào)
      2025-11-06 10:10:57
      不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰給的底氣

      不顧央視警告頂風(fēng)作案,與劉濤傳出緋聞的楊爍,究竟是誰給的底氣

      芳芳?xì)v史燴
      2025-09-24 20:13:19
      從此,請(qǐng)叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      從此,請(qǐng)叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      封面新聞
      2025-11-05 16:29:05
      直接繞開EUV光刻機(jī)?ASML也始料未及,人民日?qǐng)?bào):拋棄幻想吧

      直接繞開EUV光刻機(jī)?ASML也始料未及,人民日?qǐng)?bào):拋棄幻想吧

      Thurman在昆明
      2025-11-06 05:15:23
      美國幫腔:明年中方辦APEC,臺(tái)灣得“平等”參與

      美國幫腔:明年中方辦APEC,臺(tái)灣得“平等”參與

      觀察者網(wǎng)
      2025-11-06 10:09:15
      貝爾:維尼修斯和姆巴佩令人失望,他們把進(jìn)攻變得復(fù)雜化了

      貝爾:維尼修斯和姆巴佩令人失望,他們把進(jìn)攻變得復(fù)雜化了

      懂球帝
      2025-11-05 12:25:13
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個(gè)月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個(gè)月前就真相大白

      書雁飛史oh
      2025-11-05 17:17:23
      年過60歲要遠(yuǎn)離喝茶?醫(yī)生坦言:不想抬進(jìn)醫(yī)院,4種茶類避免飲用

      年過60歲要遠(yuǎn)離喝茶?醫(yī)生坦言:不想抬進(jìn)醫(yī)院,4種茶類避免飲用

      小舟談歷史
      2025-10-16 09:27:39
      解析張靈甫殺妻案真相:既非出軌,亦非“通共”,真正原因是這個(gè)

      解析張靈甫殺妻案真相:既非出軌,亦非“通共”,真正原因是這個(gè)

      阿胡
      2025-11-01 12:20:33
      真漢子!他在戰(zhàn)斗最激烈的前線呆了一整天,他給一個(gè)女兵下跪!

      真漢子!他在戰(zhàn)斗最激烈的前線呆了一整天,他給一個(gè)女兵下跪!

      深度報(bào)
      2025-11-05 22:28:33
      黃曉明狀態(tài)有點(diǎn)不大對(duì)勁,跟楊冪上臺(tái)領(lǐng)獎(jiǎng),一個(gè)行為引起爭(zhēng)議

      黃曉明狀態(tài)有點(diǎn)不大對(duì)勁,跟楊冪上臺(tái)領(lǐng)獎(jiǎng),一個(gè)行為引起爭(zhēng)議

      冷紫葉
      2025-11-05 20:48:14
      全國人大常委會(huì)法工委副主任孫鎮(zhèn)平調(diào)任最高人民法院政治部主任

      全國人大常委會(huì)法工委副主任孫鎮(zhèn)平調(diào)任最高人民法院政治部主任

      澎湃新聞
      2025-11-05 16:08:27
      統(tǒng)一信號(hào)如此強(qiáng)烈!推進(jìn)速度越來越快,已有數(shù)十萬人更換身份證!

      統(tǒng)一信號(hào)如此強(qiáng)烈!推進(jìn)速度越來越快,已有數(shù)十萬人更換身份證!

      李博世財(cái)經(jīng)
      2025-11-05 09:56:07
      臺(tái)灣回歸還有一種新方案,國民黨若同意,解放軍或無需動(dòng)武

      臺(tái)灣回歸還有一種新方案,國民黨若同意,解放軍或無需動(dòng)武

      瞻史
      2025-10-31 02:20:52
      美國肯塔基州貨機(jī)墜毀遇難人數(shù)升至12人

      美國肯塔基州貨機(jī)墜毀遇難人數(shù)升至12人

      極目新聞
      2025-11-06 08:34:58
      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,正當(dāng)季別錯(cuò)過!

      這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,正當(dāng)季別錯(cuò)過!

      江江食研社
      2025-11-05 08:30:07
      2025-11-06 11:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認(rèn)輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      美最高法院就關(guān)稅政策合法性展開辯論 美財(cái)長(zhǎng)罕見出席

      頭條要聞

      美最高法院就關(guān)稅政策合法性展開辯論 美財(cái)長(zhǎng)罕見出席

      體育要聞

      贏下皇馬,會(huì)是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      白百何好友揭露爭(zhēng)獎(jiǎng)細(xì)節(jié)

      財(cái)經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      教育
      游戲
      房產(chǎn)

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      數(shù)碼要聞

      小米通話12月3日停止服務(wù):用戶數(shù)據(jù)將被徹底清除

      教育要聞

      這是大材小用嗎?北大畢業(yè)生考取并入職輔警

      經(jīng)典地下城RPG《冬宮原》2026年4月登陸Switch

      房產(chǎn)要聞

      江東,給你留「門」兒了!

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产午夜福利av在线麻豆| 亚洲高清成人av在线| 国产又色又爽又黄的| 国产午夜亚洲精品国产成人| 97国产成人无码精品久久久| 亚洲日韩久热中文字幕| 欧美亚洲另类自拍偷在线拍| 草裙社区精品视频播放| 国产三级精品三级在专区| 九九热在线精品视频观看| 日韩中文字幕亚洲精品| 亚洲色大成网站www永久男同| 天天躁日日躁狠狠躁中文字幕| 精品少妇后入一区二区三区| 五月婷婷深开心五月天| 读书| 99久久精品国产亚洲精品| 亚洲高潮喷水无码AV电影| 国产女同一区二区在线| 国内精品久久久久电影院 | 国产最新精品系列第三页| 一本色道国产在线观看二区| 无码国内精品人妻少妇| 伊人色综合一区二区三区| 国产精品亚洲av三区色| 黑人玩弄人妻中文在线| 91密桃精品国产91久久| 老司机午夜福利视频| 免费无码高H视频在线观看| 精品国产成人亚洲午夜福利| 精品福利一区二区三区免费视频| 国产亚洲综合另类色专区| 国产精品视频一区不卡| 99re6在线视频精品免费下载 | 欧美成人午夜精品免费福利| 日韩在线成年视频人网站观看| 久久国产精品日本波多野结衣| 性色av一区二区三区精品| 久久精品国产清自在天天线| 亚洲国产av无码精品无广告| 无码视频一区二区三区|