<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      一文讀懂DeepSeek-V3.2核心技術(shù)DSA:API瘋狂降價性能不減的背后

      0
      分享至


      DeepSeek 剛剛發(fā)布的實驗?zāi)P?DeepSeek V3.2 引入了自研的稀疏注意力機制DSA,雖然是一個小版本的更新,但API價格最高降幅高達75%,這簡直太殘暴了


      據(jù)DS官方的公眾號發(fā)布,DeepSeek-V3.2-Exp 是一個實驗性的版本。是一個邁向新一代架構(gòu)的中間步驟,V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention,說明deepseek還在憋大招,而這個DSA是非常關(guān)鍵的,deepseek也在公眾號說了,作為一個實驗性的版本,DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評測集上得到了有效性驗證,但仍然需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試,以排除在某些場景下效果欠佳的可能,誠摯希望廣大用戶在對比測試中提供寶貴的反饋意見,反饋鏈接:

      https://feedback.deepseek.com/dsa

      DSA首次實現(xiàn)了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現(xiàn)了長文本訓(xùn)練和推理效率的大幅提升

      那么DSA究竟是如何工作的?

      DSA 的兩大核心組件

      DSA 的設(shè)計思想是先篩選,后計算。它將復(fù)雜的注意力計算分解為兩個協(xié)同工作的核心組件:


      1.閃電索引器 (Lightning Indexer):一個輕量級的篩選器。它的任務(wù)是快速掃描整個上下文,為每個查詢(Query)找出最相關(guān)的少數(shù)關(guān)鍵信息(Key)。為了追求極致的速度,它使用了非常小的鍵緩存(每個 token 僅 128 維)

      2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA):一個重量級的計算器。它只對索引器篩選出的關(guān)鍵信息進行完整維度的注意力計算,從而避免了對海量無關(guān)信息的無效計算。它的鍵緩存更大(每個 token 512 維),以保證計算的精確性

      DSA 的四步工作流程

      DSA 的整個計算過程可以分解為以下四個步驟:

      第一步:查詢與鍵的投影 (Query & Key Projection)

      與標(biāo)準(zhǔn) Transformer 模型類似,輸入的隱藏狀態(tài)(hidden states)首先會被投影到查詢(Query)和鍵(Key)空間,并融入旋轉(zhuǎn)位置編碼(rotary embeddings)來保留位置信息

      創(chuàng)新之處在于:DSA 在這一步還會從隱藏狀態(tài)中為每個注意力頭(per-head)額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分(logits),讓模型可以動態(tài)地為不同頭分配不同的重要性


      第二步:索引器評分 (Indexer Scoring)

      閃電索引器開始工作。它使用輕量級的鍵緩存,快速計算查詢(Q)與所有鍵(K)的點積得分(Q·K),并進行掩碼(mask)和縮放(scale)

      隨后,它會用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號

      為了最大化硬件效率,這個評分過程運行在 DeepSeek 自研的DeepGEMM上,該算子為英偉達的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化


      第三步:Top-k 選擇 (Top-k Selection)

      評分完成后,索引器會為每個查詢,從整個上下文的所有 token 中,選出得分最高的 2048個 token。這些被選中的 token 被認為是與當(dāng)前查詢最相關(guān)的部分

      (一個特殊情況:如果上下文的總長度本身就小于或等于 2048,那么索引器會選中所有 token,此時 DSA 的行為等同于全注意力)


      第四步:執(zhí)行稀疏 MLA (Sparse MLA)

      最后,輪到重量級的稀疏多潛在注意力(MLA)登場。它會獲取第三步篩選出的 2048 個 token 的索引,然后調(diào)用高效的 FlashMLA 稀疏計算核(sparse kernel),只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計算

      由于計算范圍被大幅縮小,它可以跳過所有不相關(guān)的上下文位置,從而極大地提升了計算速度和內(nèi)存效率


      DSA 的設(shè)計精髓在于其完美的權(quán)衡:

      精確性:通過 Top-k 篩選機制,確保了注意力計算集中在最相關(guān)的信息上,避免了在無用信息上分散注意力,從而保持了極高的精度

      高速度:通過閃電索引器、專門優(yōu)化的稀疏計算核(FlashMLA)以及更小的緩存設(shè)計,極大地降低了計算復(fù)雜度和內(nèi)存占用,實現(xiàn)了閃電般的速度

      正如 網(wǎng)友@teortaxesTex所評論的:“AGI 將是稀疏的”。DeepSeek 的 DSA 機制,用一個微型的全注意力索引器作為導(dǎo)航,精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計算,這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機制上的不斷探索和果斷迭代,也展現(xiàn)了其強大的技術(shù)創(chuàng)新能力

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      中國拒買漲價的巴西大豆,巴西第一時間報復(fù),對華展開反傾銷調(diào)查

      中國拒買漲價的巴西大豆,巴西第一時間報復(fù),對華展開反傾銷調(diào)查

      回京歷史夢
      2025-11-05 13:45:27
      第一次感受到維C“殺傷力”,2塊錢解決這么多麻煩事,簡直無敵了

      第一次感受到維C“殺傷力”,2塊錢解決這么多麻煩事,簡直無敵了

      Home范
      2025-09-30 13:30:13
      央視撤檔《愛情沒有神話》,編劇秦雯沉默不語,王家衛(wèi)又會如何回應(yīng)?

      央視撤檔《愛情沒有神話》,編劇秦雯沉默不語,王家衛(wèi)又會如何回應(yīng)?

      動物奇奇怪怪
      2025-11-05 18:01:16
      優(yōu)雅永不過時,黑皮褲YYDS!

      優(yōu)雅永不過時,黑皮褲YYDS!

      貴圈真亂
      2025-10-18 11:58:09
      王子奇拒吻戲,打了誰的臉?

      王子奇拒吻戲,打了誰的臉?

      孟一宜
      2025-11-05 15:30:38
      “北大也淪落到這地步了?”輔警擬聘用名單公示,名校扎堆太唏噓

      “北大也淪落到這地步了?”輔警擬聘用名單公示,名校扎堆太唏噓

      妍妍教育日記
      2025-11-05 20:17:44
      富豪一家被滅門金毛裝死幸存,兇手抓獲后,豈料金毛撲向現(xiàn)場協(xié)警

      富豪一家被滅門金毛裝死幸存,兇手抓獲后,豈料金毛撲向現(xiàn)場協(xié)警

      罪案洞察者
      2025-11-03 11:47:18
      北京世茂大廈七折拍賣易主,“藥王”揚子江藥業(yè)超22億接盤

      北京世茂大廈七折拍賣易主,“藥王”揚子江藥業(yè)超22億接盤

      新京報
      2025-11-05 21:53:20
      1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      1979年越南戰(zhàn)敗后,黎筍要求中國邊線北移100公里,楊得志:打!

      小影的娛樂
      2025-10-24 08:04:06
      WTA年終總決賽:2-1,阿尼西莫娃逆轉(zhuǎn)斯瓦泰克,贏生死戰(zhàn)壓哨出線

      WTA年終總決賽:2-1,阿尼西莫娃逆轉(zhuǎn)斯瓦泰克,贏生死戰(zhàn)壓哨出線

      越嶺尋蹤
      2025-11-06 02:47:14
      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      懸案解密檔案
      2025-11-03 10:32:45
      中國正在上演的詭異經(jīng)濟

      中國正在上演的詭異經(jīng)濟

      難得君
      2025-10-29 19:26:55
      5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠

      5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠

      呆哥聊球
      2025-11-05 16:47:59
      掃地出門!曝利物浦正式?jīng)Q定,放逐1億巨星!1.2億強援火速來投

      掃地出門!曝利物浦正式?jīng)Q定,放逐1億巨星!1.2億強援火速來投

      頭狼追球
      2025-11-05 15:58:19
      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      鶴羽說個事
      2025-10-25 11:44:53
      一連收購了SKP與星巴克中國的博裕資本是誰?

      一連收購了SKP與星巴克中國的博裕資本是誰?

      界面新聞
      2025-11-05 22:31:50
      王家衛(wèi)錄音門最大的受害者出現(xiàn)了!不是唐嫣,而是嫁小導(dǎo)演的金靖

      王家衛(wèi)錄音門最大的受害者出現(xiàn)了!不是唐嫣,而是嫁小導(dǎo)演的金靖

      木子愛娛樂大號
      2025-11-03 11:41:52
      “神仙租戶”退租時房內(nèi)锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      “神仙租戶”退租時房內(nèi)锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      極目新聞
      2025-11-05 16:08:13
      立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

      立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

      DrX說
      2025-11-03 14:13:43
      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      凡知
      2025-09-29 10:37:29
      2025-11-06 09:03:00
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領(lǐng)域
      960文章數(shù) 370關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      本地
      旅游
      數(shù)碼
      公開課
      軍事航空

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      旅游要聞

      黑龍江將開展冬季冰雪旅游“百日行動” 冰雪產(chǎn)業(yè)規(guī)模有望破萬億

      數(shù)碼要聞

      消息稱華為 WATCH Ultimate 2 手表明日露出,預(yù)估 6000~7000 元

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 精品无码久久久久国产电影| 亚洲最大av一区二区| 蜜臀精品一区二区三区四区| 亚洲av不卡电影在线网址最新| 1精品啪国产在线观看免费牛牛| 国产精品第一页一区二区| AV秘 无码一区二| 亚洲18禁一区二区三区| 国产精品制服丝袜第一页 | 护士的小嫩嫩好紧好爽| 久久久久免费看成人影片| 国产精品一区二区三区自拍| 依依成人精品视频在线观看| 亚洲中文字幕无码爆乳| 美欧日韩一区二区三区视频| 亚洲国产精品一区二区第一页| 国产一区二区在线影院| 国产99久久无码精品| 磐安县| 亚洲第一香蕉视频啪啪爽| 伊人狠狠色丁香婷婷综合| 在线视频中文字幕二区| 国产伦精品一区二区亚洲| 午夜福利日本一区二区无码| 国产丰满乱子伦午夜福利| 久久国产成人av蜜臀| 国产无吗一区二区三区在线欢 | 潍坊市| 99久久国产一区二区三区| 精品国产一区av天美传媒| 精品国产高清中文字幕| 色综合色狠狠天天综合网| 欧美成人h亚洲综合在线观看| 美女黄网站人色视频免费国产| 无码人妻精品丰满熟妇区| 91老熟女老人国产老太| 亚洲有无码中文网| brazzers欧美巨大| 国产精品日日摸夜夜添夜夜添2021| 四虎在线永久免费看精品| 国产一区二区视频啪啪视频|