一文讀懂DeepSeek-V3.2核心技術(shù)DSA：API瘋狂降價性能不減的背后

2025-09-30 11:05:49　來源: AI寒武紀

江蘇舉報

分享至

DeepSeek 剛剛發(fā)布的實驗?zāi)Ｐ?DeepSeek V3.2 引入了自研的稀疏注意力機制DSA，雖然是一個小版本的更新，但API價格最高降幅高達75%，這簡直太殘暴了

據(jù)DS官方的公眾號發(fā)布，DeepSeek-V3.2-Exp 是一個實驗性的版本。是一個邁向新一代架構(gòu)的中間步驟，V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention，說明deepseek還在憋大招，而這個DSA是非常關(guān)鍵的，deepseek也在公眾號說了，作為一個實驗性的版本，DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評測集上得到了有效性驗證，但仍然需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試，以排除在某些場景下效果欠佳的可能，誠摯希望廣大用戶在對比測試中提供寶貴的反饋意見，反饋鏈接：

https://feedback.deepseek.com/dsa

DSA首次實現(xiàn)了細粒度稀疏注意力機制，在幾乎不影響模型輸出效果的前提下，實現(xiàn)了長文本訓(xùn)練和推理效率的大幅提升

那么DSA究竟是如何工作的？

DSA 的兩大核心組件

DSA 的設(shè)計思想是先篩選，后計算。它將復(fù)雜的注意力計算分解為兩個協(xié)同工作的核心組件：

1.閃電索引器 (Lightning Indexer)：一個輕量級的篩選器。它的任務(wù)是快速掃描整個上下文，為每個查詢（Query）找出最相關(guān)的少數(shù)關(guān)鍵信息（Key）。為了追求極致的速度，它使用了非常小的鍵緩存（每個 token 僅 128 維）

2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA)：一個重量級的計算器。它只對索引器篩選出的關(guān)鍵信息進行完整維度的注意力計算，從而避免了對海量無關(guān)信息的無效計算。它的鍵緩存更大（每個 token 512 維），以保證計算的精確性

DSA 的四步工作流程

DSA 的整個計算過程可以分解為以下四個步驟：

第一步：查詢與鍵的投影 (Query & Key Projection)

與標(biāo)準(zhǔn) Transformer 模型類似，輸入的隱藏狀態(tài)（hidden states）首先會被投影到查詢（Query）和鍵（Key）空間，并融入旋轉(zhuǎn)位置編碼（rotary embeddings）來保留位置信息

創(chuàng)新之處在于：DSA 在這一步還會從隱藏狀態(tài)中為每個注意力頭（per-head）額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分（logits），讓模型可以動態(tài)地為不同頭分配不同的重要性

第二步：索引器評分 (Indexer Scoring)

閃電索引器開始工作。它使用輕量級的鍵緩存，快速計算查詢（Q）與所有鍵（K）的點積得分（Q·K），并進行掩碼（mask）和縮放（scale）

隨后，它會用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號

為了最大化硬件效率，這個評分過程運行在 DeepSeek 自研的DeepGEMM上，該算子為英偉達的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化

第三步：Top-k 選擇 (Top-k Selection)

評分完成后，索引器會為每個查詢，從整個上下文的所有 token 中，選出得分最高的 2048個 token。這些被選中的 token 被認為是與當(dāng)前查詢最相關(guān)的部分

（一個特殊情況：如果上下文的總長度本身就小于或等于 2048，那么索引器會選中所有 token，此時 DSA 的行為等同于全注意力）

第四步：執(zhí)行稀疏 MLA (Sparse MLA)

最后，輪到重量級的稀疏多潛在注意力（MLA）登場。它會獲取第三步篩選出的 2048 個 token 的索引，然后調(diào)用高效的 FlashMLA 稀疏計算核（sparse kernel），只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計算

由于計算范圍被大幅縮小，它可以跳過所有不相關(guān)的上下文位置，從而極大地提升了計算速度和內(nèi)存效率

DSA 的設(shè)計精髓在于其完美的權(quán)衡：

精確性：通過 Top-k 篩選機制，確保了注意力計算集中在最相關(guān)的信息上，避免了在無用信息上分散注意力，從而保持了極高的精度

高速度：通過閃電索引器、專門優(yōu)化的稀疏計算核（FlashMLA）以及更小的緩存設(shè)計，極大地降低了計算復(fù)雜度和內(nèi)存占用，實現(xiàn)了閃電般的速度

正如網(wǎng)友@teortaxesTex所評論的：“AGI 將是稀疏的”。DeepSeek 的 DSA 機制，用一個微型的全注意力索引器作為導(dǎo)航，精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計算，這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機制上的不斷探索和果斷迭代，也展現(xiàn)了其強大的技術(shù)創(chuàng)新能力

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.