![]()
DeepSeek 剛剛發(fā)布的實驗?zāi)P?DeepSeek V3.2 引入了自研的稀疏注意力機制DSA,雖然是一個小版本的更新,但API價格最高降幅高達75%,這簡直太殘暴了
![]()
據(jù)DS官方的公眾號發(fā)布,DeepSeek-V3.2-Exp 是一個實驗性的版本。是一個邁向新一代架構(gòu)的中間步驟,V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention,說明deepseek還在憋大招,而這個DSA是非常關(guān)鍵的,deepseek也在公眾號說了,作為一個實驗性的版本,DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評測集上得到了有效性驗證,但仍然需要在用戶的真實使用場景中進行范圍更廣、規(guī)模更大的測試,以排除在某些場景下效果欠佳的可能,誠摯希望廣大用戶在對比測試中提供寶貴的反饋意見,反饋鏈接:
https://feedback.deepseek.com/dsa
DSA首次實現(xiàn)了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現(xiàn)了長文本訓(xùn)練和推理效率的大幅提升
那么DSA究竟是如何工作的?
DSA 的兩大核心組件
DSA 的設(shè)計思想是先篩選,后計算。它將復(fù)雜的注意力計算分解為兩個協(xié)同工作的核心組件:
![]()
1.閃電索引器 (Lightning Indexer):一個輕量級的篩選器。它的任務(wù)是快速掃描整個上下文,為每個查詢(Query)找出最相關(guān)的少數(shù)關(guān)鍵信息(Key)。為了追求極致的速度,它使用了非常小的鍵緩存(每個 token 僅 128 維)
2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA):一個重量級的計算器。它只對索引器篩選出的關(guān)鍵信息進行完整維度的注意力計算,從而避免了對海量無關(guān)信息的無效計算。它的鍵緩存更大(每個 token 512 維),以保證計算的精確性
DSA 的四步工作流程
DSA 的整個計算過程可以分解為以下四個步驟:
第一步:查詢與鍵的投影 (Query & Key Projection)
與標(biāo)準(zhǔn) Transformer 模型類似,輸入的隱藏狀態(tài)(hidden states)首先會被投影到查詢(Query)和鍵(Key)空間,并融入旋轉(zhuǎn)位置編碼(rotary embeddings)來保留位置信息
創(chuàng)新之處在于:DSA 在這一步還會從隱藏狀態(tài)中為每個注意力頭(per-head)額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分(logits),讓模型可以動態(tài)地為不同頭分配不同的重要性
![]()
第二步:索引器評分 (Indexer Scoring)
閃電索引器開始工作。它使用輕量級的鍵緩存,快速計算查詢(Q)與所有鍵(K)的點積得分(Q·K),并進行掩碼(mask)和縮放(scale)
隨后,它會用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號
為了最大化硬件效率,這個評分過程運行在 DeepSeek 自研的DeepGEMM上,該算子為英偉達的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化
![]()
第三步:Top-k 選擇 (Top-k Selection)
評分完成后,索引器會為每個查詢,從整個上下文的所有 token 中,選出得分最高的 2048個 token。這些被選中的 token 被認為是與當(dāng)前查詢最相關(guān)的部分
(一個特殊情況:如果上下文的總長度本身就小于或等于 2048,那么索引器會選中所有 token,此時 DSA 的行為等同于全注意力)
![]()
第四步:執(zhí)行稀疏 MLA (Sparse MLA)
最后,輪到重量級的稀疏多潛在注意力(MLA)登場。它會獲取第三步篩選出的 2048 個 token 的索引,然后調(diào)用高效的 FlashMLA 稀疏計算核(sparse kernel),只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計算
由于計算范圍被大幅縮小,它可以跳過所有不相關(guān)的上下文位置,從而極大地提升了計算速度和內(nèi)存效率
![]()
DSA 的設(shè)計精髓在于其完美的權(quán)衡:
精確性:通過 Top-k 篩選機制,確保了注意力計算集中在最相關(guān)的信息上,避免了在無用信息上分散注意力,從而保持了極高的精度
高速度:通過閃電索引器、專門優(yōu)化的稀疏計算核(FlashMLA)以及更小的緩存設(shè)計,極大地降低了計算復(fù)雜度和內(nèi)存占用,實現(xiàn)了閃電般的速度
正如 網(wǎng)友@teortaxesTex所評論的:“AGI 將是稀疏的”。DeepSeek 的 DSA 機制,用一個微型的全注意力索引器作為導(dǎo)航,精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計算,這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機制上的不斷探索和果斷迭代,也展現(xiàn)了其強大的技術(shù)創(chuàng)新能力
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.