![]()
程爽,上海人工智能實驗室和浙江大學聯培博士生一年級;卞一涵,美國馬里蘭大學碩士生二年級,上海人工智能實驗室實習生;劉大衛,上海人工智能實驗室和上海交通大學聯培博士生一年級;齊弼卿,上海人工智能實驗室研究員(指導老師)
大模型推理速度慢、成本高,已成為限制其廣泛應用的核心瓶頸。其根源在于自回歸(AR)模型「逐字生成」的串行模式。
近日,上海人工智能實驗室針對該難題提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。
該方法通過「訓練-推理解耦」的巧妙設計,無縫融合了AR 模型的高性能與擴散模型的并行推理優勢,能以極低成本將任意AR 模型「改造」為并行解碼模型。
![]()
- 論文標題:SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
- 論文鏈接:https://arxiv.org/abs/2510.06303
- 代碼地址:https://github.com/JetAstra/SDAR
- 推理引擎:https://github.com/InternLM/lmdeploy
- 模型地址:https://huggingface.co/collections/JetLM/sdar
實驗證明,SDAR 不僅在多個基準上與原版AR 模型性能持平甚至超越,還能帶來數倍的真實推理加速。更令人驚喜的是,SDAR 在復雜的科學推理任務上展現出巨大潛力。在與采用相同配置訓練的 AR 基線模型進行公平對比時,SDAR 在 ChemBench 等基準上最高取得了12.3個百分點的性能優勢。
在科學推理能力上,SDAR 實現了對 AR 基線模型的超越。與使用完全相同配置訓練的 AR 版本進行公平對比,SDAR-30B-A3B-Sci 模型在 ChemBench(化學)和 GPQA-diamond(谷歌研究員水平科學問答)兩大基準上,得分分別從 60.5 提升至 72.8 和從 61.2 提升至 66.7,取得了 12.3 和 5.5 個百分點的顯著優勢。這一結果有力地表明,其局部雙向注意力機制對于精準理解化學式等結構化知識至關重要。
目前,該團隊已全面開源從1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。
大模型推理的「速度困境」:
自回歸與擴散模型的兩難抉擇
GPT 系列模型問世以來,自回歸(Autoregressive, AR)范式便成為主流。它通過「從左到右、逐詞預測」的方式生成文本,完美契合了自然語言的順序結構,這也是AR 模型效果出眾的根本原因。 然而,這種嚴格的順序依賴,也帶來了兩大與生俱來的挑戰:
- 推理速度瓶頸:生成下一詞元(token)必須等待前一詞元完成,完全串行的機制導致推理延遲高、服務成本居高不下,模型規模越大,問題越嚴峻。
- 局部視野與不可逆生成的雙重缺陷:AR模型線性的生成路徑不僅帶來了局部視野局限,難以整體理解化學分子式等結構化知識;更致命的是它缺乏自我修正(Self-Correction)能力。每個詞元的生成都是一個不可逆的「最終決策」,一旦出錯便無法挽回,導致錯誤累積。這與擴散模型等范式形成了鮮明對比,后者理論上支持迭代優化和全局修正,這正是它們被視為攻克復雜推理任務的關鍵潛力所在,也是業界探索非自回歸路徑的核心驅動力。
為打破僵局,研究者們將目光投向了潛力巨大的擴散模型(Diffusion Models)。其中的掩碼擴散語言模型(MDLM)將整個序列視為一個整體,通過「從模糊到清晰」的迭代去噪方式并行生成,理論上能一舉解決AR 模型的速度瓶頸。
但實踐中,MDLM 面臨兩大難題:
- 訓練效率低下:ELBO 優化目標相比標準NLL 收斂更慢,導致性能不佳。值得注意的是,該工作首次對二者的訓練效率進行了公平對比,實驗證實,在同等算力下,MDLM 與 AR 模型的性能存在顯著差距。
- 推理成本高昂:由于缺乏類似AR 模型的 KV 緩存機制,MDLM 在推理時每一步都需要處理整個序列,導致計算復雜度高,實際部署依然昂貴。
「混合模型」雖然嘗試結合二者,塊內并行、塊間自回歸,但其特殊的訓練目標函數依賴復雜的注意力掩碼,導致訓練開銷幾乎翻倍,令人望而卻步。
另辟蹊徑:
SDAR 如何通過「訓練-推理解耦」實現雙贏
面對這一困境,上海AI 實驗室的研究團隊重新審視問題本質,提出了一個顛覆性的思路:為什么要在同一個階段解決所有問題?SDAR 范式的核心就是「解耦」(Decoupling):
- 訓練階段:擁抱高效的 AR 范式。完全沿用成熟、穩定、高效的AR 模型進行預訓練。這確保了模型在一個強大的基礎上起步,擁有與頂尖AR 模型同等水平的知識和能力。
- 推理階段:輕量級適配,解鎖并行解碼。在 AR 預訓練后,引入一個短暫且成本極低的「適配」階段,教會模型以「塊」為單位進行并行擴散式生成。
這個過程,可以理解為:先培養出一位精通單字書法的大家(強大的AR 模型),然后只用極短時間教會他「連筆揮毫」(塊狀并行生成)的技巧。其原有的書法功底(模型性能)絲毫未損,但創作速度(推理效率)卻得到了質的飛躍。
通過這種「訓練-適配」分離的設計,SDAR 完美保留了 AR 模型的全部優點——強大的性能、高效的優化、KV 緩存、可變長度生成等,同時精準地「嫁接」了擴散模型最核心的優勢——并行解碼帶來的推理加速。
實驗見真章:
性能、速度與成本的規模化驗證
為了驗證SDAR 的實際效果,研究團隊進行了一系列嚴謹的實驗,旨在回答三個核心問題:SDAR 性能與同級AR 模型相比如何?并行加速效果如何?改造現有AR 模型的成本高嗎?
關鍵發現:
- 低成本適配,性能齊平甚至超越:任何主流AR 模型都能通過低成本適配轉為SDAR,并在下游任務中達到與原版AR 相當甚至更高的性能。
- 模型越大,并行效率越高:更大的SDAR 模型能容忍更大的并行塊(block size),在不犧牲性能的前提下實現更高的加速比。
- 精度驅動效率:在 SDAR 中,模型能力的提升(更自信的預測)會直接轉化為更快的解碼速度,形成「越強越快」的良性循環。
性能不妥協:與 AR 基線全面對標
研究人員基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通過「繼續預訓練 (CPT) + 指令微調 (SFT)」的兩階段流程,訓練出SDAR-Chat 系列模型,并與采用完全相同流程訓練的AR-Chat 基線進行全面對比。
![]()
圖注:SDAR-Chat 和 AR-Chat 的嚴格比較
如上表所示,SDAR 在規模化擴展時,性能與AR 模型同步增長。在30B 規模下,SDAR-Chat 在18 個基準中的 11 個上持平或超越了其AR 版本,證明了該范式的有效性與可擴展性。
成本極低:高效的「即插即用」式適配
與需要 580B token 進行從頭訓練的Dream 等工作相比,SDAR 僅用 50B token的開源數據進行繼續預訓練,就能達到與AR 基線相當的性能。這證明了「解耦」思想的正確性:強大的 AR 預訓練已為模型打下堅實基礎,后續的塊狀擴散適配僅是一個短暫的「對齊目標」過程。這意味著社區能以極低的成本,將任何開源AR 模型輕松轉換為高效的SDAR 模型
加速顯著:真實部署中的效率飛躍
該研究通過「有效每步生成 Token 數」(TPF)這一指標來衡量理論加速。TPF 為 1 即為標準AR 模型
![]()
圖注:SDAR 理論加速比
上圖揭示了SDAR 的縮放定律:
- 塊越大,加速越明顯:TPF 與塊大小正相關。
- 模型越大,加速越明顯:更強的模型預測更自信,能一次性并行生成更多 token,實現更高的 TPF,形成「能力與速度」的良性循環。
在工業級推理引擎LMDeploy 上的實測結果更為直觀。在對延遲敏感的小批量場景下,SDAR-8B-chat 在單張H200 上實現了相較于AR 版本 2.3 倍的實際加速,峰值吞吐量高達 6599 token/s,為實時交互應用提供了巨大優勢。
解鎖新潛能:
當 SDAR 遇上頂尖科學難題
除了效率提升,一個自然而然的問題是:SDAR 獨特的生成機制是否會影響其復雜的推理能力?為此,研究人員基于Qwen3-30B-A3B,專門打造了一款科學推理模型 SDAR-30B-A3B-Sci,并與嚴格對齊訓練流程的AR 版本進行對比,結果令人振奮。
關鍵發現:
- 長鏈推理能力完整保留:SDAR 適配過程能很好地保留AR 基座模型的長思維鏈(CoT)推理能力。
- 局部雙向注意力優勢凸顯:SDAR 在需要理解局部結構化信息的任務(如化學)上表現出色。
- 與測試時擴展策略協同增效:簡單的多輪采樣 + 投票就能帶來巨大性能提升,顯示出與RL 等技術結合的巨大潛力。
結果令人驚喜:
- 在科學領域全面超越 AR:在 GPQA-diamond(谷歌研究員水平的科學問答)和 ChemBench(化學)等基準上,SDAR-30B-A3B-Sci 的得分比其AR 版本分別高出 5.5 和 12.3 個百分點(72.8 vs. 60.5 和 66.7 vs. 61.2)!這證明其局部雙向注意力機制,對于理解化學式等結構化知識至關重要。
- 測試時擴展潛力巨大:通過簡單的多輪采樣 + 多數投票(Majority Vote),SDAR 的性能得到進一步飛躍,在 AIME-2025(國際數學競賽)上提升 +19.3%,在 LMB-hard(高難度數學)上提升 +15.7%。這表明SDAR 的并行生成范式能產生更多樣化的推理路徑,與集成學習等策略形成了完美互補。
![]()
圖注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比較
![]()
圖注:測試時擴展實驗
這些結果證明,SDAR 不僅是一個「加速器」,更是一個「增強器」,為解決復雜推理任務提供了一個性能與效率俱佳的新范式。
總結與展望
SDAR 為大模型領域提供了一個強大而靈活的新工具。該研究的核心貢獻可歸納為以下幾點:
- 首次公平對比 AR 與 MDLM 訓練效率,用實驗證實了AR 范式在訓練上的巨大優勢。
- 提出創新的 SDAR 范式,通過「訓練-推理」解耦,實現了AR 的高性能與擴散模型并行解碼的優勢結合。
- 提供低成本的實用方案,可將任意AR 模型適配為SDAR,并驗證了其在不同模型、不同架構(Dense、MoE)上的普適性。
- 系統性揭示縮放定律,分析了模型大小、塊大小、性能與速度間的關系,為未來研究提供了寶貴經驗。
- 全面開源全系列成果,包括從1.7B 到 30BSDAR 模型、輕量級和生產級的推理引擎,以及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。
SDAR 的出現,不僅能讓現有的大模型「飛」起來,降低應用門檻,也為探索更高性能、更高效的下一代AI 推理范式打開了一扇新的大門。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.