<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      上海AI Lab混合擴散語言模型SDAR:突破6600 tgs開源擴散語言模型

      0
      分享至



      程爽,上海人工智能實驗室和浙江大學聯培博士生一年級;卞一涵,美國馬里蘭大學碩士生二年級,上海人工智能實驗室實習生;劉大衛,上海人工智能實驗室和上海交通大學聯培博士生一年級;齊弼卿,上海人工智能實驗室研究員(指導老師)

      大模型推理速度慢、成本高,已成為限制其廣泛應用的核心瓶頸。其根源在于自回歸(AR)模型「逐字生成」的串行模式。

      近日,上海人工智能實驗室針對該難題提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

      該方法通過「訓練-推理解耦」的巧妙設計,無縫融合了AR 模型的高性能與擴散模型的并行推理優勢,能以極低成本將任意AR 模型「改造」為并行解碼模型。



      • 論文標題:SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
      • 論文鏈接:https://arxiv.org/abs/2510.06303
      • 代碼地址:https://github.com/JetAstra/SDAR
      • 推理引擎:https://github.com/InternLM/lmdeploy
      • 模型地址:https://huggingface.co/collections/JetLM/sdar

      實驗證明,SDAR 不僅在多個基準上與原版AR 模型性能持平甚至超越,還能帶來數倍的真實推理加速。更令人驚喜的是,SDAR 在復雜的科學推理任務上展現出巨大潛力。在與采用相同配置訓練的 AR 基線模型進行公平對比時,SDAR 在 ChemBench 等基準上最高取得了12.3個百分點的性能優勢。

      在科學推理能力上,SDAR 實現了對 AR 基線模型的超越。與使用完全相同配置訓練的 AR 版本進行公平對比,SDAR-30B-A3B-Sci 模型在 ChemBench(化學)和 GPQA-diamond(谷歌研究員水平科學問答)兩大基準上,得分分別從 60.5 提升至 72.8 和從 61.2 提升至 66.7,取得了 12.3 和 5.5 個百分點的顯著優勢。這一結果有力地表明,其局部雙向注意力機制對于精準理解化學式等結構化知識至關重要。

      目前,該團隊已全面開源從1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。

      大模型推理的「速度困境」:

      自回歸與擴散模型的兩難抉擇

      GPT 系列模型問世以來,自回歸(Autoregressive, AR)范式便成為主流。它通過「從左到右、逐詞預測」的方式生成文本,完美契合了自然語言的順序結構,這也是AR 模型效果出眾的根本原因。 然而,這種嚴格的順序依賴,也帶來了兩大與生俱來的挑戰:

      • 推理速度瓶頸:生成下一詞元(token)必須等待前一詞元完成,完全串行的機制導致推理延遲高、服務成本居高不下,模型規模越大,問題越嚴峻。
      • 局部視野與不可逆生成的雙重缺陷:AR模型線性的生成路徑不僅帶來了局部視野局限,難以整體理解化學分子式等結構化知識;更致命的是它缺乏自我修正(Self-Correction)能力。每個詞元的生成都是一個不可逆的「最終決策」,一旦出錯便無法挽回,導致錯誤累積。這與擴散模型等范式形成了鮮明對比,后者理論上支持迭代優化和全局修正,這正是它們被視為攻克復雜推理任務的關鍵潛力所在,也是業界探索非自回歸路徑的核心驅動力。

      為打破僵局,研究者們將目光投向了潛力巨大的擴散模型(Diffusion Models)。其中的掩碼擴散語言模型(MDLM)將整個序列視為一個整體,通過「從模糊到清晰」的迭代去噪方式并行生成,理論上能一舉解決AR 模型的速度瓶頸。

      但實踐中,MDLM 面臨兩大難題:

      • 訓練效率低下:ELBO 優化目標相比標準NLL 收斂更慢,導致性能不佳。值得注意的是,該工作首次對二者的訓練效率進行了公平對比,實驗證實,在同等算力下,MDLM 與 AR 模型的性能存在顯著差距。
      • 推理成本高昂:由于缺乏類似AR 模型的 KV 緩存機制,MDLM 在推理時每一步都需要處理整個序列,導致計算復雜度高,實際部署依然昂貴。

      「混合模型」雖然嘗試結合二者,塊內并行、塊間自回歸,但其特殊的訓練目標函數依賴復雜的注意力掩碼,導致訓練開銷幾乎翻倍,令人望而卻步。

      另辟蹊徑:

      SDAR 如何通過「訓練-推理解耦」實現雙贏

      面對這一困境,上海AI 實驗室的研究團隊重新審視問題本質,提出了一個顛覆性的思路:為什么要在同一個階段解決所有問題?SDAR 范式的核心就是「解耦」(Decoupling):

      • 訓練階段:擁抱高效的 AR 范式。完全沿用成熟、穩定、高效的AR 模型進行預訓練。這確保了模型在一個強大的基礎上起步,擁有與頂尖AR 模型同等水平的知識和能力。
      • 推理階段:輕量級適配,解鎖并行解碼。在 AR 預訓練后,引入一個短暫且成本極低的「適配」階段,教會模型以「塊」為單位進行并行擴散式生成。

      這個過程,可以理解為:先培養出一位精通單字書法的大家(強大的AR 模型),然后只用極短時間教會他「連筆揮毫」(塊狀并行生成)的技巧。其原有的書法功底(模型性能)絲毫未損,但創作速度(推理效率)卻得到了質的飛躍。

      通過這種「訓練-適配」分離的設計,SDAR 完美保留了 AR 模型的全部優點——強大的性能、高效的優化、KV 緩存、可變長度生成等,同時精準地「嫁接」了擴散模型最核心的優勢——并行解碼帶來的推理加速。

      實驗見真章:

      性能、速度與成本的規模化驗證

      為了驗證SDAR 的實際效果,研究團隊進行了一系列嚴謹的實驗,旨在回答三個核心問題:SDAR 性能與同級AR 模型相比如何?并行加速效果如何?改造現有AR 模型的成本高嗎?

      關鍵發現:

      • 低成本適配,性能齊平甚至超越:任何主流AR 模型都能通過低成本適配轉為SDAR,并在下游任務中達到與原版AR 相當甚至更高的性能。
      • 模型越大,并行效率越高:更大的SDAR 模型能容忍更大的并行塊(block size),在不犧牲性能的前提下實現更高的加速比。
      • 精度驅動效率:在 SDAR 中,模型能力的提升(更自信的預測)會直接轉化為更快的解碼速度,形成「越強越快」的良性循環。

      性能不妥協:與 AR 基線全面對標

      研究人員基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通過「繼續預訓練 (CPT) + 指令微調 (SFT)」的兩階段流程,訓練出SDAR-Chat 系列模型,并與采用完全相同流程訓練的AR-Chat 基線進行全面對比。



      圖注:SDAR-Chat 和 AR-Chat 的嚴格比較

      如上表所示,SDAR 在規模化擴展時,性能與AR 模型同步增長。在30B 規模下,SDAR-Chat 在18 個基準中的 11 個上持平或超越了其AR 版本,證明了該范式的有效性與可擴展性。

      成本極低:高效的「即插即用」式適配

      與需要 580B token 進行從頭訓練的Dream 等工作相比,SDAR 僅用 50B token的開源數據進行繼續預訓練,就能達到與AR 基線相當的性能。這證明了「解耦」思想的正確性:強大的 AR 預訓練已為模型打下堅實基礎,后續的塊狀擴散適配僅是一個短暫的「對齊目標」過程。這意味著社區能以極低的成本,將任何開源AR 模型輕松轉換為高效的SDAR 模型

      加速顯著:真實部署中的效率飛躍

      該研究通過「有效每步生成 Token 數」(TPF)這一指標來衡量理論加速。TPF 為 1 即為標準AR 模型



      圖注:SDAR 理論加速比

      上圖揭示了SDAR 的縮放定律:

      • 塊越大,加速越明顯:TPF 與塊大小正相關。
      • 模型越大,加速越明顯:更強的模型預測更自信,能一次性并行生成更多 token,實現更高的 TPF,形成「能力與速度」的良性循環。

      在工業級推理引擎LMDeploy 上的實測結果更為直觀。在對延遲敏感的小批量場景下,SDAR-8B-chat 在單張H200 上實現了相較于AR 版本 2.3 倍的實際加速,峰值吞吐量高達 6599 token/s,為實時交互應用提供了巨大優勢。

      解鎖新潛能:

      當 SDAR 遇上頂尖科學難題

      除了效率提升,一個自然而然的問題是:SDAR 獨特的生成機制是否會影響其復雜的推理能力?為此,研究人員基于Qwen3-30B-A3B,專門打造了一款科學推理模型 SDAR-30B-A3B-Sci,并與嚴格對齊訓練流程的AR 版本進行對比,結果令人振奮。

      關鍵發現:

      • 長鏈推理能力完整保留:SDAR 適配過程能很好地保留AR 基座模型的長思維鏈(CoT)推理能力。
      • 局部雙向注意力優勢凸顯:SDAR 在需要理解局部結構化信息的任務(如化學)上表現出色。
      • 與測試時擴展策略協同增效:簡單的多輪采樣 + 投票就能帶來巨大性能提升,顯示出與RL 等技術結合的巨大潛力。

      結果令人驚喜:

      • 在科學領域全面超越 AR:在 GPQA-diamond(谷歌研究員水平的科學問答)和 ChemBench(化學)等基準上,SDAR-30B-A3B-Sci 的得分比其AR 版本分別高出 5.5 和 12.3 個百分點(72.8 vs. 60.5 和 66.7 vs. 61.2)!這證明其局部雙向注意力機制,對于理解化學式等結構化知識至關重要。
      • 測試時擴展潛力巨大:通過簡單的多輪采樣 + 多數投票(Majority Vote),SDAR 的性能得到進一步飛躍,在 AIME-2025(國際數學競賽)上提升 +19.3%,在 LMB-hard(高難度數學)上提升 +15.7%。這表明SDAR 的并行生成范式能產生更多樣化的推理路徑,與集成學習等策略形成了完美互補。



      圖注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比較



      圖注:測試時擴展實驗

      這些結果證明,SDAR 不僅是一個「加速器」,更是一個「增強器」,為解決復雜推理任務提供了一個性能與效率俱佳的新范式。

      總結與展望

      SDAR 為大模型領域提供了一個強大而靈活的新工具。該研究的核心貢獻可歸納為以下幾點:

      • 首次公平對比 AR 與 MDLM 訓練效率,用實驗證實了AR 范式在訓練上的巨大優勢。
      • 提出創新的 SDAR 范式,通過「訓練-推理」解耦,實現了AR 的高性能與擴散模型并行解碼的優勢結合。
      • 提供低成本的實用方案,可將任意AR 模型適配為SDAR,并驗證了其在不同模型、不同架構(Dense、MoE)上的普適性。
      • 系統性揭示縮放定律,分析了模型大小、塊大小、性能與速度間的關系,為未來研究提供了寶貴經驗。
      • 全面開源全系列成果,包括從1.7B 到 30BSDAR 模型、輕量級和生產級的推理引擎,以及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。

      SDAR 的出現,不僅能讓現有的大模型「飛」起來,降低應用門檻,也為探索更高性能、更高效的下一代AI 推理范式打開了一扇新的大門。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奉勸所有中國人,必須做好心理準備,俄羅斯外交部發言人說出事實

      奉勸所有中國人,必須做好心理準備,俄羅斯外交部發言人說出事實

      百態人間
      2025-11-06 05:15:03
      原來明星私底下聚會也是素顏出席呀

      原來明星私底下聚會也是素顏出席呀

      動物奇奇怪怪
      2025-11-06 12:14:15
      單場11記三分,勇士新水花兄弟!56號簽淘到寶+穆迪成庫里后第3人

      單場11記三分,勇士新水花兄弟!56號簽淘到寶+穆迪成庫里后第3人

      鍋子籃球
      2025-11-06 16:19:41
      無錫一大超市正式閉店 新超市入駐

      無錫一大超市正式閉店 新超市入駐

      無錫eTV全媒體
      2025-11-06 14:23:49
      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      蕭竹輕語
      2025-10-21 16:16:45
      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      10年湖北打工妹嫁英國高管,結婚8 年持刀捅死丈夫,如今下場唏噓

      銀河史記
      2025-11-04 20:17:37
      火箭大勝灰熊 沒有正經控衛 火箭如何成為全聯盟最強進攻效率球隊

      火箭大勝灰熊 沒有正經控衛 火箭如何成為全聯盟最強進攻效率球隊

      大話火箭隊
      2025-11-06 15:50:07
      出生不讓上學,每年砸60萬訓練只為當冠軍!“天才少女”怎樣了?

      出生不讓上學,每年砸60萬訓練只為當冠軍!“天才少女”怎樣了?

      陳天宇
      2025-11-06 01:00:42
      同學聚會每人出9800元,我沒去,隔天警察上門:昨夜你同學出事了

      同學聚會每人出9800元,我沒去,隔天警察上門:昨夜你同學出事了

      紅豆講堂
      2025-11-05 16:50:03
      凈利潤暴跌超70%!安徽前首富的百億夢碎,網友:老字號嗑不動了

      凈利潤暴跌超70%!安徽前首富的百億夢碎,網友:老字號嗑不動了

      品牌觀察官
      2025-11-05 19:33:12
      不到48小時,大陸同意鄭麗文請求!民進黨禍臺十年,是時候做了結

      不到48小時,大陸同意鄭麗文請求!民進黨禍臺十年,是時候做了結

      朗威游戲說
      2025-11-06 12:59:02
      火箭大勝!阿門28+10+7,賽后誰留意杜蘭特 阿杜直接走向球員通道

      火箭大勝!阿門28+10+7,賽后誰留意杜蘭特 阿杜直接走向球員通道

      擔酒
      2025-11-06 11:30:03
      曼聯新星迎機遇!6500萬先生缺席,18歲天才接班。

      曼聯新星迎機遇!6500萬先生缺席,18歲天才接班。

      奶蓋熊本熊
      2025-11-06 13:25:39
      A股:大家要做好心理預期,種種跡象表明,周五A股隨時會大變盤了

      A股:大家要做好心理預期,種種跡象表明,周五A股隨時會大變盤了

      財經大拿
      2025-11-06 13:35:16
      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      項鵬飛
      2025-11-05 20:53:35
      買鱸魚,聰明人從不只看大小!牢記這“3不選”,魚販不敢忽悠你

      買鱸魚,聰明人從不只看大小!牢記這“3不選”,魚販不敢忽悠你

      阿龍美食記
      2025-10-31 16:36:27
      滬指放量漲近1%收復4000點

      滬指放量漲近1%收復4000點

      每日經濟新聞
      2025-11-06 15:10:13
      英國首相斯塔默表示,已經與特朗普電話溝通過

      英國首相斯塔默表示,已經與特朗普電話溝通過

      老友科普
      2025-11-06 15:40:49
      錢學森去匯報工作,聶榮臻突然問:誰給學森同志配這么高檔的車?

      錢學森去匯報工作,聶榮臻突然問:誰給學森同志配這么高檔的車?

      Thurman在昆明
      2025-11-02 11:10:26
      事關供暖!北京5區已宣布點火調試時間

      事關供暖!北京5區已宣布點火調試時間

      新京報北京知道
      2025-11-06 13:34:29
      2025-11-06 16:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11662文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      醫院副院長被指出軌眼科主任 湖南衛健委:兩人被停職

      頭條要聞

      醫院副院長被指出軌眼科主任 湖南衛健委:兩人被停職

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      時尚
      游戲
      藝術
      旅游
      公開課

      中國色特別策劃 | 故宮技藝與古意新生

      CS2迎來重磅更新!“比過去更貼近真實”

      藝術要聞

      預定年度十佳!49歲的舒淇,殺瘋了

      旅游要聞

      通訊|大埃及博物館將成為埃及旅游業升級的“催化劑”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蜜桃av多人一区二区三区| 亚洲鸥美日韩精品久久| 一本久道久久综合狠狠躁av| 亚洲一级特黄大片在线播放| 国产人成亚洲第一网站在线播放| 亚洲欧洲精品一区二区| 国产精品自在自线免费观看| 青青草原国产AV福利网站| 亚洲一区在线成人av| 日韩人妖精品一区二区av| 国产在线98福利播放视频| av一区二区中文字幕| 日本公妇乱偷中文字幕| av中文字幕一区人妻| 久久道精品一区二区三区| 成人中文在线| 国产亚洲欧美精品久久久| 日韩人妻精品中文字幕专区| 撕开奶罩揉吮奶头高潮av| 俄罗斯美女真人性做爰| 色香欲天天影视综合网| 久久精品国产字幕高潮| 超清无码一区二区三区| 国产一精品一av一免费爽爽| 中文字幕人妻日韩精品| 18禁在线永久免费观看| 92自拍视频爽啪在线观看| 欧美人妻在线一区二区| 精品国产免费一区二区三区香蕉| 国产精品SM捆绑调教视频| 一区二区中文字幕av| 亚洲av产在线精品亚洲第一站| 亚洲成人av日韩在线| 亚洲老女人区一区二视频| 亚洲精品国产suv一区88| 五月婷之久久综合丝袜美腿| 国产成熟女人性满足视频| 国产精品美女久久久久久麻豆| 国产亚洲中文字幕久久网| 欧美成人午夜精品免费福利| 亚洲日本va午夜中文字幕久久 |