<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      上海AI Lab混合擴散語言模型SDAR:突破6600 tgs開源擴散語言模型

      0
      分享至



      程爽,上海人工智能實驗室和浙江大學聯培博士生一年級;卞一涵,美國馬里蘭大學碩士生二年級,上海人工智能實驗室實習生;劉大衛,上海人工智能實驗室和上海交通大學聯培博士生一年級;齊弼卿,上海人工智能實驗室研究員(指導老師)

      大模型推理速度慢、成本高,已成為限制其廣泛應用的核心瓶頸。其根源在于自回歸(AR)模型「逐字生成」的串行模式。

      近日,上海人工智能實驗室針對該難題提出全新范式 SDAR (Synergistic Diffusion-AutoRegression)。

      該方法通過「訓練-推理解耦」的巧妙設計,無縫融合了AR 模型的高性能與擴散模型的并行推理優勢,能以極低成本將任意AR 模型「改造」為并行解碼模型。



      • 論文標題:SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation
      • 論文鏈接:https://arxiv.org/abs/2510.06303
      • 代碼地址:https://github.com/JetAstra/SDAR
      • 推理引擎:https://github.com/InternLM/lmdeploy
      • 模型地址:https://huggingface.co/collections/JetLM/sdar

      實驗證明,SDAR 不僅在多個基準上與原版AR 模型性能持平甚至超越,還能帶來數倍的真實推理加速。更令人驚喜的是,SDAR 在復雜的科學推理任務上展現出巨大潛力。在與采用相同配置訓練的 AR 基線模型進行公平對比時,SDAR 在 ChemBench 等基準上最高取得了12.3個百分點的性能優勢。

      在科學推理能力上,SDAR 實現了對 AR 基線模型的超越。與使用完全相同配置訓練的 AR 版本進行公平對比,SDAR-30B-A3B-Sci 模型在 ChemBench(化學)和 GPQA-diamond(谷歌研究員水平科學問答)兩大基準上,得分分別從 60.5 提升至 72.8 和從 61.2 提升至 66.7,取得了 12.3 和 5.5 個百分點的顯著優勢。這一結果有力地表明,其局部雙向注意力機制對于精準理解化學式等結構化知識至關重要。

      目前,該團隊已全面開源從1.7B 到 30B的全系列SDAR 模型、高效推理引擎及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。

      大模型推理的「速度困境」:

      自回歸與擴散模型的兩難抉擇

      GPT 系列模型問世以來,自回歸(Autoregressive, AR)范式便成為主流。它通過「從左到右、逐詞預測」的方式生成文本,完美契合了自然語言的順序結構,這也是AR 模型效果出眾的根本原因。 然而,這種嚴格的順序依賴,也帶來了兩大與生俱來的挑戰:

      • 推理速度瓶頸:生成下一詞元(token)必須等待前一詞元完成,完全串行的機制導致推理延遲高、服務成本居高不下,模型規模越大,問題越嚴峻。
      • 局部視野與不可逆生成的雙重缺陷:AR模型線性的生成路徑不僅帶來了局部視野局限,難以整體理解化學分子式等結構化知識;更致命的是它缺乏自我修正(Self-Correction)能力。每個詞元的生成都是一個不可逆的「最終決策」,一旦出錯便無法挽回,導致錯誤累積。這與擴散模型等范式形成了鮮明對比,后者理論上支持迭代優化和全局修正,這正是它們被視為攻克復雜推理任務的關鍵潛力所在,也是業界探索非自回歸路徑的核心驅動力。

      為打破僵局,研究者們將目光投向了潛力巨大的擴散模型(Diffusion Models)。其中的掩碼擴散語言模型(MDLM)將整個序列視為一個整體,通過「從模糊到清晰」的迭代去噪方式并行生成,理論上能一舉解決AR 模型的速度瓶頸。

      但實踐中,MDLM 面臨兩大難題:

      • 訓練效率低下:ELBO 優化目標相比標準NLL 收斂更慢,導致性能不佳。值得注意的是,該工作首次對二者的訓練效率進行了公平對比,實驗證實,在同等算力下,MDLM 與 AR 模型的性能存在顯著差距。
      • 推理成本高昂:由于缺乏類似AR 模型的 KV 緩存機制,MDLM 在推理時每一步都需要處理整個序列,導致計算復雜度高,實際部署依然昂貴。

      「混合模型」雖然嘗試結合二者,塊內并行、塊間自回歸,但其特殊的訓練目標函數依賴復雜的注意力掩碼,導致訓練開銷幾乎翻倍,令人望而卻步。

      另辟蹊徑:

      SDAR 如何通過「訓練-推理解耦」實現雙贏

      面對這一困境,上海AI 實驗室的研究團隊重新審視問題本質,提出了一個顛覆性的思路:為什么要在同一個階段解決所有問題?SDAR 范式的核心就是「解耦」(Decoupling):

      • 訓練階段:擁抱高效的 AR 范式。完全沿用成熟、穩定、高效的AR 模型進行預訓練。這確保了模型在一個強大的基礎上起步,擁有與頂尖AR 模型同等水平的知識和能力。
      • 推理階段:輕量級適配,解鎖并行解碼。在 AR 預訓練后,引入一個短暫且成本極低的「適配」階段,教會模型以「塊」為單位進行并行擴散式生成。

      這個過程,可以理解為:先培養出一位精通單字書法的大家(強大的AR 模型),然后只用極短時間教會他「連筆揮毫」(塊狀并行生成)的技巧。其原有的書法功底(模型性能)絲毫未損,但創作速度(推理效率)卻得到了質的飛躍。

      通過這種「訓練-適配」分離的設計,SDAR 完美保留了 AR 模型的全部優點——強大的性能、高效的優化、KV 緩存、可變長度生成等,同時精準地「嫁接」了擴散模型最核心的優勢——并行解碼帶來的推理加速。

      實驗見真章:

      性能、速度與成本的規模化驗證

      為了驗證SDAR 的實際效果,研究團隊進行了一系列嚴謹的實驗,旨在回答三個核心問題:SDAR 性能與同級AR 模型相比如何?并行加速效果如何?改造現有AR 模型的成本高嗎?

      關鍵發現:

      • 低成本適配,性能齊平甚至超越:任何主流AR 模型都能通過低成本適配轉為SDAR,并在下游任務中達到與原版AR 相當甚至更高的性能。
      • 模型越大,并行效率越高:更大的SDAR 模型能容忍更大的并行塊(block size),在不犧牲性能的前提下實現更高的加速比。
      • 精度驅動效率:在 SDAR 中,模型能力的提升(更自信的預測)會直接轉化為更快的解碼速度,形成「越強越快」的良性循環。

      性能不妥協:與 AR 基線全面對標

      研究人員基于Qwen3 系列1.7B、4B、8B-dense 和 30B-A3B MoE 模型,通過「繼續預訓練 (CPT) + 指令微調 (SFT)」的兩階段流程,訓練出SDAR-Chat 系列模型,并與采用完全相同流程訓練的AR-Chat 基線進行全面對比。



      圖注:SDAR-Chat 和 AR-Chat 的嚴格比較

      如上表所示,SDAR 在規模化擴展時,性能與AR 模型同步增長。在30B 規模下,SDAR-Chat 在18 個基準中的 11 個上持平或超越了其AR 版本,證明了該范式的有效性與可擴展性。

      成本極低:高效的「即插即用」式適配

      與需要 580B token 進行從頭訓練的Dream 等工作相比,SDAR 僅用 50B token的開源數據進行繼續預訓練,就能達到與AR 基線相當的性能。這證明了「解耦」思想的正確性:強大的 AR 預訓練已為模型打下堅實基礎,后續的塊狀擴散適配僅是一個短暫的「對齊目標」過程。這意味著社區能以極低的成本,將任何開源AR 模型輕松轉換為高效的SDAR 模型

      加速顯著:真實部署中的效率飛躍

      該研究通過「有效每步生成 Token 數」(TPF)這一指標來衡量理論加速。TPF 為 1 即為標準AR 模型



      圖注:SDAR 理論加速比

      上圖揭示了SDAR 的縮放定律:

      • 塊越大,加速越明顯:TPF 與塊大小正相關。
      • 模型越大,加速越明顯:更強的模型預測更自信,能一次性并行生成更多 token,實現更高的 TPF,形成「能力與速度」的良性循環。

      在工業級推理引擎LMDeploy 上的實測結果更為直觀。在對延遲敏感的小批量場景下,SDAR-8B-chat 在單張H200 上實現了相較于AR 版本 2.3 倍的實際加速,峰值吞吐量高達 6599 token/s,為實時交互應用提供了巨大優勢。

      解鎖新潛能:

      當 SDAR 遇上頂尖科學難題

      除了效率提升,一個自然而然的問題是:SDAR 獨特的生成機制是否會影響其復雜的推理能力?為此,研究人員基于Qwen3-30B-A3B,專門打造了一款科學推理模型 SDAR-30B-A3B-Sci,并與嚴格對齊訓練流程的AR 版本進行對比,結果令人振奮。

      關鍵發現:

      • 長鏈推理能力完整保留:SDAR 適配過程能很好地保留AR 基座模型的長思維鏈(CoT)推理能力。
      • 局部雙向注意力優勢凸顯:SDAR 在需要理解局部結構化信息的任務(如化學)上表現出色。
      • 與測試時擴展策略協同增效:簡單的多輪采樣 + 投票就能帶來巨大性能提升,顯示出與RL 等技術結合的巨大潛力。

      結果令人驚喜:

      • 在科學領域全面超越 AR:在 GPQA-diamond(谷歌研究員水平的科學問答)和 ChemBench(化學)等基準上,SDAR-30B-A3B-Sci 的得分比其AR 版本分別高出 5.5 和 12.3 個百分點(72.8 vs. 60.5 和 66.7 vs. 61.2)!這證明其局部雙向注意力機制,對于理解化學式等結構化知識至關重要。
      • 測試時擴展潛力巨大:通過簡單的多輪采樣 + 多數投票(Majority Vote),SDAR 的性能得到進一步飛躍,在 AIME-2025(國際數學競賽)上提升 +19.3%,在 LMB-hard(高難度數學)上提升 +15.7%。這表明SDAR 的并行生成范式能產生更多樣化的推理路徑,與集成學習等策略形成了完美互補。



      圖注:AR-30B-A3B-Sci and SDAR-30B-A3B-Sci 性能比較



      圖注:測試時擴展實驗

      這些結果證明,SDAR 不僅是一個「加速器」,更是一個「增強器」,為解決復雜推理任務提供了一個性能與效率俱佳的新范式。

      總結與展望

      SDAR 為大模型領域提供了一個強大而靈活的新工具。該研究的核心貢獻可歸納為以下幾點:

      • 首次公平對比 AR 與 MDLM 訓練效率,用實驗證實了AR 范式在訓練上的巨大優勢。
      • 提出創新的 SDAR 范式,通過「訓練-推理」解耦,實現了AR 的高性能與擴散模型并行解碼的優勢結合。
      • 提供低成本的實用方案,可將任意AR 模型適配為SDAR,并驗證了其在不同模型、不同架構(Dense、MoE)上的普適性。
      • 系統性揭示縮放定律,分析了模型大小、塊大小、性能與速度間的關系,為未來研究提供了寶貴經驗。
      • 全面開源全系列成果,包括從1.7B 到 30BSDAR 模型、輕量級和生產級的推理引擎,以及迄今最強的開源擴散類推理模型 SDAR-30B-A3B-Sci。

      SDAR 的出現,不僅能讓現有的大模型「飛」起來,降低應用門檻,也為探索更高性能、更高效的下一代AI 推理范式打開了一扇新的大門。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      山姆APP已將商品頭圖改為實拍圖

      山姆APP已將商品頭圖改為實拍圖

      大象新聞
      2025-11-04 18:48:02
      就在今天!11月6日凌晨,跳水傳來全紅嬋、張家齊、王偉瑩新消息

      就在今天!11月6日凌晨,跳水傳來全紅嬋、張家齊、王偉瑩新消息

      皮皮觀天下
      2025-11-06 05:02:43
      演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

      演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

      調侃國際觀點
      2025-10-17 20:58:13
      萊巴金娜2-0擊敗替補亞歷山德洛娃,三戰全勝晉級年終四強

      萊巴金娜2-0擊敗替補亞歷山德洛娃,三戰全勝晉級年終四強

      懂球帝
      2025-11-06 00:36:03
      朝鮮為他舉行國葬,曾任國家元首逾20年

      朝鮮為他舉行國葬,曾任國家元首逾20年

      中國新聞周刊
      2025-11-04 20:52:03
      女網世界第2蒙羞:1-2輸世界第4+2連敗出局 連續2年無緣總決賽4強

      女網世界第2蒙羞:1-2輸世界第4+2連敗出局 連續2年無緣總決賽4強

      風過鄉
      2025-11-06 06:48:00
      時隔8個月再履新,白鵬英就任內蒙古鄂倫春自治旗代理旗長

      時隔8個月再履新,白鵬英就任內蒙古鄂倫春自治旗代理旗長

      澎湃新聞
      2025-11-05 19:58:26
      人類“最慘”的一年是哪一年?公元536年稱第二,沒人敢稱第一!

      人類“最慘”的一年是哪一年?公元536年稱第二,沒人敢稱第一!

      輝輝歷史記
      2025-11-05 08:51:15
      兩家冷卻液供應商回應理想MEGA召回事件

      兩家冷卻液供應商回應理想MEGA召回事件

      中國能源網
      2025-11-04 12:54:07
      西媒:亞馬爾父親疑似訂婚 女方僅比亞馬爾大5歲

      西媒:亞馬爾父親疑似訂婚 女方僅比亞馬爾大5歲

      搜狐體育
      2025-11-05 14:41:26
      狂送7連敗!聯盟唯一全敗隊伍,一手好牌打稀爛,還不如趁早散伙

      狂送7連敗!聯盟唯一全敗隊伍,一手好牌打稀爛,還不如趁早散伙

      陌識
      2025-11-06 00:37:43
      虎父無犬子,陳大愚再現陳佩斯吃面條名場面,陳老的眼神恍惚了

      虎父無犬子,陳大愚再現陳佩斯吃面條名場面,陳老的眼神恍惚了

      老沮系戲精北鼻
      2025-11-05 15:15:51
      讓全世界開開眼!中國航天員空間站里吃燒烤,國際空間站要饞哭了

      讓全世界開開眼!中國航天員空間站里吃燒烤,國際空間站要饞哭了

      魚缸里的假山
      2025-11-04 21:57:29
      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      挪威森林
      2025-11-02 12:56:16
      投資22.4億!成都地標性雙子塔封頂

      投資22.4億!成都地標性雙子塔封頂

      GA環球建筑
      2025-11-04 22:26:13
      歐洲勁旅被踢爆:締造隊史恥辱紀錄,歐冠4連敗,將對決穆里尼奧

      歐洲勁旅被踢爆:締造隊史恥辱紀錄,歐冠4連敗,將對決穆里尼奧

      足球狗說
      2025-11-06 07:37:29
      足協評議:成都蓉城胡荷韜進球被吹是誤判,點球沒判是錯誤

      足協評議:成都蓉城胡荷韜進球被吹是誤判,點球沒判是錯誤

      懂球帝
      2025-11-05 23:01:40
      初三學生被霸凌者打斷肋骨,母親不去派出所,隔天校園來六輛商務車

      初三學生被霸凌者打斷肋骨,母親不去派出所,隔天校園來六輛商務車

      懸案解密檔案
      2025-10-21 09:24:49
      不到24小時,人民日報四次點名全紅嬋,陳若琳的話終于有人信了

      不到24小時,人民日報四次點名全紅嬋,陳若琳的話終于有人信了

      楓塵余往逝
      2025-11-05 21:01:12
      老大求交易,老二提不滿!西部大黑馬被打崩,但你們的前途很光明

      老大求交易,老二提不滿!西部大黑馬被打崩,但你們的前途很光明

      毒舌NBA
      2025-11-05 22:06:28
      2025-11-06 08:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      何小鵬連發四大黑科技!人形機器人走貓步上臺

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      頭條要聞

      外媒:中方強硬抨擊荷蘭 安世半導體僵局持續發酵

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      游戲
      本地
      時尚
      手機
      公開課

      《戰地6》PC玩家改文件禁用跨平臺:手柄輔助瞄準太狠

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      今年一定要擁有這件大衣,復古又時髦!

      手機要聞

      榮耀兩款神秘新機被曝光:雙2億方案來襲,明年見!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 深夜视频国产在线观看| 精品人妻日韩中文字幕| 国产精品自拍视频第一页| 国产无遮挡裸体免费久久| 妇女自拍偷自拍亚洲精品| 日韩中文字幕精品人妻| 四虎成人高清永久免费看| 无码伊人66久久大杳蕉网站谷歌| 免费现黄频在线观看国产| 国产精品人一区二区三区| 人妻偷拍一区二区三区| 久久精品国产再热青青青| 亚洲欧美日韩久久一区二区| 亚洲另类丝袜综合网| 另类 专区 欧美 制服| 91久久亚洲综合精品成人| 潮喷失禁大喷水无码| 国产精品中文字幕在线| 中文字幕日韩一区二区不卡| 国产专区一va亚洲v天堂| 久久热这里这里只有精品| 免费国产午夜理论片不卡| 欧美性xxxxx极品少妇| 国产精品黄色精品黄色大片| 亚洲国产99精品国自产拍| 国产91丝袜在线播放动漫| 精品一区二区中文字幕| 国产粉嫩高中无套进入| 欧美日韩中文字幕久久伊人 | 精品无码一区二区三区电影| 天堂中文8资源在线8| 亚洲欧美人成网站在线观看看| 日韩中文日韩中文字幕亚| 四虎成人精品无码| 国产第一页浮力影院入口| 国产一级毛片高清完整视频版| 成年女人片免费视频播放A| 亚洲老女人区一区二视频| 97免费公开在线视频| 国产午夜精品理论大片| 另类 专区 欧美 制服|