你肯定有過這種經歷:跟ChatGPT聊問題、讓AI寫段文案時,屏幕上的字總像 “擠牙膏”——一個接一個慢慢冒,急著要答案卻只能盯著加載框等。別怪網絡不給力,這其實是現在AI的“天生短板”:它們就像只會用鉛筆逐字描紅的小學生,必須寫完前一個字,才能琢磨下一個字怎么寫。
最近,上海AI實驗室聯合南京大學、清華大學等7所高校的17位研究者提出了“序列擴散語言模型(SDLM)” 的新方案——直接讓AI“說話” 速度翻了一倍還多,關鍵是答案的準確率沒降。這項研究已經發在了2025年9月的arXiv平臺上(論文編號:arXiv:2509.24007v1),相當于給AI的語言生成裝了個加速器。
![]()
先搞明白:為啥以前的AI“寫字” 這么慢?
咱們先打個接地氣的比方:現在主流的AI語言模型,比如ChatGPT用的“自回歸模型”,就像老木匠做木活字 —— 要拼一句話,必須把每個字的木模按順序擺好,前一個字放對位置,才能往下擺下一個。AI 生成文字時也是這個邏輯:每說一個詞,都得回頭把前面所有內容重新 “讀” 一遍,才能確定下一個詞該接什么。
這種 “逐字摳” 的方式,雖然能保證邏輯不出錯(比如不會說 “我在吃飯” 接著蹦出 “月亮很圓”),但缺點太扎眼:
第一,慢得著急。生成的內容越長,AI回頭“復習”的內容就越多,速度就越慢 —— 像用毛筆寫小楷,越寫越慢,趕時間時能急出汗。
第二,算力全浪費。現在的電腦GPU就像有幾千個廚師的大廚房,本可以同時炒幾十道菜,但傳統AI只能讓這些 “廚師” 排隊:一個炒完,下一個才能動手,大部分算力都在“站崗”。
之前也有人想過辦法,比如 “擴散語言模型”,能一次性生成好幾個詞,像打印機印整行字。但這技術太“死板”——不管內容簡單還是復雜,每次都必須生成固定數量的詞(比如每次都生4個),遇到數學公式、復雜推理就容易出錯;而且得從頭訓練,成本高到普通團隊根本扛不住。
就在大家卡在“想快怕不準,想準又太慢”的時候,SDLM來了。
SDLM 的第一個本事:會 “猜短語”,不只會 “接字”
傳統AI跟你聊天,像玩“詞語接龍”的小朋友——你說“早上好”,它只能先接“今”,再想 “天”,再湊 “天氣”;而SDLM像個會“預判”的大朋友,看你說 “早上好”,直接能猜岀 “早上好呀,今天要不要去公園?”整個短句,一步到位。
這個本事的核心叫 “下一序列預測(NSP)”,最妙的是它“懂變通”:
- 遇到日常對話、簡單信息,比如 “幫我訂下午3點的奶茶”,SDLM能直接補全 “幫我訂下午3點的奶茶,要半糖少冰”,速度快得像你剛說完,它就接話;
- 遇到復雜內容,比如“推導勾股定理的證明過程”,它會自動放慢節奏,一步一步寫公式、講邏輯,生怕算錯一個步驟。
它怎么知道該快該慢?研究者給它裝了個“自信心儀表盤”—— 也就是 “置信度檢測機制”。就像你考試時,對“2+3=5”有100%把握就秒答,對壓軸的幾何題沒把握就慢慢算,SDLM也會“評估自己的答案”:
- 用 “邏輯值置信度” 測 “把握度”:比如 “幫我訂下午3點的奶茶” 后面接 “半糖少冰”,它有98%的把握,就敢快速生成;
- 用“熵標準化置信度”做 “多選項檢查”:比如“今天適合”后面,可選“出門”“在家”“爬山”,如果好幾個選項都合理,它會多琢磨一會兒,慢慢選最貼合語境的。
第二個本事:像編輯審稿一樣,只留 “靠譜內容”
SDLM還有個“挑錯”的巧勁——“動態解碼策略”,簡單說就是“不好的內容直接刪掉,只留對的”,像報社編輯審稿子:
比如編輯看一篇文章,前面“今天氣溫25度,適合散步” 寫得沒問題,就全留下;看到后面 “太陽從西邊升起” 明顯錯了,就從這里截斷,只用前面的正確內容。SDLM生成文字時也這樣:每次先生成一小段(比如4個詞),然后逐個檢查每個詞的 “可信度”,只要連續幾個詞都靠譜,就繼續用;一旦遇到沒把握的詞(比如 “太陽從西邊” 后面接 “升起”),就立刻停下,只保留前面對的部分。
研究者還加了個 “雙保險”——“自我推測解碼”,像科研圈的 “同行評議”:SDLM先快速生成一段內容,再換一種算法重新算一遍,只有兩次結果完全一樣,才敢把這段內容給你看。雖然多了一步檢查,但準確率更穩了,而且平均每次能生成3~5 個詞,比傳統AI一次只生1個詞,速度快了好幾倍。
更貼心的是,它還能跟現有AI的“記憶功能”兼容——比如現在的AI都有“短期記憶”(叫“鍵值緩存技術”),能記住你前面說的話,避免重復問。SDLM不用改這個功能,直接就能用,相當于給舊手機裝新APP,不用換手機,省錢又省事。
第三個本事:學習效率高,不用“從零學起”
要讓 AI 學會這些本事,訓練方法也得 “創新”。研究者搞了個 “并行塊訓練”,像老師教孩子學語文:不非要等孩子認完所有單個字,再學組詞、寫句子,而是同時教 “認字 + 組詞 + 寫短句”,效率一下子提上來了。
具體怎么教?靠“注意力掩碼”技術給AI定 “學習規則”:
- 練“因果注意力”:讓AI只能看“前面的內容”,不能“偷看后面的答案”——比如寫 “我在吃飯”,不能先知道后面要接 “很開心”,保證邏輯通順;
- 練“可見前綴”:讓AI學短句時,能看到前面的語境——比如學“今天要去公園” 時,能看到前面“周末沒安排”,這樣接得更自然;
- 練“塊內雙向注意力”:讓AI在同一短句里,能 “互相參考”——比如寫“3x+5=14” 時,知道“3x”和“14-5”要對應,不會算錯。
而且訓練用的 “教材” 很全:23億個詞匯,涵蓋小學數學題、編程代碼、科學論文、日常聊天,甚至還有詩詞創作,保證AI遇到不同場景都能應對。最關鍵的是,SDLM不用“從零學起”——能在現有大模型(比如大家熟悉的GPT類模型)基礎上“微調”,像給普通汽車裝渦輪增壓器,不用重新造一輛車,幾個月就能練出效果,成本省了一大半。
實測結果:又快又準,小模型也能 “打贏” 大模型
SDLM到底好不好用?研究者做了一堆測試,結果很亮眼,咱們用 “大白話” 翻譯下:
數學題:快了一倍多,準確率幾乎沒降
在GSM8K測試(都是小學階段的數學題,比如“小明有5個蘋果,媽媽又買了3 個,現在有幾個?”)里,SDLM-32B模型(相當于320億參數的 “大腦”)準確率 92.4%,跟傳統模型的93.2%差不多,就差0.8個百分點;但速度快了2.15倍 —— 以前等10分鐘出答案,現在4分多鐘就好。
如果稍微放寬點準確率要求(比如從93%降到92.9%),速度還能再提,達到2.71倍快,相當于等3分半鐘就出結果。
更難的MATH-500測試(高中數學競賽題,比如三角函數、不等式證明)里,SDLM-32B準確率74.2%,速度照樣快2.35倍——復雜推理也沒難住它。
寫代碼:又快又穩,少踩坑
在HumanEval編程測試(比如寫一個“計算列表平均值”的簡單代碼)里,SDLM-32B準確率81.1%,速度快2.05倍;在更難的 HumanEval + 測試(寫復雜點的函數)里,準確率73.8%,速度快2.29倍——程序員用它寫代碼,不用等AI “一個字符一個字符蹦”,效率能提不少。
小模型也能 “以小勝大”
最驚喜的是“小個子也有大能量”:SDLM-3B模型(只有30億參數,比很多傳統模型小一圈),居然比更大的傳統模型還強。比如在GSM8K測試里,SDLM-3B準確率84.6%,超過了70億參數的Dream-7B(81.0%)和80億參數的LLaDA-8B(78.6%)。這說明SDLM靠的是“方法巧”,不是靠堆參數 “堆出來的厲害”。
日常理解:沒掉隊,該懂的都懂
在 MMLU 測試(考AI的“常識”,比如“水的沸點是多少度”“《紅樓夢》的作者是誰”)里,SDLM-32B準確率82.8%,只比傳統模型低0.9個百分點;在常識推理(比如 “下雨了要帶什么”)、句子完成(比如“春天到了,公園里的花____”)測試里,差距也都在1%以內——快歸快,該懂的知識點一點沒落下。
這個突破,對我們有啥實際好處?
SDLM不只是讓AI“變快”,更像給AI語言模型指了條 “又好又省” 的新路子,咱們普通人很快就能感受到變化:
用AI更順暢,不用再 “等字”
以后跟 AI 客服聊天,問 “怎么退訂單”,不用等文字慢慢蹦,秒級就能收到完整回復;用 AI 幫孩子改作業、自己寫工作報告,以前等半小時,現在 10 多分鐘就出初稿,效率翻番。
小公司也能用得起 “快 AI”
以前想讓 AI 變快,得花大價錢從頭訓練模型,小公司根本扛不住;現在SDLM能在現有模型上“微調”,成本降了一大半,小店鋪的AI客服、小團隊的AI寫作工具,都能用上“快節奏”的AI。
技術上“架了座橋”
以前的AI模型,要么快但不準(擴散模型),要么準但慢(自回歸模型),像 “兩條平行線”;SDLM把兩者的優點捏到一起,架了座“橋”,以后可能會有更多“又快又準”的AI出來,比如快節奏的AI翻譯、實時的AI教學助手。
未來還能更厲害嗎?
研究者說,SDLM還有很多“潛力可挖”:
- 現在每次最多生成8個詞,以后可能嘗試生成更長的片段(比如10 個、15個詞),速度還能再提;
- 以后AI能 “看內容調速度”:寫代碼、算數學就快一點,寫散文、詩歌就慢一點,更懂 “場景需求”;
- 還能跟其他技術“組隊”:比如加“強化學習”,讓AI根據你的反饋調整速度(比如你覺得太快了,它就慢一點);加“知識圖譜”,讓AI在一些專業領域又快又準地出報告。
不過也要注意:AI生成越快,越要盯緊“內容質量”——比如會不會生成錯的知識(比如 “地球是平的”)、有害的信息。怎么讓AI“快而不慌、準而不偏”,是接下來要解決的問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.