![]()
新智元報道
編輯:KingHZ
【新智元導讀】谷歌遺珠與IBM預言:一文點醒Karpathy,擴散模型或成LLM下一步。
Karpathy難以抵擋的誘惑!
蘋果的前員工、德克薩斯大學奧斯汀分校(UT Austin)的計算機科學研究生Nathan Barry,得出一個驚人的結論:
BERT本質上,只是文本擴散中的一步!
基于「強化版BERT」RoBERTa,他成功地把表示學習算法改造為生成算法:

看完帖子后,OpenAI創始員工、特斯拉前AI總監Karpathy陷入了沉思:
人類的思維或許更偏向自回歸一些——一步步推進的感覺。但在我們的思維潛空間里,也很難說就不存在某種更像擴散的機制。
說不定在這兩者之間,其實可以繼續插值、或者更進一步泛化。
這部分生成邏輯在LLM架構中,依然是一個相對「可變」的部分。
不過,Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開發終級實踐項目「100美元帶回家的ChatGPT」,所以他只能「忍痛割愛」:
現在我必須克制住用擴散模型訓練nanochat的沖動,不能偏離主線去搞支線任務了。
![]()
可以上下滾動的圖片
谷歌的遺珠
當第一次讀到語言擴散模型論文時,Nathan Barry驚訝地發現它們的訓練目標只是掩碼語言建模(masked language model,MLM)的一種推廣。
![]()
而自從2018年BERT以來,大家一直早已對掩碼語言建模習以為常。
![]()
預印本:https://arxiv.org/abs/1810.04805
他腦海里立刻冒出一個想法:我們能不能把類似BERT的模型微調一下,讓它也能做文本生成?
出于好奇,他做了個快速的驗證實驗。隨后,他發現其實早就有人做過了——DiffusionBERT基本就是這個想法,不過做得更嚴謹。
值得一提的是,大約3年前,DiffusionBERT由國內高校的研究者提出,100%國產!
![]()
預印本鏈接:https://arxiv.org/abs/2211.15029
最初,擴散模型在圖像生成領域一炮而紅。
在圖像生成中,擴散模型會先對圖像逐步添加高斯噪聲(前向過程),然后訓練神經網絡對其進行迭代去噪(反向過程)。
![]()
將這一思路應用于文本領域,意味著我們需要找到方法對文本添加噪聲并在之后分階段消除。
最簡單的實現方式是基于掩碼的噪聲處理流程:
在前向過程中,初始文本未被破壞。在每一步迭代中,根據預設的調度計劃(從0%到100%),隨機將一定比例的詞語替換為特殊的 標記
在反向(去噪)過程中,訓練模型根據每個 預測正確的原始詞語。這與掩碼語言模型(MLM)類似,但采用了動態掩碼率
為了解決以往方法存在的問題,BERT提出了掩碼語言建模(Masked LM)。
具體做法是:對每條訓練輸入序列隨機遮蓋15%的詞語,僅對這些被遮蓋的詞進行預測。用圖示語言來表達就是:
![]()
換句話說,BERT的MLM訓練目標,其實就可以看作是文本擴散的一種特例,只不過它用的是固定的掩碼率。
而只要我們引入一個從0到1的動態掩碼率范圍,就可以把BERT的訓練目標自然擴展為一個完整的文本生成過程。
擴展無處不在,自監督模型變生成模型
2019年發布的RoBERTa模型,是在原始BERT基礎上的一次強化升級。
![]()
預印本:https://arxiv.org/abs/1907.11692
它調整了超參數、擴大了訓練語料,并簡化了訓練目標——
只保留MLM(掩碼語言建模),去掉了「下一句預測」任務。
而Nathan Barry使用HuggingFace的開源庫,加載RoBERTa的預訓練權重、分詞器以及Trainer類,對模型進行微調,數據集選用 WikiText。核心代碼(完整代碼見原文)大致如下:
![]()
在當前實現中,設定了10個擴散步驟,每個訓練批次隨機采樣一個遮蓋比例p,從[1.0, 0.9, ..., 0.1]中選取,然后對該比例的Token進行掩碼處理。這個邏輯封裝在自定義的diffusion_collator中:
![]()
在推理時,從一個長度為256的輸入向量開始:前16個位置是提示詞(prompt)的Token ID,后面240個全是
。然后,逐步減少掩碼比例,每一步都做預測、采樣、重新掩碼。流程如下:
![]()
對應的簡化代碼如下:
![]()
在H200顯卡上,經過30分鐘訓練后,模型基于如下提示詞生成了如下文本:
...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "
提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...
生成的文本看起來出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數據集本身的格式化問題——比如標點符號前后帶空格,連字符「-」被處理成了@-@等。

數據顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對比13秒)。
但RoBERTa Diffusion未經優化,如此效果,已令人驚喜。
這次的概念驗證無疑非常成功——若能結合AR-Diffusion、跳躍步擴散等新興技術并深度優化,生成質量與推理速度都將獲得飛躍提升。
擴散模型歸來
通過實驗證明,以RoBERTa為代表的掩碼語言模型(原本專為填空任務設計),將變比率掩碼重構為離散擴散過程,完全可以轉型為全功能生成引擎。
通過漸進式植入 標記污染文本,并訓練模型在遞增的掩碼強度下迭代去噪,標準MLM目標成功地轉化為漸進式文本生成流程。
值得注意的是,即使不調整模型架構,僅對訓練目標進行微調后的RoBERTa就能生成視覺連貫的文本。
這有力印證了一個重要洞見:本質上,BERT系模型就是在固定掩碼率上訓練的文本擴散模型。
Karpathy點贊了Nathan Barry的短文:
帖子雖短,卻解釋了文本(離散)擴散模型可以有多簡單。
許多擴散模型的論文看起來頗為晦澀,但若拋開數學形式的外殼,最終得到的往往是簡潔的基礎算法。
![]()
例如在連續空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質還是經典的Transformer架構,只不過采用了雙向注意力機制——
根據噪聲調度計劃,在「token畫布」上迭代重采樣和重復掩碼處理所有token,直至最終步生成完整樣本。
自回歸生成的過程,就像是在Token畫布上不斷.append(token) ,每次只參考左側已有的上下文;
而擴散式生成,則是在整個Token畫布上反復.setitem(idx, token) ,每次都依賴雙向注意力進行刷新更新。
從整個大語言模型(LLM)技術棧的角度來看,生成領域仍大有可為,存在著優化與創新的空間。
今年更早的時候,在2025 I/O大會上,谷歌DeepMind發布了一項實驗性的擴展語言模型——。
![]()
在速度上,擴散語言模型優勢明顯。以至于有網友預測:文本擴展模型就是每個人視而不見的下一步,因為訓練成本太高了!
![]()
而「藍色巨人」IBM的作家也斷言,隨著下一代AI浮現,擴散模型要挑戰GPT。
![]()
參考資料:
https://nathan.rs/posts/roberta-diffusion/
https://x.com/karpathy/status/1980347971935068380
https://x.com/yacinelearning/status/1980351871413022901
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.