網易首頁 > 網易號 > 正文申請入駐

擴散不死，BERT永生！Karpathy凌晨反思：自回歸時代該終結了?

2025-11-05 10:14:57　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】谷歌遺珠與IBM預言：一文點醒Karpathy，擴散模型或成LLM下一步。

Karpathy難以抵擋的誘惑！

蘋果的前員工、德克薩斯大學奧斯汀分校（UT Austin）的計算機科學研究生Nathan Barry，得出一個驚人的結論：

BERT本質上，只是文本擴散中的一步！

基于「強化版BERT」RoBERTa，他成功地把表示學習算法改造為生成算法：

看完帖子后，OpenAI創始員工、特斯拉前AI總監Karpathy陷入了沉思：

人類的思維或許更偏向自回歸一些——一步步推進的感覺。但在我們的思維潛空間里，也很難說就不存在某種更像擴散的機制。

說不定在這兩者之間，其實可以繼續插值、或者更進一步泛化。

這部分生成邏輯在LLM架構中，依然是一個相對「可變」的部分。

不過，Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開發終級實踐項目「100美元帶回家的ChatGPT」，所以他只能「忍痛割愛」：

現在我必須克制住用擴散模型訓練nanochat的沖動，不能偏離主線去搞支線任務了。

可以上下滾動的圖片

谷歌的遺珠

當第一次讀到語言擴散模型論文時，Nathan Barry驚訝地發現它們的訓練目標只是掩碼語言建模（masked language model，MLM）的一種推廣。

而自從2018年BERT以來，大家一直早已對掩碼語言建模習以為常。

預印本：https://arxiv.org/abs/1810.04805

他腦海里立刻冒出一個想法：我們能不能把類似BERT的模型微調一下，讓它也能做文本生成？

出于好奇，他做了個快速的驗證實驗。隨后，他發現其實早就有人做過了——DiffusionBERT基本就是這個想法，不過做得更嚴謹。

值得一提的是，大約3年前，DiffusionBERT由國內高校的研究者提出，100%國產！

預印本鏈接：https://arxiv.org/abs/2211.15029

最初，擴散模型在圖像生成領域一炮而紅。

在圖像生成中，擴散模型會先對圖像逐步添加高斯噪聲（前向過程），然后訓練神經網絡對其進行迭代去噪（反向過程）。

將這一思路應用于文本領域，意味著我們需要找到方法對文本添加噪聲并在之后分階段消除。

最簡單的實現方式是基于掩碼的噪聲處理流程：

在前向過程中，初始文本未被破壞。在每一步迭代中，根據預設的調度計劃（從0%到100%），隨機將一定比例的詞語替換為特殊的標記
在反向（去噪）過程中，訓練模型根據每個預測正確的原始詞語。這與掩碼語言模型(MLM)類似，但采用了動態掩碼率

為了解決以往方法存在的問題，BERT提出了掩碼語言建模（Masked LM）。

具體做法是：對每條訓練輸入序列隨機遮蓋15%的詞語，僅對這些被遮蓋的詞進行預測。用圖示語言來表達就是：

換句話說，BERT的MLM訓練目標，其實就可以看作是文本擴散的一種特例，只不過它用的是固定的掩碼率。

而只要我們引入一個從0到1的動態掩碼率范圍，就可以把BERT的訓練目標自然擴展為一個完整的文本生成過程。

擴展無處不在，自監督模型變生成模型

2019年發布的RoBERTa模型，是在原始BERT基礎上的一次強化升級。

預印本：https://arxiv.org/abs/1907.11692

它調整了超參數、擴大了訓練語料，并簡化了訓練目標——

只保留MLM（掩碼語言建模），去掉了「下一句預測」任務。

而Nathan Barry使用HuggingFace的開源庫，加載RoBERTa的預訓練權重、分詞器以及Trainer類，對模型進行微調，數據集選用 WikiText。核心代碼（完整代碼見原文）大致如下：

在當前實現中，設定了10個擴散步驟，每個訓練批次隨機采樣一個遮蓋比例p，從[1.0, 0.9, ..., 0.1]中選取，然后對該比例的Token進行掩碼處理。這個邏輯封裝在自定義的diffusion_collator中：

在推理時，從一個長度為256的輸入向量開始：前16個位置是提示詞（prompt）的Token ID，后面240個全是。然后，逐步減少掩碼比例，每一步都做預測、采樣、重新掩碼。流程如下：

對應的簡化代碼如下：

在H200顯卡上，經過30分鐘訓練后，模型基于如下提示詞生成了如下文本：

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示詞為：Following their victory in the French and Indian War, Britain began to assert greater...

生成的文本看起來出奇地連貫！其中大部分「怪異之處」， Nathan Barry歸因于WikiText數據集本身的格式化問題——比如標點符號前后帶空格，連字符「-」被處理成了@-@等。

數據顯示，GPT-2在輸出連貫性和生成速度方面略勝一籌（約9秒對比13秒）。

但RoBERTa Diffusion未經優化，如此效果，已令人驚喜。

這次的概念驗證無疑非常成功——若能結合AR-Diffusion、跳躍步擴散等新興技術并深度優化，生成質量與推理速度都將獲得飛躍提升。

擴散模型歸來

通過實驗證明，以RoBERTa為代表的掩碼語言模型（原本專為填空任務設計），將變比率掩碼重構為離散擴散過程，完全可以轉型為全功能生成引擎。

通過漸進式植入標記污染文本，并訓練模型在遞增的掩碼強度下迭代去噪，標準MLM目標成功地轉化為漸進式文本生成流程。

值得注意的是，即使不調整模型架構，僅對訓練目標進行微調后的RoBERTa就能生成視覺連貫的文本。

這有力印證了一個重要洞見：本質上，BERT系模型就是在固定掩碼率上訓練的文本擴散模型。

Karpathy點贊了Nathan Barry的短文：

帖子雖短，卻解釋了文本（離散）擴散模型可以有多簡單。

許多擴散模型的論文看起來頗為晦澀，但若拋開數學形式的外殼，最終得到的往往是簡潔的基礎算法。

例如在連續空間中更接近流匹配的方法，或是像這樣的離散空間方案，其本質還是經典的Transformer架構，只不過采用了雙向注意力機制——

根據噪聲調度計劃，在「token畫布」上迭代重采樣和重復掩碼處理所有token，直至最終步生成完整樣本。

自回歸生成的過程，就像是在Token畫布上不斷.append(token) ，每次只參考左側已有的上下文；

而擴散式生成，則是在整個Token畫布上反復.setitem(idx, token) ，每次都依賴雙向注意力進行刷新更新。

從整個大語言模型（LLM）技術棧的角度來看，生成領域仍大有可為，存在著優化與創新的空間。

今年更早的時候，在2025 I/O大會上，谷歌DeepMind發布了一項實驗性的擴展語言模型——。

在速度上，擴散語言模型優勢明顯。以至于有網友預測：文本擴展模型就是每個人視而不見的下一步，因為訓練成本太高了！

而「藍色巨人」IBM的作家也斷言，隨著下一代AI浮現，擴散模型要挑戰GPT。

參考資料：

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.