![]()
機器之心報道
編輯:冷貓、陳陳
關于擴散模型的一切,宋飏等人寫成了 460 多頁的書。
擴散模型(Diffusion Models) ,幾乎重塑了整個生成式 AI 的版圖。從圖像到音頻,從視頻到 3D 世界。
然而,當人們真正想理解它的原理時,卻往往不得不在海量論文之間反復查找、跳轉、拼湊概念。
如果你也曾厭倦了一遍又一遍地翻閱原始論文,這本專著《The Principles of Diffusion Models》,將成為你系統理解擴散模型的可靠指南與理論起點。
作者團隊來自 Sony AI、OpenAI 和斯坦福大學。值得一提的是,書籍作者之一、原 OpenAI 戰略探索團隊負責人宋飏(Yang Song)也在作者欄中,不過,上個月,宋飏已經加入 Meta,成為 Meta 超級智能實驗室(MSL)研究負責人。
![]()
本書系統梳理了擴散模型的發展脈絡與核心思想,并深入解析了這些模型如何工作、為何有效、以及未來將走向何方。它不僅回顧了理論起點,也以統一的數學框架串聯了變分、得分與流等多種視角。
可以說,本書既是研究者的系統參考資料,也是初學者進入擴散模型世界的友好入門讀物。
![]()
論文地址:https://arxiv.org/pdf/2510.21890
不過,理解該書需要一定的基礎(因為 460 多頁的研究幾乎每一章都貫穿著嚴密的數學推導與公式展開),主要面向具有深度學習基礎,或具備深度生成建模初步認識的研究人員、研究生及從業者。
通過閱讀本書,讀者將能夠清晰了解到擴散模型的起源、主要公式之間的聯系,以及當今方法如何實現可控性和速度,從而催生下一代基于擴散的生成模型:流圖模型族。此外,你還可以學到:
- 統一的視角,將變分自編碼器 (VAE)、基于得分(基于能量)和基于流(歸一化流)的方法聯系起來 —— 所有這些方法都可視為變量隨時間變化的簡單過程。
- 引導和數值求解器如何使生成過程更快、更可控。
- 流圖模型(例如,一致性模型、一致性軌跡模型、平均流)的興起如何塑造下一代生成式人工智能。
有網友表示:「這是一本非常詳盡的關于擴散模型原理的書籍。通過仔細閱讀,我們可以學習擴散模型背后的所有核心概念。」
![]()
以下篇幅,我們將整理本文的基本內容和結構,簡要概括這一史上最全的擴散模型理論研究的核心亮點。
核心內容
與傳統生成模型直接學習從噪聲到數據的映射不同,擴散模型將生成過程視為一種隨時間逐步演化的變換,通過多階段的推理不斷將粗略結構細化為精致細節。圍繞這一核心思想,該領域的研究者從三種主要視角對其進行了發展:變分方法(variational)、基于得分的方法(score-based)和基于流的方法(flow-based)—— 這些視角為理解與實現擴散建模提供了互補的框架。
在此基礎上,研究者進一步探討擴散模型如何實現更高效的樣本生成、在生成過程中獲得更強的可控性,并推動基于擴散原理的獨立生成建模形式的發展。
擴散模型的基礎原理
本部分回溯擴散模型的起源,系統梳理塑造該領域的三種奠基性視角。
![]()
擴散模型的統一化與原理化視角。
該圖以可視化方式展示了經典生成建模方法 —— 變分自編碼器(VAE)、能量模型(EBM) 與歸一化流(NF)—— 與其在擴散模型中的對應形式之間的聯系。每一條垂直路徑代表一條概念脈絡,最終匯聚于連續時間框架。這三種視角提供了不同但在數學上等價的解釋路徑,共同構成了擴散建模的統一理論圖景。
Part A:深度生成建模導論
本文作者在第 1 章從回顧深度生成建模的基本目標出發。其核心任務是:給定一組數據樣本,構建一個能夠生成新的樣本的模型,使這些生成樣本看起來仿佛來自同一個潛在的(通常未知的)數據分布。
多種方法通過不同途徑實現這一目標:有的顯式地通過概率模型學習數據的分布,有的則隱式地通過學習一種從噪聲到數據的變換。本文將闡述這些模型如何利用神經網絡表示數據分布、如何從樣本中學習,以及如何生成新的樣本。
本章最后給出了主要生成建模框架的分類體系,并突出它們的核心思想與關鍵區別,為理解后續的擴散模型奠定基礎。
![]()
擴散模型研究視角的時間線。
Part B:擴散模型的核心視角
在前一部分介紹了深度生成建模的總體目標與機制之后,本部分將焦點轉向擴散模型 —— 這一類將生成過程視為 “從噪聲到數據的逐步轉化” 的方法。本文探討三種相互關聯的理論框架,它們都包含兩個關鍵過程:
正向過程(forward process):逐步向數據中加入噪聲;反向過程(reverse-time process):通過一系列模型近似地實現逐步去噪。
- 變分視角(Variational View, 第 2 章)
源自變分自編碼器(Variational Autoencoders, VAE),該視角將擴散過程理解為通過變分目標學習去噪過程的建模方式,從而形成了去噪擴散概率模型(Denoising Diffusion Probabilistic Models, DDPMs)。這一視角為擴散建模提供了概率推斷與優化的基礎。
- 得分視角(Score-Based View, 第 3–4 章)
起源于能量模型(Energy-Based Models, EBMs),并在噪聲條件得分網絡(Noise Conditional Score Networks, NCSN)中得到發展。該方法通過學習得分函數 —— 即對數數據密度的梯度 —— 來指導如何逐步去除噪聲。
在連續時間設定下,第 4 章進一步提出 Score SDE 框架,將去噪過程描述為隨機微分方程,并指出其確定性對應形式是常微分方程。這一視角將擴散建模與經典微分方程理論緊密相連,為算法分析與設計提供了堅實的數學依據。
- 流視角(Flow-Based View, 第 5 章)
基于歸一化流(Normalizing Flows),并由流匹配(Flow Matching)進一步推廣。該視角將生成建模表述為一種連續的流動變換,通過 ODE 描述樣本從簡單先驗分布逐步 “運輸” 至數據分布的過程。其演化由速度場控制,明確刻畫了概率質量隨時間的變化方式。
這種基于流的表述不僅適用于從先驗到數據的生成任務,還可推廣至更一般的分布到分布(distribution-to-distribution)轉換問題,即學習連接任意源分布與目標分布的流動過程。
- 各視角的統一與聯系(第 6 章)
雖然上述三種視角在形式上有所不同,但第 6 章展示了它們之間的深層統一性:
- 它們都通過某種條件化策略將學習目標轉化為可處理的回歸問題
- 更本質地,它們都描述了同一個概率分布隨時間演化的過程,即從先驗分布逐漸演化至數據分布。這種演化遵循 Fokker–Planck 方程,可視為密度的連續時間變量變換,從而在隨機與確定性表述之間保持一致性。
- 擴散模型與最優傳輸的聯系(第 7 章)
由于擴散模型本質上可視為一種分布傳輸方法,第 7 章進一步探討其與經典最優傳輸理論及薛定諤橋(Schr?dinger bridge)之間的聯系 —— 后者可視為帶熵正則化的最優傳輸問題。
本章回顧了靜態與動態兩種表述形式,并解釋它們與連續性方程及 Fokker–Planck 方程之間的關系。
擴散采樣的控制與加速
在統一了擴散模型的基礎原理之后,我們將目光轉向其高效生成的實際應用層面。從擴散模型中進行采樣,本質上相當于求解一個微分方程。然而,這一過程通常計算代價較高。本部分重點探討如何通過改進的采樣方法和學習型加速技術來提升生成的質量、可控性與效率。
Part C:從擴散模型中進行采樣
擴散模型的生成過程呈現出一種獨特的由粗到細逐步精化的特征:模型通過逐步去除噪聲,使生成樣本的結構與細節逐漸變得更加連貫和清晰。
這種特性帶來了性能與效率之間的權衡:
- 優勢:該過程允許對生成進行細粒度的控制。通過在學習得到的、隨時間變化的速度場中加入引導項,可以在微分方程(ODE)流動的軌跡上施加外部約束,從而根據用戶意圖引導生成過程,實現對輸出結果的可控性。
- 劣勢:由于生成過程依賴于多步迭代積分,其采樣速度通常顯著慢于單步生成模型。
本部分重點探討在推理階段(inference time)提升生成性能的方法,即在無需重新訓練模型的前提下,提高擴散模型的生成質量、可控性與采樣效率。
- 引導式生成(第 8 章)
本章介紹了諸如分類器引導(classifier guidance)與無分類器引導(classifier-free guidance)等方法,使生成過程能夠根據用戶定義的目標或屬性進行條件控制。在此基礎上,本文進一步討論如何通過引入偏好數據集,使擴散模型的生成行為與人類偏好更加一致,從而實現偏好對齊。
- 基于數值求解器的快速生成(第 9 章)
通過采用先進的數值求解器,可以在更少的反向積分步驟中近似模擬擴散反過程,從而在顯著降低計算成本的同時保持生成質量。這種方法在不犧牲樣本保真度與多樣性的前提下,能夠實現高效、穩定的快速采樣。
Part D:快速生成模型的學習
在改進傳統采樣算法的基礎上,本部分進一步探討如何直接學習能夠近似擴散過程的快速生成模型,以實現高效的樣本生成。該思路的核心在于不再依賴多步積分推理,而是通過模型學習獲得對擴散動態的直接近似,從根本上提升生成速度與可擴展性。
- 基于蒸餾的方法(Distillation-Based Methods, 第 10 章)
此類方法的主要思想是:訓練一個學生模型模仿一個已訓練好的、較慢的教師擴散模型的行為。
與傳統的模型壓縮不同,這里的目標并非縮減教師模型的參數規模,而是讓學生模型能夠以顯著更少的積分步數 —— 通常僅需幾步甚至單步 —— 重現教師模型的采樣軌跡或輸出分布。這種基于蒸餾的加速策略能夠在保持生成質量與分布一致性的前提下,大幅降低生成時間,實現快速推理。
- 從零開始的學習(第 11 章)
鑒于擴散模型的采樣過程可形式化為常微分方程的求解,該方法旨在直接從零開始學習該 ODE 的解映射,亦即流映射(flow map),而無需依賴任何教師模型
通過這一方式,模型可以:直接將噪聲映射為數據樣本;或者在解軌跡上執行任意時刻到任意時刻的跳躍式生成,從而高效地模擬擴散動態。
這種從零學習的框架消除了多步采樣的時間瓶頸,為端到端的快速生成系統提供了嚴謹的數學基礎與可行的實現路徑。
本書的涵蓋范圍
本書的編寫目標是建立具有持久價值的理論體系。從自上而下的視角出發,全書圍繞一個統一的核心原理展開:
構建連續時間動力系統,使其能夠將一個簡單的先驗分布逐漸傳輸至數據分布,并確保在任意時刻,其邊緣分布與由數據向噪聲的預設正向過程所誘導的邊緣分布一致。
基于這一原理,本書系統地推導與闡述了擴散模型的基本機制:
- 構建了支持采樣的隨機流與確定性流(stochastic and deterministic flows);
- 說明了如何通過引導機制(guidance)對生成軌跡進行控制;
- 并闡明了如何利用數值求解器(numerical solvers)實現采樣過程的加速。
在此基礎上,本文探討了源于擴散原理的快速生成模型,包括基于蒸餾的方法和流映射模型。
通過這些內容,讀者將能夠:
- 在統一的理論框架下準確定位新提出的研究工作;
- 理解不同方法背后的原理邏輯與聯系;
- 并具備設計與改進新一代生成模型的能力。
然而,本書并不試圖成為擴散模型領域的全面綜述,也不涉及以下快速演進且依賴經驗的內容:
- 各類模型架構設計、訓練策略與超參數選擇;
- 各方法間的實證性能比較,數據集與排行榜;
- 特定領域或模態的應用實例;
- 系統級部署方案與大規模訓練范式以及硬件實現與工程優化。
這些主題更新迅速,更適合通過專題綜述、開放源碼倉庫及實現指南加以介紹與總結。
更多詳細信息和技術細節,請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.