網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

VAE再被補(bǔ)刀！清華快手新模型，訓(xùn)練提效6200%，生成提速3500%

2025-10-28 15:30:44　來源: 量子位

北京舉報

分享至

聞樂發(fā)自凹非寺
量子位 | 公眾號 QbitAI

前腳謝賽寧剛宣告VAE在圖像生成領(lǐng)域退役，后腳清華與快手可靈團(tuán)隊也帶著無VAE潛在擴(kuò)散模型SVG來了。

該方法實現(xiàn)了在訓(xùn)練效率上62倍、生成速度上35倍的提升。

VAE為何被接連拋棄？主要還是因為語義糾纏的缺陷——語義特征都放在同一個潛空間，調(diào)一個數(shù)值就會“牽一發(fā)而動全身”，比如只想改變貓的顏色，結(jié)果體型、表情都跟著變。

和謝賽寧團(tuán)隊極簡復(fù)用預(yù)訓(xùn)練編碼器、改造DiT架構(gòu)，專注于生成性能的RAE不同，SVG通過語義+細(xì)節(jié)雙分支+分布對齊，實現(xiàn)了多任務(wù)通用。

下面具體來看。

主動構(gòu)建語義與細(xì)節(jié)融合的特征空間

在傳統(tǒng)的「VAE+擴(kuò)散模型」圖像生成范式中，VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征（可以理解為圖像的簡化代碼），供后續(xù)擴(kuò)散模型學(xué)習(xí)生成邏輯。

但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起，比如貓和狗的特征邊界模糊不清等。

直接導(dǎo)致兩個問題：

一是擴(kuò)散模型訓(xùn)練效率極低，需要數(shù)百萬步迭代才能勉強(qiáng)理清特征邏輯；
二是生成過程繁瑣，往往需要經(jīng)過幾十甚至上百步采樣才能輸出清晰圖像。

并且，生成的特征空間用途單一，除了圖像生成，幾乎無法適配圖像識別、語義分割等其他視覺任務(wù)。

面對VAE的困境，謝賽寧團(tuán)隊的RAE技術(shù)選擇了極致聚焦生成的思路。直接復(fù)用DINOv2、MAE等成熟的預(yù)訓(xùn)練編碼器，不額外修改編碼器結(jié)構(gòu)，僅通過優(yōu)化解碼器來還原圖像細(xì)節(jié)，同時針對性地改造擴(kuò)散模型架構(gòu)。

最終實現(xiàn)了生成效率與質(zhì)量的跨越式提升，簡單說就是把重心全放在了“把圖生成得又快又好”上。

而清華&快手可靈團(tuán)隊的SVG技術(shù)，則走了兼顧生成與多任務(wù)通用的路線，核心差異就在于對特征空間的構(gòu)建邏輯上。

RAE是直接復(fù)用預(yù)訓(xùn)練特征，SVG 則是主動構(gòu)建語義與細(xì)節(jié)融合的特征空間。

具體來看，SVG選擇以DINOv3預(yù)訓(xùn)練模型作為語義提取器。

原因是DINOv3經(jīng)過大規(guī)模自監(jiān)督學(xué)習(xí)，能夠精準(zhǔn)捕捉圖像的高層語義信息，讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨，從根源上解決了語義糾纏問題。

但團(tuán)隊也發(fā)現(xiàn)，DINOv3提取的特征偏重于宏觀語義，會丟失顏色、紋理等高頻細(xì)節(jié)，因此又專門設(shè)計了一個輕量級的殘差編碼器來進(jìn)行細(xì)節(jié)補(bǔ)充，針對性地學(xué)習(xí)這些被忽略的細(xì)節(jié)信息。

而為了讓「語義」和「細(xì)節(jié)補(bǔ)充」能夠完美融合，SVG還加入了關(guān)鍵的分布對齊機(jī)制

這一機(jī)制通過技術(shù)手段調(diào)整殘差編碼器輸出的細(xì)節(jié)特征，使其在數(shù)值分布上與DINOv3的語義特征完全匹配，避免細(xì)節(jié)信息擾亂語義結(jié)構(gòu)。

實驗數(shù)據(jù)也印證了這一機(jī)制的重要性。去掉分布對齊后，SVG生成圖像的FID值（衡量生成圖像與真實圖像相似度的核心指標(biāo)，數(shù)值越低越優(yōu)）從6.12升至9.03，生成質(zhì)量大幅下滑。

實驗結(jié)果顯示，SVG在生成質(zhì)量、效率、多任務(wù)通用性上全面超越傳統(tǒng)VAE方案。

訓(xùn)練效率方面，在ImageNet 256×256數(shù)據(jù)集上，SVG-XL模型僅訓(xùn)練80個epoch，在無分類器引導(dǎo)時FID達(dá)6.57，遠(yuǎn)超同規(guī)模基于VAE的SiT-XL（22.58）；如果延長訓(xùn)練至1400個epoch，F(xiàn)ID可低至1.92，接近當(dāng)前頂級生成模型水平。

推理效率方面，消融實驗中，5步采樣時，SVG-XL的gFID為12.26，而SiT-XL（SD-VAE）為69.38、SiT-XL（VA-VAE）為74.46。這表明在較少的采樣步數(shù)下，SVG-XL就能達(dá)到較好的生成質(zhì)量。

不僅是生圖，SVG的特征空間繼承了DINOv3的能力，可直接用于圖像分類、語義分割、深度估計等任務(wù)，且無需微調(diào)編碼器。例如，在ImageNet-1K分類任務(wù)中Top-1精度達(dá)到81.8%，與原始DINOv3幾乎一致；在ADE20K語義分割任務(wù)中mIoU達(dá)46.51%，接近專門的分割模型。

團(tuán)隊介紹

團(tuán)隊由鄭文釗擔(dān)任項目負(fù)責(zé)人，目前是加州大學(xué)伯克利分校博士后。此前，他在清華大學(xué)自動化系獲博士學(xué)位，研究集中在人工智能和深度學(xué)習(xí)領(lǐng)域。

同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學(xué)位，研究重點為多模態(tài)生成模型。

其中，史明磊透露自己還在創(chuàng)辦一家專注于人工智能應(yīng)用的公司。

Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團(tuán)隊。

其中，Pengfei Wan是快手可靈視頻生成模型負(fù)責(zé)人。

從謝賽寧團(tuán)隊的RAE到清華快手的SVG，盡管技術(shù)路線各有側(cè)重，但從兩者的突破可以看出，預(yù)訓(xùn)練視覺模型的特征空間，或許已經(jīng)具備了替代VAE的能力。

論文地址：https://arxiv.org/abs/2510.15301
代碼地址：https://github.com/shiml20/SVG

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.