- 聞樂 發(fā)自 凹非寺
- 量子位 | 公眾號 QbitAI
前腳謝賽寧剛宣告VAE在圖像生成領(lǐng)域退役,后腳清華與快手可靈團(tuán)隊也帶著無VAE潛在擴(kuò)散模型SVG來了。
該方法實現(xiàn)了在訓(xùn)練效率上62倍、生成速度上35倍的提升。
![]()
VAE為何被接連拋棄?主要還是因為語義糾纏的缺陷——語義特征都放在同一個潛空間,調(diào)一個數(shù)值就會“牽一發(fā)而動全身”,比如只想改變貓的顏色,結(jié)果體型、表情都跟著變。
和謝賽寧團(tuán)隊極簡復(fù)用預(yù)訓(xùn)練編碼器、改造DiT架構(gòu),專注于生成性能的RAE不同,SVG通過語義+細(xì)節(jié)雙分支+分布對齊,實現(xiàn)了多任務(wù)通用。
![]()
下面具體來看。
主動構(gòu)建語義與細(xì)節(jié)融合的特征空間
在傳統(tǒng)的「VAE+擴(kuò)散模型」圖像生成范式中,VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征(可以理解為圖像的簡化代碼),供后續(xù)擴(kuò)散模型學(xué)習(xí)生成邏輯。
但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起,比如貓和狗的特征邊界模糊不清等。
直接導(dǎo)致兩個問題:
- 一是擴(kuò)散模型訓(xùn)練效率極低,需要數(shù)百萬步迭代才能勉強(qiáng)理清特征邏輯;
- 二是生成過程繁瑣,往往需要經(jīng)過幾十甚至上百步采樣才能輸出清晰圖像。
并且,生成的特征空間用途單一,除了圖像生成,幾乎無法適配圖像識別、語義分割等其他視覺任務(wù)。
面對VAE的困境,謝賽寧團(tuán)隊的RAE技術(shù)選擇了極致聚焦生成的思路。直接復(fù)用DINOv2、MAE等成熟的預(yù)訓(xùn)練編碼器,不額外修改編碼器結(jié)構(gòu),僅通過優(yōu)化解碼器來還原圖像細(xì)節(jié),同時針對性地改造擴(kuò)散模型架構(gòu)。
最終實現(xiàn)了生成效率與質(zhì)量的跨越式提升,簡單說就是把重心全放在了“把圖生成得又快又好”上。
而清華&快手可靈團(tuán)隊的SVG技術(shù),則走了兼顧生成與多任務(wù)通用的路線,核心差異就在于對特征空間的構(gòu)建邏輯上。
RAE是直接復(fù)用預(yù)訓(xùn)練特征,SVG 則是主動構(gòu)建語義與細(xì)節(jié)融合的特征空間。
![]()
具體來看,SVG選擇以DINOv3預(yù)訓(xùn)練模型作為語義提取器。
原因是DINOv3經(jīng)過大規(guī)模自監(jiān)督學(xué)習(xí),能夠精準(zhǔn)捕捉圖像的高層語義信息,讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨,從根源上解決了語義糾纏問題。
但團(tuán)隊也發(fā)現(xiàn),DINOv3提取的特征偏重于宏觀語義,會丟失顏色、紋理等高頻細(xì)節(jié),因此又專門設(shè)計了一個輕量級的殘差編碼器來進(jìn)行細(xì)節(jié)補(bǔ)充,針對性地學(xué)習(xí)這些被忽略的細(xì)節(jié)信息。
而為了讓「語義」和「細(xì)節(jié)補(bǔ)充」能夠完美融合,SVG還加入了關(guān)鍵的分布對齊機(jī)制
這一機(jī)制通過技術(shù)手段調(diào)整殘差編碼器輸出的細(xì)節(jié)特征,使其在數(shù)值分布上與DINOv3的語義特征完全匹配,避免細(xì)節(jié)信息擾亂語義結(jié)構(gòu)。
實驗數(shù)據(jù)也印證了這一機(jī)制的重要性。去掉分布對齊后,SVG生成圖像的FID值(衡量生成圖像與真實圖像相似度的核心指標(biāo),數(shù)值越低越優(yōu))從6.12升至9.03,生成質(zhì)量大幅下滑。
![]()
實驗結(jié)果顯示,SVG在生成質(zhì)量、效率、多任務(wù)通用性上全面超越傳統(tǒng)VAE方案。
訓(xùn)練效率方面,在ImageNet 256×256數(shù)據(jù)集上,SVG-XL模型僅訓(xùn)練80個epoch,在無分類器引導(dǎo)時FID達(dá)6.57,遠(yuǎn)超同規(guī)模基于VAE的SiT-XL(22.58);如果延長訓(xùn)練至1400個epoch,F(xiàn)ID可低至1.92,接近當(dāng)前頂級生成模型水平。
![]()
推理效率方面,消融實驗中,5步采樣時,SVG-XL的gFID為12.26,而SiT-XL(SD-VAE)為69.38、SiT-XL(VA-VAE)為74.46。這表明在較少的采樣步數(shù)下,SVG-XL就能達(dá)到較好的生成質(zhì)量。
![]()
不僅是生圖,SVG的特征空間繼承了DINOv3的能力,可直接用于圖像分類、語義分割、深度估計等任務(wù),且無需微調(diào)編碼器。例如,在ImageNet-1K分類任務(wù)中Top-1精度達(dá)到81.8%,與原始DINOv3幾乎一致;在ADE20K語義分割任務(wù)中mIoU達(dá)46.51%,接近專門的分割模型。
![]()
團(tuán)隊介紹
團(tuán)隊由鄭文釗擔(dān)任項目負(fù)責(zé)人,目前是加州大學(xué)伯克利分校博士后。此前,他在清華大學(xué)自動化系獲博士學(xué)位,研究集中在人工智能和深度學(xué)習(xí)領(lǐng)域。
同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學(xué)位,研究重點為多模態(tài)生成模型。
其中,史明磊透露自己還在創(chuàng)辦一家專注于人工智能應(yīng)用的公司。
Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團(tuán)隊。
其中,Pengfei Wan是快手可靈視頻生成模型負(fù)責(zé)人。
從謝賽寧團(tuán)隊的RAE到清華快手的SVG,盡管技術(shù)路線各有側(cè)重,但從兩者的突破可以看出,預(yù)訓(xùn)練視覺模型的特征空間,或許已經(jīng)具備了替代VAE的能力。
論文地址:https://arxiv.org/abs/2510.15301
代碼地址:https://github.com/shiml20/SVG
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.