<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      VAE再被補(bǔ)刀!清華快手新模型,訓(xùn)練提效6200%,生成提速3500%

      0
      分享至

      • 聞樂 發(fā)自 凹非寺
      • 量子位 | 公眾號 QbitAI

      前腳謝賽寧剛宣告VAE在圖像生成領(lǐng)域退役,后腳清華與快手可靈團(tuán)隊也帶著無VAE潛在擴(kuò)散模型SVG來了。

      該方法實現(xiàn)了在訓(xùn)練效率上62倍、生成速度上35倍的提升。



      VAE為何被接連拋棄?主要還是因為語義糾纏的缺陷——語義特征都放在同一個潛空間,調(diào)一個數(shù)值就會“牽一發(fā)而動全身”,比如只想改變貓的顏色,結(jié)果體型、表情都跟著變。

      和謝賽寧團(tuán)隊極簡復(fù)用預(yù)訓(xùn)練編碼器、改造DiT架構(gòu),專注于生成性能的RAE不同,SVG通過語義+細(xì)節(jié)雙分支+分布對齊,實現(xiàn)了多任務(wù)通用。



      下面具體來看。

      主動構(gòu)建語義與細(xì)節(jié)融合的特征空間

      在傳統(tǒng)的「VAE+擴(kuò)散模型」圖像生成范式中,VAE的核心作用是將高分辨率圖像壓縮為低維的潛空間特征(可以理解為圖像的簡化代碼),供后續(xù)擴(kuò)散模型學(xué)習(xí)生成邏輯。

      但這樣會使不同類別、不同語義的圖像特征會混亂地交織在一起,比如貓和狗的特征邊界模糊不清等。

      直接導(dǎo)致兩個問題:

      • 一是擴(kuò)散模型訓(xùn)練效率極低,需要數(shù)百萬步迭代才能勉強(qiáng)理清特征邏輯;
      • 二是生成過程繁瑣,往往需要經(jīng)過幾十甚至上百步采樣才能輸出清晰圖像。

      并且,生成的特征空間用途單一,除了圖像生成,幾乎無法適配圖像識別、語義分割等其他視覺任務(wù)。

      面對VAE的困境,謝賽寧團(tuán)隊的RAE技術(shù)選擇了極致聚焦生成的思路。直接復(fù)用DINOv2、MAE等成熟的預(yù)訓(xùn)練編碼器,不額外修改編碼器結(jié)構(gòu),僅通過優(yōu)化解碼器來還原圖像細(xì)節(jié),同時針對性地改造擴(kuò)散模型架構(gòu)。

      最終實現(xiàn)了生成效率與質(zhì)量的跨越式提升,簡單說就是把重心全放在了“把圖生成得又快又好”上。

      而清華&快手可靈團(tuán)隊的SVG技術(shù),則走了兼顧生成與多任務(wù)通用的路線,核心差異就在于對特征空間的構(gòu)建邏輯上。

      RAE是直接復(fù)用預(yù)訓(xùn)練特征,SVG 則是主動構(gòu)建語義與細(xì)節(jié)融合的特征空間。



      具體來看,SVG選擇以DINOv3預(yù)訓(xùn)練模型作為語義提取器。

      原因是DINOv3經(jīng)過大規(guī)模自監(jiān)督學(xué)習(xí),能夠精準(zhǔn)捕捉圖像的高層語義信息,讓貓、狗、汽車等不同類別的特征邊界能夠清晰可辨,從根源上解決了語義糾纏問題。

      但團(tuán)隊也發(fā)現(xiàn),DINOv3提取的特征偏重于宏觀語義,會丟失顏色、紋理等高頻細(xì)節(jié),因此又專門設(shè)計了一個輕量級的殘差編碼器來進(jìn)行細(xì)節(jié)補(bǔ)充,針對性地學(xué)習(xí)這些被忽略的細(xì)節(jié)信息。

      而為了讓「語義」和「細(xì)節(jié)補(bǔ)充」能夠完美融合,SVG還加入了關(guān)鍵的分布對齊機(jī)制

      這一機(jī)制通過技術(shù)手段調(diào)整殘差編碼器輸出的細(xì)節(jié)特征,使其在數(shù)值分布上與DINOv3的語義特征完全匹配,避免細(xì)節(jié)信息擾亂語義結(jié)構(gòu)。

      實驗數(shù)據(jù)也印證了這一機(jī)制的重要性。去掉分布對齊后,SVG生成圖像的FID值(衡量生成圖像與真實圖像相似度的核心指標(biāo),數(shù)值越低越優(yōu))從6.12升至9.03,生成質(zhì)量大幅下滑。



      實驗結(jié)果顯示,SVG在生成質(zhì)量、效率、多任務(wù)通用性上全面超越傳統(tǒng)VAE方案。

      訓(xùn)練效率方面,在ImageNet 256×256數(shù)據(jù)集上,SVG-XL模型僅訓(xùn)練80個epoch,在無分類器引導(dǎo)時FID達(dá)6.57,遠(yuǎn)超同規(guī)模基于VAE的SiT-XL(22.58);如果延長訓(xùn)練至1400個epoch,F(xiàn)ID可低至1.92,接近當(dāng)前頂級生成模型水平。



      推理效率方面,消融實驗中,5步采樣時,SVG-XL的gFID為12.26,而SiT-XL(SD-VAE)為69.38、SiT-XL(VA-VAE)為74.46。這表明在較少的采樣步數(shù)下,SVG-XL就能達(dá)到較好的生成質(zhì)量。



      不僅是生圖,SVG的特征空間繼承了DINOv3的能力,可直接用于圖像分類、語義分割、深度估計等任務(wù),且無需微調(diào)編碼器。例如,在ImageNet-1K分類任務(wù)中Top-1精度達(dá)到81.8%,與原始DINOv3幾乎一致;在ADE20K語義分割任務(wù)中mIoU達(dá)46.51%,接近專門的分割模型。



      團(tuán)隊介紹

      團(tuán)隊由鄭文釗擔(dān)任項目負(fù)責(zé)人,目前是加州大學(xué)伯克利分校博士后。此前,他在清華大學(xué)自動化系獲博士學(xué)位,研究集中在人工智能和深度學(xué)習(xí)領(lǐng)域。

      同樣來自清華自動化系的史明磊和王皓霖目前均在攻讀博士學(xué)位,研究重點為多模態(tài)生成模型。

      其中,史明磊透露自己還在創(chuàng)辦一家專注于人工智能應(yīng)用的公司。

      Ziyang Yuan、Xiaoshi Wu、Xintao Wang、Pengfei Wan則來自快手可靈團(tuán)隊。

      其中,Pengfei Wan是快手可靈視頻生成模型負(fù)責(zé)人。

      從謝賽寧團(tuán)隊的RAE到清華快手的SVG,盡管技術(shù)路線各有側(cè)重,但從兩者的突破可以看出,預(yù)訓(xùn)練視覺模型的特征空間,或許已經(jīng)具備了替代VAE的能力。

      論文地址:https://arxiv.org/abs/2510.15301
      代碼地址:https://github.com/shiml20/SVG

      — 完 —

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      就在今天!11月6日凌晨,跳水界傳來全紅嬋、王偉瑩、陳芋汐消息

      就在今天!11月6日凌晨,跳水界傳來全紅嬋、王偉瑩、陳芋汐消息

      陳意小可愛
      2025-11-06 06:12:38
      邵佳一掌舵國足!媒體人熱議:別把人家害太慘了,難度非常非常大

      邵佳一掌舵國足!媒體人熱議:別把人家害太慘了,難度非常非常大

      奧拜爾
      2025-11-05 17:26:48
      港星林尚武突發(fā)心臟病去世!飾演“丘處機(jī)”成名,與疾病斗爭多年

      港星林尚武突發(fā)心臟病去世!飾演“丘處機(jī)”成名,與疾病斗爭多年

      振華觀史
      2025-11-05 15:18:36
      股票起飛前,"換手率"都會出現(xiàn)這樣的特征,不懂的散戶請不要炒股

      股票起飛前,"換手率"都會出現(xiàn)這樣的特征,不懂的散戶請不要炒股

      股經(jīng)縱橫談
      2025-11-05 17:30:10
      奉勸所有中國人,必須做好心理準(zhǔn)備,俄羅斯外交部發(fā)言人說出事實

      奉勸所有中國人,必須做好心理準(zhǔn)備,俄羅斯外交部發(fā)言人說出事實

      百態(tài)人間
      2025-11-06 05:15:03
      阿里前高管掌舵山姆,APP界面遭狂噴:一股盒馬味!

      阿里前高管掌舵山姆,APP界面遭狂噴:一股盒馬味!

      雷科技
      2025-11-03 22:13:43
      向全世界展示,中國是如何救援空間站宇航員的,美俄都沒有這能力

      向全世界展示,中國是如何救援空間站宇航員的,美俄都沒有這能力

      講者普拉斯
      2025-11-05 20:51:42
      統(tǒng)一信號如此強(qiáng)烈!推進(jìn)速度越來越快,已有數(shù)十萬人更換身份證!

      統(tǒng)一信號如此強(qiáng)烈!推進(jìn)速度越來越快,已有數(shù)十萬人更換身份證!

      李博世財經(jīng)
      2025-11-05 09:56:07
      星光黯淡,官方:庫里、巴特勒、追夢、小薩和拉文均缺席勇王之戰(zhàn)

      星光黯淡,官方:庫里、巴特勒、追夢、小薩和拉文均缺席勇王之戰(zhàn)

      懂球帝
      2025-11-06 08:45:06
      歐盟公開指責(zé)中國 “冷酷無情”,稱處決叛徒影響中歐互信,遭中國揭雙重標(biāo)準(zhǔn)

      歐盟公開指責(zé)中國 “冷酷無情”,稱處決叛徒影響中歐互信,遭中國揭雙重標(biāo)準(zhǔn)

      暮光視界
      2025-11-05 23:50:24
      退休夫婦從32樓躍下,3年后房被賤賣,買主深夜竟聽天花板有腳步聲

      退休夫婦從32樓躍下,3年后房被賤賣,買主深夜竟聽天花板有腳步聲

      罪案洞察者
      2025-09-23 14:37:35
      北京團(tuán)結(jié)湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      北京團(tuán)結(jié)湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      新浪財經(jīng)
      2025-11-05 00:55:46
      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      項鵬飛
      2025-11-05 20:53:35
      75歲劉曉慶穿“露大腿”短褲火上熱搜,葉童的話,終于有人信了

      75歲劉曉慶穿“露大腿”短褲火上熱搜,葉童的話,終于有人信了

      農(nóng)城浪子
      2025-10-25 22:42:12
      中科大碩士求職比亞迪被拒,連面試的機(jī)會都沒有,HR:問你母校!

      中科大碩士求職比亞迪被拒,連面試的機(jī)會都沒有,HR:問你母校!

      知曉科普
      2025-11-05 15:21:19
      人類“最慘”的一年是哪一年?公元536年稱第二,沒人敢稱第一!

      人類“最慘”的一年是哪一年?公元536年稱第二,沒人敢稱第一!

      輝輝歷史記
      2025-11-05 08:51:15
      國足新主帥出爐!名記:邵佳一確認(rèn)當(dāng)選,執(zhí)教西海岸勝率36%

      國足新主帥出爐!名記:邵佳一確認(rèn)當(dāng)選,執(zhí)教西海岸勝率36%

      奧拜爾
      2025-11-05 17:03:23
      害死吳石的谷正文,晚年性情大變?1990年他揚(yáng)言:殺李登輝很容易

      害死吳石的谷正文,晚年性情大變?1990年他揚(yáng)言:殺李登輝很容易

      文史達(dá)觀
      2025-11-05 17:36:09
      中國希望看到的一幕將發(fā)生,特朗普緊急發(fā)文,這一次他真的輸不起

      中國希望看到的一幕將發(fā)生,特朗普緊急發(fā)文,這一次他真的輸不起

      現(xiàn)代小青青慕慕
      2025-11-05 09:05:21
      女子水洗貂退貨后續(xù):老板娘起訴了,買家已社會性死亡,底褲被扒

      女子水洗貂退貨后續(xù):老板娘起訴了,買家已社會性死亡,底褲被扒

      阿纂看事
      2025-11-06 08:06:17
      2025-11-06 09:55:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11633文章數(shù) 176326關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認(rèn)輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業(yè)主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業(yè)主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態(tài)度原創(chuàng)

      游戲
      本地
      數(shù)碼
      公開課
      軍事航空

      《怪物獵人物語3》采用D加密 PC配置一點都不低

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      數(shù)碼要聞

      Siri 最強(qiáng)外援:消息稱蘋果擬每年支付 10 億美元集成谷歌 Gemini

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發(fā)射洲際彈道導(dǎo)彈 俄方回應(yīng)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品一区 在线播放| 免费人成在线观看网站| 男女啪啪网站| 亚洲中文字幕久久精品品| 国产精品亚洲二区在线播放| 久久精品无码专区免费东京热| 欧美日本一区二区视频在线观看| 色欲综合久久中文字幕网| 国产精品普通话国语对白露脸| 四虎影视久久久免费| 国语精品国内自产视频| 国产在线一区二区在线视频| 曰本丰满熟妇xxxx性| 日本视频一两二两三区| 国产95在线 | 欧美| 国产精品人妻久久ai换脸| 欧美成人aaa片一区国产精品| 国产精品自在自线视频| 日韩AV高清在线看片| 亚洲嫩模喷白浆在线观看| 亚洲色成人一区二区三区| 久久成人影院精品777| 高级会所人妻互换94部分| 国产精品久久毛片| 国产片一区二区三区视频| 69人妻精品中文字幕| 超碰成人人人做人人爽| 国产精品午夜福利精品| 午夜免费无码福利视频麻豆| 四虎成人精品无码永久在线 | 色综合中文字幕色综合激情| 最新精品露脸国产在线| 国产亚洲综合另类色专区| 亚洲美免无码中文字幕在线| 盘山县| 亚洲国产一成人久久精品| 久久99热只有频精品8| 99精品人妻少妇一区| 欧美黑吊大战白妞| 欧美性做爰片免费视频看| 97av麻豆蜜桃一区二区|