<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      VFMTok: Visual Foundation Models驅動的Tokenizer時代來臨

      0
      分享至



      視覺 Tokenizer 的困境與破局

      近年來,自回歸(Autoregressive, AR)模型在語言生成領域的成功激發了其在圖像生成領域的應用,涌現出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。這類技術高度依賴于 VQGAN 等視覺 Tokenizer,它負責將高維、冗余的像素空間映射到一個低維、緊湊的離散潛在空間,是決定生成模型上限的基石。

      然而,以 VQGAN 為代表的傳統 Tokenizer 通常需要從零開始訓練,其訓練目標由像素級重建損失函數主導,導致其產生的潛在空間:

      1. 富含低層細節特征卻缺乏高層語義信息:能很好地還原圖像細節,但潛在編碼本身缺乏高層語義信息。
      2. 較高的潛在空間冗余:VAGAN 基于圖像塊 (patch) 逐一進行量化,而圖像中的物體通常是不規則的區域,基于圖像塊的量化降低了 tokens 的編碼效率。
      3. 無視結構特性的表征:潛在空間的組織較為混亂,使得生成模型不僅需要更長的訓練時間來學習其潛在空間分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧來實現高保真度的圖像生成,增加了模型推理時間。

      與此同時,預訓練的視覺基礎模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取豐富語義且可泛化視覺特征方面表現出了強大的能力。這些模型通過自監督或語言監督的方式進行訓練,它們能夠有效抽象出圖像中的高層語義信息,因此這些預訓練的視覺基礎模型大多應用于圖像內容理解任務當中。直接將其應用于圖像重建和生成任務上卻鮮有人探索。

      基于此,香港大學 CVMI Lab 和階躍星辰 AIGC 團隊提出一個大膽假設:原本為視覺理解任務設計的預訓練視覺基礎模型,其潛在特征是否也能直接作為圖像重建與生成的魯棒結構化表征?

      為了驗證這一猜想,我們探索了一個基礎視覺模型新的應用新方向:用凍結的預訓練視覺基礎模型構造離散的視覺 Tokenizer,將其應用于圖像重建和自回歸圖像生成任務上。

      我們發現,相比于傳統的視覺 Tokenizer 模型,視覺基礎模型驅動的圖像 Tokenizer 在這兩項任務上均表現出優異的性能。



      • 論文標題: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation
      • 論文地址: https://arxiv.org/pdf/2507.08441
      • Huggingface: https://huggingface.co/papers/2507.08441
      • Github:
      • https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)
      • https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)

      探索性發現

      為了驗證視覺基礎模型 (VFMs) 能否構造高質量的視覺 Tokenizer,我們首次嘗試使用不同的凍結的預訓練基礎視覺模型 (VFMs) 提取圖像特征,將其送入 VQGAN 的編碼器中進行端到端訓練。訓練階段只有量化器(quantilizer)和解碼器中的參數會進行更新,隨后用它完成自回歸圖像生成任務。

      實驗表明:凍結的視覺基礎模型 (VFMs) 提取的圖像特征可以直接用于圖像重建,且訓練好的視覺 Tokenizer 在自回歸圖像生成任務上的表現優于傳統的視覺 Tokenizer 模型。

      這一發現凸顯了預訓練視覺基礎模型 (VFMs) 構造高質量視覺 Tokenizer 的巨大潛力。



      核心思想

      基于我們的探索性發現:凍結的視覺基礎模型 (VFMs) 可以直接構造高質量的視覺 Tokenizer 并進行端到端地訓練,我們對構造的視覺 Tokenizer 的結構進行進一步的優化 —— 利用視覺基礎模型 (VFMs)提取圖像的多層特征 (Multi-level Features Extraction),這有助于同時捕獲圖像中的低層細節特征和高層語義信息。

      同時,我們注意到現有的量化機制 (quantization) 都是對圖像塊 (patch) 逐一量化,而圖像中物體一般都是形狀不規則的,因此我們設計了區域自適應的量化 (Region-Adaptive Quantization) 方案。該方案可以進一步降低潛在特征空間的冗余度,提高視覺 tokens 的利用效率。

      此外,因為視覺基礎模型的參數是凍結的,因此在重建圖像內容的同時,我們也設計了語義特征重建的目標函數 (Semantic Reconstruction Objective),來提升視覺 Tokenizer 的語義保真度。我們將基于視覺基礎模型 (VFMs) 的 Tokenizer 稱之為VFMTok。



      VFMTok 架構圖

      關鍵技術細節

      • 多層圖像特征提取 (Multi-level Features Extraction)

      為了同時捕獲圖像低層細節特征和高層語義信息方便圖像重建,VFMTok 采用凍結的預訓練的視覺基礎模型 (VFMs) 作為編碼器提取多層級語義特征。VFMTok 按照等間隔的方式從預訓練基礎模型 (VFMs) 中提取多層特征 (multi-level features)。

      • 區域自適應量化 (Region-Adaptive Quantization)

      為了實現區域自適應量化 (Region-Adaptive Quantization) 機制,VFMTok 通過可學習「錨點查詢」(Anchor Queries)結合可變形注意力機制(Deformable Attention)自適應地從多層級特征 (multi-level features) 中進行區域自適應的特征采樣 (Region-Adaptive Sampling)。

      這種方式能聚焦于采樣圖像中模式一致的區域。隨后,VFMToks 對可學習「錨點查詢」(Anchor Queries)進行量化 (quantization)。這種方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)來表征一張圖像。



      • 語義重建目標(Semantic Reconstruction Objective)

      因為視覺基礎模型在 Tokenizer 的訓練階段參數是凍結的,因此 VFMTok 在重建圖像的同時,也會重建凍結的基礎模型(VFM)最后一層的語義特征。

      為了實現這一點,VFMTok 解碼階段設計了一個共享的輕量級 Vision Transformer(ViT)。這個 ViT 接收區域自適應量化后的 tokens,結合一個可學習的 mask token 以及一組可學習的位置編碼(Positional Embedding)作為輸入,分別產生用于圖像重建和語義重建的特征。共享 ViT 的設計既減少了參數量又保證了語義保真度。其雙重目標函數是:





      訓練完成后,VFMTok 可以被應用于圖像自適應回歸任務上,基于 next-token prediction 的方式生成高質量的圖像內容。

      實驗亮點與分析

      1.卓越的重建生成質量與效率

      大量實驗表明,基于視覺基礎模型 (VFMs) 構造的視覺 Tokenizer——VFMTok,具備高質量、高效率的圖像重建和自回歸圖像生成能力。

      • 更好的圖像重建質量:相較于傳統的視覺 Tokenizer,VFMTok 可以用更少的 token 數量(僅用 256 個)實現更優的重建質量(0.89 rFID, 215.4 rIS)和更高的碼本利用率 (100%),超越了之前大部分傳統的離散 Tokenizers。



      • 更快的生成訓練收斂速度:相比于經典的 VQGAN 這類 Tokenizer,VFMTok 能夠顯著提升自回歸模型訓練階段的收斂速度 ——訓練收斂速度提升了 3 倍。



      • 更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任務上,VFMTok-1.4B 模型在參數量更少、訓練迭代次數更少的情況下,自回歸生成性能超越了同類 LlamaGen-3B。此外,在接入更好的自回歸圖像生成框架 RAR 后,實現了SOTA 的圖像生成性能(gFID: 1.36)。



      • CFG-free 優越性:值得注意的是,VFMTok 在有無 CFG 的情況下性能幾乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 則會從 2.19 急劇惡化至 9.38。這證明了其潛在空間具有極強的語義一致性,無需 CFG 即可實現高保真度的 class-to-image 圖像生成,可以進一步減少圖像生成時間。
      • 更快的推理速度:由于 tokens 數量減半(256 vs. 576),自回歸模型的生成過程長度減半,推理速度因此獲得了約 4 倍的提升。

      2.消融實驗的有力證明

      僅使用凍結的 VFM 作為編碼器,線性探針準確率(linear probing)就從 VQGAN 的 23.1% 提升至56.4%。引入區域自適應量化 (Region-Adaptive Quantization) 和語義特征重建 (Semantic Reconstruction Objective) 后,VFMTok 僅用 256 個 Token 就能在重建質量(rFID 0.89 vs 0.95) 上全面超越使用 576 個 Token 的 VQGAN 基線 Tokenizer。



      總結與展望

      VFMTok 首次證明了凍結的視覺基礎模型 (VFMs) 提取的圖像特征能有效用于圖像重建與生成,同時可以提升 Tokenizer 語義表征能力,使自回歸 (AR) 圖像生成模型收斂更快,并能實現 CFG-free 的高保真圖像合成。VFMTok 提出的區域自適應量化機制,通過有效利用圖像區域的固有冗余實現緊湊編碼,在減少視覺 token 數量的同時提升性能,實現高效且高質量的自回歸圖像生成。

      大量實驗驗證了 VFMTok 在圖像重建和自回歸生成中的有效性,確立了預訓練視覺基礎模型 (VFMs) 構造高質量、高效率 Tokenizer 的主導地位。

      由此可見,利用 VFM 的先驗知識是構建高質量潛在空間的必由之路,也是構建下一代 Tokenizer 的關鍵,這比任何從零開始的正則化或約束都更根本、更有效。預訓練視覺基礎模型的巨大潛力值得我們在未來深入挖掘,最終可能探索出一個能夠有效兼容所有生成模型的、語義豐富、高質高效的「統一 Tokenizer」。

      VFMTok 論文與代碼均已公開,歡迎感興趣的同學閱讀、復現以及深入討論。

      作者介紹

      本文作者主要來自于香港大學 CVMI Lab 和階躍星辰 AIGC 團隊。階躍星辰 AIGC 團隊主要致力于圖像生成底模、圖像編輯底模、世界模型以及 RL 后訓練研究和落地。歡迎志同道合的同學交流和加入,一起為 AIGC 社區貢獻力量。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中美防長會上,赫格賽斯反復強調一句話,在解放軍面前談起了自保

      中美防長會上,赫格賽斯反復強調一句話,在解放軍面前談起了自保

      博覽歷史
      2025-11-04 20:21:47
      國補確認恢復繼續!國補政策11月6日新消息:新一輪國補690億11月繼續發放,國補截止時間2025年12月31日

      國補確認恢復繼續!國補政策11月6日新消息:新一輪國補690億11月繼續發放,國補截止時間2025年12月31日

      開封網
      2025-11-06 10:59:20
      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      三只羊老K換賽道,合肥開店獲嘴哥喬妹支持,目前僅有三位高徒在

      裕豐娛間說
      2025-11-06 10:37:52
      扁鵲為何從課本中移除?四川古墓出土9部醫書,揭開他的身世之謎

      扁鵲為何從課本中移除?四川古墓出土9部醫書,揭開他的身世之謎

      小豫講故事
      2025-10-28 06:00:07
      天津濱海高新區黨委原書記夏青林已任市工信局黨組書記

      天津濱海高新區黨委原書記夏青林已任市工信局黨組書記

      澎湃新聞
      2025-11-06 10:12:32
      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      他從正軍職空降新疆軍區副政委,機關:我們這里提不起一個政委?

      大運河時空
      2025-11-04 21:40:03
      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      蜉蝣說
      2025-11-05 14:48:10
      墨西哥女總統當街遭男子猥褻,險遭親吻

      墨西哥女總統當街遭男子猥褻,險遭親吻

      觀威海
      2025-11-05 10:50:09
      2人重傷手術,凱斯勒賽季報銷!文班亞馬聯盟第1,老詹要被下放

      2人重傷手術,凱斯勒賽季報銷!文班亞馬聯盟第1,老詹要被下放

      世界體育圈
      2025-11-06 11:11:47
      遮蓋還能解鎖 蘋果:Face ID不用前置攝像頭

      遮蓋還能解鎖 蘋果:Face ID不用前置攝像頭

      PChome電腦之家
      2025-11-06 09:56:02
      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      震驚全韓!中國學生為工科拼命,韓國學生為醫學瘋魔,KBS紀錄片揭露真實現狀

      最英國
      2025-11-03 19:26:41
      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      俄烏大結局終于要來?最大罪人已浮現,澤連斯基終于等來美方信號

      漫步獨行俠
      2025-11-05 11:12:25
      金價,大反轉!

      金價,大反轉!

      魯南商報
      2025-11-05 16:06:32
      WTA總決賽爆發群體性感染!凱斯退賽、連小米拉也婉拒替補出賽

      WTA總決賽爆發群體性感染!凱斯退賽、連小米拉也婉拒替補出賽

      體育妞世界
      2025-11-06 06:20:22
      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      當年,劉威給劉蓓打電話:偏兒,我要在北京租房子,你有門路沒?

      忠于法紀
      2025-11-06 09:15:52
      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      挪威森林
      2025-11-02 12:56:16
      馬思純減重50斤后首度談心:我不是變強了,只是學會更愛自己了!

      馬思純減重50斤后首度談心:我不是變強了,只是學會更愛自己了!

      娛娛樂樂是個圈圈
      2025-11-04 21:39:34
      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      湖南前主持田源,直播間哭訴:維嘉能回去,求求前東家也讓我回去

      樂悠悠娛樂
      2025-11-05 10:38:51
      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      大風新聞
      2025-11-05 14:48:02
      全球第一,固態電池巨頭,拿下120億訂單!

      全球第一,固態電池巨頭,拿下120億訂單!

      飛鯨投研
      2025-11-05 09:08:06
      2025-11-06 11:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      東山精密收購法國知名企業:和安世半導體有很大不同

      頭條要聞

      東山精密收購法國知名企業:和安世半導體有很大不同

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      家居
      旅游
      手機
      教育
      數碼

      家居要聞

      別樣府院 暢享詩意生活

      旅游要聞

      這家在B站爆火的旅行社,公開了自己的秘籍

      手機要聞

      OV新款旗艦賣爆,天璣9500何以實現性能與能效的完美平衡?

      教育要聞

      驚!初三女孩大疆被老師沒收,家長打電話也不還

      數碼要聞

      華為WATCH Ultimate 2官宣:11月7日10:08開啟預售

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品无码一区二区小草 | 又爽又黄又无遮掩的免费视频| 女人扒开腿让男人桶到爽| 污污网站18禁在线永久免费观看| 狠狠亚洲色一日本高清色| julia无码中文字幕一区| 精品国产乱弄九九99久久| 精品一区二区中文字幕| 麻豆aⅴ精品无码一区二区| 蜜桃无码一区二区三区| 一本久道久久综合久久鬼色| 久久中文字幕日韩无码视频| 国产精品99中文字幕| 亚洲男人天堂东京热加勒比 | 国产成人剧情AV麻豆果冻| 亚洲大尺度一区二区三区| 欧美人成精品网站播放| 老色鬼永久精品网站| 日韩精品一区二区亚洲专区| 日本高清成本人视频一区| 国产成人无码一二三区视频| 国产粉嫩区一区二区三区| 日本精品一区二区不卡| 国产线播放免费人成视频播放| 欧美黑吊大战白妞| 国产精品 自在自线| 午夜精品极品粉嫩国产尤物| 人妻少妇久久中文字幕| 亚洲最大成人美女色av| 真人性囗交视频| 少妇人妻偷人精品系列| 色综合欧美亚洲国产| 一区二区三区四区亚洲自拍| 夜夜夜高潮夜夜爽夜夜爰爰| 中阳县| 午夜免费无码福利视频麻豆| 久久a级片| 在线免费播放av观看| 亚洲AV乱码毛片在线播放| 男女裸体影院高潮| 亚洲天堂av日韩精品|