<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

      0
      分享至



      本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊,北京大學 2022 級博士生,發表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要關注統一的多模態理解和生成。指導教授是王立威老師,北京大學智能學院教授,曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎。

      統一多模態模型要求視覺表征必須兼顧語義(理解)和細節(生成 / 編輯)。早期 VAE 因語義不足而理解受限。近期基于 CLIP 的統一編碼器,面臨理解與重建的權衡:直接量化 CLIP 特征會損害理解性能;而為凍結的 CLIP 訓練解碼器,又因特征細節缺失而無法精確重建。例如,RAE 使用凍結的 DINOv2 重建,PSNR 僅 19.23。



      為解決這一核心矛盾,UniLIP 提出創新的 CLIP 微調框架,通過兩階段重建訓練與自蒸餾損失,在不損失模型原有理解性能的同時,實現了卓越的圖像重建能力。UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT),并保持甚至略微提升其理解性能

      不同于 RAE 僅在 ImageNet 上進行了實驗,UniLIP 進行了大規模的生成和編輯訓練。UniLIP 僅用1B 和 3B 參數的模型,便在GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94)等多個基準上取得了 SOTA 性能,媲美甚至超越了更大規模的模型。



      • 論文鏈接:https://www.arxiv.org/pdf/2507.23278
      • 開源代碼:https://github.com/nnnth/UniLIP
      • 開源模型:https://huggingface.co/kanashi6/UniLIP-3B

      方法細節



      CLIP 無損適應圖像重建

      為解決 CLIP 特征因細節缺失導致的重建模糊問題,UniLIP 提出了一種創新的兩階段訓練方案,旨在增強其像素級重建能力,同時不損害其卓越的語義理解力。該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構。

      第一階段:解碼器對齊。 此階段凍結 CLIP,僅訓練像素解碼器和投影層,使其學習從固定的 CLIP 特征中重建圖像。訓練目標為:



      第二階段:自蒸餾微調。 由于原始 CLIP 特征缺乏像素細節,第一階段的重建質量受限。因此,此階段將共同訓練 CLIP,并通過自蒸餾方法約束其特征,防止其偏離原始分布,從而在注入細節的同時保留語義。訓練目標為:





      通過此方案,UniLIP 克服了語義理解與像素重建的內在權衡,其理解能力甚至在部分基準上得到增強(見下表)。對于生成與編輯任務,UnLIP 特征帶來了三大優勢:

      (1)高保真壓縮:實現 32 倍圖像壓縮,并能通過輕量級解碼器高質量恢復。

      (2)強文本對齊:繼承 CLIP 的對齊能力,確保對文本指令的精準響應。

      (3)完備特征表示:同時編碼高級語義與像素細節,為高保真編輯提供完整信息。



      用于圖像生成和編輯的雙條件架構



      UniLIP 借鑒了 MetaQuery 范式,但突破了其在圖像編輯任務中的信息瓶頸。傳統方法僅用固定數量的查詢嵌入(Query Embeddings)連接 MLLM 與擴散模型,這在傳遞參考圖像豐富的像素級細節時力不從心,常導致編輯結果細節退化或內容不一致。

      為此,UniLIP 提出了一種雙條件架構。該架構在查詢嵌入之外,額外引入 MLLM 的多模態隱藏狀態作為第二個條件,共同引導 DiT 的交叉注意力模塊。這有效地補充了缺失的像素級信息。這種設計成功地將復雜任務解耦:MLLM 專注于高級推理和意圖理解,DiT 則基于這套無損傳遞的、兼具高級語義與底層細節的豐富線索,進行高保真度的圖像合成。最終,UniLIP 在圖像生成與編輯任務上均實現了卓越性能。

      實驗結果

      模型架構

      UniLIP 包括 1B 和 3B 兩個模型變體,它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來。在架構上,UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器,并結合 DC-AE 的像素解碼器。連接器則設計為 6 層,結構與 LLM 保持一致,并使用了 256 個可學習查詢。

      訓練數據

      UniLIP 的生成數據來自 BLIP3-o,包括 38M 的預訓練數據和 60k 的指令微調數據。UniLIP 的編輯預訓練數據來自 GPT-Image-Edit-1.5M,指令微調數據來自包含 46K 編輯數據的 ShareGPT-4o-Image。

      圖像重建



      在 256x256 分辨率下,UniLIP 不僅超越了此前的量化方法,其更高的下采樣率也帶來了生成效率優勢。在 448x448 分辨率下,與使用擴散解碼器的 Emu2 相比,UniLIP 由于打開 CLIP 進行重建訓練取得顯著優勢。

      多模態理解



      UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準上進行測試。得益于重建訓練對原始能力的有效保持,UniLIP 實現了同規模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。

      圖像生成



      在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準上,UniLIP 憑借卓越的文圖對齊能力,不僅超越了同規模模型,還達到了與 BAGEL 等更大模型相當的水平。

      圖像編輯



      在 ImgEdit-Bench 圖像編輯基準上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先進模型。其強大性能歸功于 UniLIP 特征的豐富細節與精準語義對齊能力。UniLIP 創新的雙條件架構充分利用了這些特征,確保了編輯的精確性和非編輯區的一致性。

      可視化結果



      在生成任務中,UniLIP 可以生成美觀且嚴格遵循用戶提示的圖像;而在編輯任務中,UniLIP 可以在準確修改圖像的同時保持周圍區域的一致性。

      結論

      通過精心設計的兩階段訓練與自蒸餾約束,UniLIP 有效解決了語義理解與像素細節保留的矛盾。此外,其創新的雙條件架構無縫連接了 MLLM 與擴散模型,確保了生成和編輯任務中的高保真度與一致性。UniLIP 在多個基準上展示的卓越性能,為下一代統一多模態模型提供了新的范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海樓市最詭異的時刻

      上海樓市最詭異的時刻

      環線房產咨詢
      2025-11-05 19:04:25
      神二十飛船疑遭撞擊,沒預警系統?3名航天員、4鼠乘組延期返回

      神二十飛船疑遭撞擊,沒預警系統?3名航天員、4鼠乘組延期返回

      普陀動物世界
      2025-11-06 00:12:28
      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      欲哭無淚!跌幅近70%,從270萬跌到88萬,廣州一頭部樓盤房價崩了

      火山詩話
      2025-11-04 05:49:04
      福建一縣委常委,獲市委提拔(附簡歷)

      福建一縣委常委,獲市委提拔(附簡歷)

      魯中晨報
      2025-11-05 21:43:04
      57歲楊瀾在新加坡旅游被偶遇,她的打扮貴氣十足,身材胖了不少

      57歲楊瀾在新加坡旅游被偶遇,她的打扮貴氣十足,身材胖了不少

      喜歡歷史的阿繁
      2025-11-05 07:21:33
      哇!四川一校花,甜美可人,嬌俏靈動,這笑容也太有感染力了!

      哇!四川一校花,甜美可人,嬌俏靈動,這笑容也太有感染力了!

      情感大頭說說
      2025-11-06 01:19:01
      雄鹿:小波特已成功接受半月板手術 預計將缺陣約四周

      雄鹿:小波特已成功接受半月板手術 預計將缺陣約四周

      北青網-北京青年報
      2025-11-06 07:47:04
      高鐵“面壁座”引爭議:消費者權益視角下的票價與服務匹配之問

      高鐵“面壁座”引爭議:消費者權益視角下的票價與服務匹配之問

      民言民語
      2025-11-05 09:38:04
      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      妙知
      2025-11-05 15:19:50
      中國駐英國使館發言人就英媒報道稱中方阻止英高校開展涉疆研究事答記者問

      中國駐英國使館發言人就英媒報道稱中方阻止英高校開展涉疆研究事答記者問

      環球網資訊
      2025-11-05 09:58:15
      太荒誕!網紅女友賣淫,被嫖客嫌棄賴賬報警,男友送花接出獄被罵

      太荒誕!網紅女友賣淫,被嫖客嫌棄賴賬報警,男友送花接出獄被罵

      扮貓騎老虎
      2025-10-19 18:20:54
      古二得了漸凍癥,在語言功能退化且站立困難之際,他選擇蚍蜉撼樹

      古二得了漸凍癥,在語言功能退化且站立困難之際,他選擇蚍蜉撼樹

      芊手若
      2025-11-04 00:30:07
      谷愛凌,頭發變黑,臉變精致,胸圍傲人,氣質變得更優?

      谷愛凌,頭發變黑,臉變精致,胸圍傲人,氣質變得更優?

      娛樂領航家
      2025-10-27 22:00:06
      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      男孩摸蛋糕后續:媽媽正臉照,已社會性死亡,更惡心言論被扒

      蜉蝣說
      2025-11-05 14:48:10
      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      荷蘭豆愛健康
      2025-11-02 07:55:38
      演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

      演員克拉拉官宣離婚!結束6年婚姻!曾被評為亞洲第一美女!

      調侃國際觀點
      2025-10-17 20:58:13
      從24跌至3元,三季報再踩雷!空冷龍頭被棄,牛散張素芬逆勢殺入

      從24跌至3元,三季報再踩雷!空冷龍頭被棄,牛散張素芬逆勢殺入

      慧眼看世界哈哈
      2025-11-06 05:57:54
      長沙海信廣場,怎么了?

      長沙海信廣場,怎么了?

      獨角Mall
      2025-11-05 13:35:34
      不會吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      不會吃別尬吃!《樹影迷宮》廖凡吃餡餅,讓假吃演員無地自容

      糊咖娛樂
      2025-11-05 11:33:50
      田曦薇真人身材真的巨好啊,又瘦又有料,臉蛋超美

      田曦薇真人身材真的巨好啊,又瘦又有料,臉蛋超美

      手工制作阿殲
      2025-11-06 00:08:44
      2025-11-06 08:55:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      教育
      家居
      藝術
      公開課
      軍事航空

      教育要聞

      83歲還在學英語?ta們告訴你堅持的意義。

      家居要聞

      別樣府院 暢享詩意生活

      藝術要聞

      張鐵林的書法到底有多神秘?看看這幅作品!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色最新高清AV网站| 日韩日韩日韩日韩日韩熟女| 国产性色的免费视频网站| 国产福利视频区一区二区| 亚洲av网一区天堂福利| 国语做受对白XXXXX在线| 思思99热精品在线| 麻豆国产97在线 | 欧美| 澳门永久av免费网站| 免费人妻无码不卡中文字幕18禁| 亚洲精品99久久久久久欧美版| 国产四虎永久免费观看| 国产 精品 自在 线免费| 亚洲区激情区无码区日韩区 | 推油少妇久久99久久99久久| 91老熟女老女人国产老| 固原市| 少妇激情av一区二区三区 | 人妻中文字幕精品一页| 日本一区不卡高清更新二区| 国产精品亚洲А∨天堂免| 在线aⅴ亚洲中文字幕| 日本一区二区三区四区黄色| 国产成人综合亚洲欧美日韩 | 日本高清在线观看WWW色| 久久国产精品老人性| 亚洲成人av综合一区| 欧美日韩亚洲国产| 免费特黄夫妻生活片| 一二三四中文字幕日韩乱码| 4399理论片午午伦夜理片| 久久国产精品福利一区二区三区 | 国产午精品午夜福利757视频播放 国产午夜亚洲精品国产成人 | 精品无码一区二区三区的天堂| 亚洲和欧洲一码二码三码| 十八禁国产精品一区二区| 男女xx00xx的视频免费观看| 亚洲精品自拍在线视频| 久久久久国产精品人妻| 亚洲第一最快av网站| 97人妻天天摸天天爽天天|