![]()
本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊,北京大學 2022 級博士生,發表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要關注統一的多模態理解和生成。指導教授是王立威老師,北京大學智能學院教授,曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎。
統一多模態模型要求視覺表征必須兼顧語義(理解)和細節(生成 / 編輯)。早期 VAE 因語義不足而理解受限。近期基于 CLIP 的統一編碼器,面臨理解與重建的權衡:直接量化 CLIP 特征會損害理解性能;而為凍結的 CLIP 訓練解碼器,又因特征細節缺失而無法精確重建。例如,RAE 使用凍結的 DINOv2 重建,PSNR 僅 19.23。
![]()
為解決這一核心矛盾,UniLIP 提出創新的 CLIP 微調框架,通過兩階段重建訓練與自蒸餾損失,在不損失模型原有理解性能的同時,實現了卓越的圖像重建能力。UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT),并保持甚至略微提升其理解性能
不同于 RAE 僅在 ImageNet 上進行了實驗,UniLIP 進行了大規模的生成和編輯訓練。UniLIP 僅用1B 和 3B 參數的模型,便在GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94)等多個基準上取得了 SOTA 性能,媲美甚至超越了更大規模的模型。
![]()
- 論文鏈接:https://www.arxiv.org/pdf/2507.23278
- 開源代碼:https://github.com/nnnth/UniLIP
- 開源模型:https://huggingface.co/kanashi6/UniLIP-3B
方法細節
![]()
CLIP 無損適應圖像重建
為解決 CLIP 特征因細節缺失導致的重建模糊問題,UniLIP 提出了一種創新的兩階段訓練方案,旨在增強其像素級重建能力,同時不損害其卓越的語義理解力。該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構。
第一階段:解碼器對齊。 此階段凍結 CLIP,僅訓練像素解碼器和投影層,使其學習從固定的 CLIP 特征中重建圖像。訓練目標為:
![]()
第二階段:自蒸餾微調。 由于原始 CLIP 特征缺乏像素細節,第一階段的重建質量受限。因此,此階段將共同訓練 CLIP,并通過自蒸餾方法約束其特征,防止其偏離原始分布,從而在注入細節的同時保留語義。訓練目標為:
![]()
![]()
通過此方案,UniLIP 克服了語義理解與像素重建的內在權衡,其理解能力甚至在部分基準上得到增強(見下表)。對于生成與編輯任務,UnLIP 特征帶來了三大優勢:
(1)高保真壓縮:實現 32 倍圖像壓縮,并能通過輕量級解碼器高質量恢復。
(2)強文本對齊:繼承 CLIP 的對齊能力,確保對文本指令的精準響應。
(3)完備特征表示:同時編碼高級語義與像素細節,為高保真編輯提供完整信息。
![]()
用于圖像生成和編輯的雙條件架構
![]()
UniLIP 借鑒了 MetaQuery 范式,但突破了其在圖像編輯任務中的信息瓶頸。傳統方法僅用固定數量的查詢嵌入(Query Embeddings)連接 MLLM 與擴散模型,這在傳遞參考圖像豐富的像素級細節時力不從心,常導致編輯結果細節退化或內容不一致。
為此,UniLIP 提出了一種雙條件架構。該架構在查詢嵌入之外,額外引入 MLLM 的多模態隱藏狀態作為第二個條件,共同引導 DiT 的交叉注意力模塊。這有效地補充了缺失的像素級信息。這種設計成功地將復雜任務解耦:MLLM 專注于高級推理和意圖理解,DiT 則基于這套無損傳遞的、兼具高級語義與底層細節的豐富線索,進行高保真度的圖像合成。最終,UniLIP 在圖像生成與編輯任務上均實現了卓越性能。
實驗結果
模型架構
UniLIP 包括 1B 和 3B 兩個模型變體,它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來。在架構上,UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器,并結合 DC-AE 的像素解碼器。連接器則設計為 6 層,結構與 LLM 保持一致,并使用了 256 個可學習查詢。
訓練數據
UniLIP 的生成數據來自 BLIP3-o,包括 38M 的預訓練數據和 60k 的指令微調數據。UniLIP 的編輯預訓練數據來自 GPT-Image-Edit-1.5M,指令微調數據來自包含 46K 編輯數據的 ShareGPT-4o-Image。
圖像重建
![]()
在 256x256 分辨率下,UniLIP 不僅超越了此前的量化方法,其更高的下采樣率也帶來了生成效率優勢。在 448x448 分辨率下,與使用擴散解碼器的 Emu2 相比,UniLIP 由于打開 CLIP 進行重建訓練取得顯著優勢。
多模態理解
![]()
UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準上進行測試。得益于重建訓練對原始能力的有效保持,UniLIP 實現了同規模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。
圖像生成
![]()
在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準上,UniLIP 憑借卓越的文圖對齊能力,不僅超越了同規模模型,還達到了與 BAGEL 等更大模型相當的水平。
圖像編輯
![]()
在 ImgEdit-Bench 圖像編輯基準上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先進模型。其強大性能歸功于 UniLIP 特征的豐富細節與精準語義對齊能力。UniLIP 創新的雙條件架構充分利用了這些特征,確保了編輯的精確性和非編輯區的一致性。
可視化結果
![]()
在生成任務中,UniLIP 可以生成美觀且嚴格遵循用戶提示的圖像;而在編輯任務中,UniLIP 可以在準確修改圖像的同時保持周圍區域的一致性。
結論
通過精心設計的兩階段訓練與自蒸餾約束,UniLIP 有效解決了語義理解與像素細節保留的矛盾。此外,其創新的雙條件架構無縫連接了 MLLM 與擴散模型,確保了生成和編輯任務中的高保真度與一致性。UniLIP 在多個基準上展示的卓越性能,為下一代統一多模態模型提供了新的范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.