<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

      0
      分享至



      本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊,北京大學 2022 級博士生,發表多篇 NeurIPS, CVPR,ICCV 和 ECCV,目前主要關注統一的多模態理解和生成。指導教授是王立威老師,北京大學智能學院教授,曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎。

      統一多模態模型要求視覺表征必須兼顧語義(理解)和細節(生成 / 編輯)。早期 VAE 因語義不足而理解受限。近期基于 CLIP 的統一編碼器,面臨理解與重建的權衡:直接量化 CLIP 特征會損害理解性能;而為凍結的 CLIP 訓練解碼器,又因特征細節缺失而無法精確重建。例如,RAE 使用凍結的 DINOv2 重建,PSNR 僅 19.23。



      為解決這一核心矛盾,UniLIP 提出創新的 CLIP 微調框架,通過兩階段重建訓練與自蒸餾損失,在不損失模型原有理解性能的同時,實現了卓越的圖像重建能力。UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT),并保持甚至略微提升其理解性能

      不同于 RAE 僅在 ImageNet 上進行了實驗,UniLIP 進行了大規模的生成和編輯訓練。UniLIP 僅用1B 和 3B 參數的模型,便在GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94)等多個基準上取得了 SOTA 性能,媲美甚至超越了更大規模的模型。



      • 論文鏈接:https://www.arxiv.org/pdf/2507.23278
      • 開源代碼:https://github.com/nnnth/UniLIP
      • 開源模型:https://huggingface.co/kanashi6/UniLIP-3B

      方法細節



      CLIP 無損適應圖像重建

      為解決 CLIP 特征因細節缺失導致的重建模糊問題,UniLIP 提出了一種創新的兩階段訓練方案,旨在增強其像素級重建能力,同時不損害其卓越的語義理解力。該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構。

      第一階段:解碼器對齊。 此階段凍結 CLIP,僅訓練像素解碼器和投影層,使其學習從固定的 CLIP 特征中重建圖像。訓練目標為:



      第二階段:自蒸餾微調。 由于原始 CLIP 特征缺乏像素細節,第一階段的重建質量受限。因此,此階段將共同訓練 CLIP,并通過自蒸餾方法約束其特征,防止其偏離原始分布,從而在注入細節的同時保留語義。訓練目標為:





      通過此方案,UniLIP 克服了語義理解與像素重建的內在權衡,其理解能力甚至在部分基準上得到增強(見下表)。對于生成與編輯任務,UnLIP 特征帶來了三大優勢:

      (1)高保真壓縮:實現 32 倍圖像壓縮,并能通過輕量級解碼器高質量恢復。

      (2)強文本對齊:繼承 CLIP 的對齊能力,確保對文本指令的精準響應。

      (3)完備特征表示:同時編碼高級語義與像素細節,為高保真編輯提供完整信息。



      用于圖像生成和編輯的雙條件架構



      UniLIP 借鑒了 MetaQuery 范式,但突破了其在圖像編輯任務中的信息瓶頸。傳統方法僅用固定數量的查詢嵌入(Query Embeddings)連接 MLLM 與擴散模型,這在傳遞參考圖像豐富的像素級細節時力不從心,常導致編輯結果細節退化或內容不一致。

      為此,UniLIP 提出了一種雙條件架構。該架構在查詢嵌入之外,額外引入 MLLM 的多模態隱藏狀態作為第二個條件,共同引導 DiT 的交叉注意力模塊。這有效地補充了缺失的像素級信息。這種設計成功地將復雜任務解耦:MLLM 專注于高級推理和意圖理解,DiT 則基于這套無損傳遞的、兼具高級語義與底層細節的豐富線索,進行高保真度的圖像合成。最終,UniLIP 在圖像生成與編輯任務上均實現了卓越性能。

      實驗結果

      模型架構

      UniLIP 包括 1B 和 3B 兩個模型變體,它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來。在架構上,UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器,并結合 DC-AE 的像素解碼器。連接器則設計為 6 層,結構與 LLM 保持一致,并使用了 256 個可學習查詢。

      訓練數據

      UniLIP 的生成數據來自 BLIP3-o,包括 38M 的預訓練數據和 60k 的指令微調數據。UniLIP 的編輯預訓練數據來自 GPT-Image-Edit-1.5M,指令微調數據來自包含 46K 編輯數據的 ShareGPT-4o-Image。

      圖像重建



      在 256x256 分辨率下,UniLIP 不僅超越了此前的量化方法,其更高的下采樣率也帶來了生成效率優勢。在 448x448 分辨率下,與使用擴散解碼器的 Emu2 相比,UniLIP 由于打開 CLIP 進行重建訓練取得顯著優勢。

      多模態理解



      UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準上進行測試。得益于重建訓練對原始能力的有效保持,UniLIP 實現了同規模最好的理解性能,并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。

      圖像生成



      在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準上,UniLIP 憑借卓越的文圖對齊能力,不僅超越了同規模模型,還達到了與 BAGEL 等更大模型相當的水平。

      圖像編輯



      在 ImgEdit-Bench 圖像編輯基準上,UniLIP 以 3.94 的高分超越了 OmniGen2 等先進模型。其強大性能歸功于 UniLIP 特征的豐富細節與精準語義對齊能力。UniLIP 創新的雙條件架構充分利用了這些特征,確保了編輯的精確性和非編輯區的一致性。

      可視化結果



      在生成任務中,UniLIP 可以生成美觀且嚴格遵循用戶提示的圖像;而在編輯任務中,UniLIP 可以在準確修改圖像的同時保持周圍區域的一致性。

      結論

      通過精心設計的兩階段訓練與自蒸餾約束,UniLIP 有效解決了語義理解與像素細節保留的矛盾。此外,其創新的雙條件架構無縫連接了 MLLM 與擴散模型,確保了生成和編輯任務中的高保真度與一致性。UniLIP 在多個基準上展示的卓越性能,為下一代統一多模態模型提供了新的范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      警惕!這種“毒碗”已經上黑榜了,檢查一下,家里有的趕緊扔了吧

      警惕!這種“毒碗”已經上黑榜了,檢查一下,家里有的趕緊扔了吧

      削桐作琴
      2025-10-24 15:45:22
      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      山河路口
      2025-11-05 14:11:46
      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      上海警方通報:詹某(女,30歲)因垃圾堆放問題,與鄰居劉某(男,81歲)等3人發生肢體沖突,已立案

      極目新聞
      2025-11-05 14:43:38
      央視提醒:免疫力是最好的醫生,用8個方法激活它

      央視提醒:免疫力是最好的醫生,用8個方法激活它

      詩詞中國
      2025-11-03 21:30:33
      執教過多支德甲球隊,記者:拉巴迪亞曾進入國足選帥最終階段

      執教過多支德甲球隊,記者:拉巴迪亞曾進入國足選帥最終階段

      懂球帝
      2025-11-05 20:10:15
      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      世界大湖真稀缺啊!全球面積超過1萬km2的才17個,僅5國獨自擁有

      全城探秘
      2025-11-04 16:33:03
      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      喝酒四巨頭:不到兩年全沒,有的去世當天喝4瓶白酒,最小的才26

      墨印齋
      2025-09-22 10:00:58
      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      baby葉珂雙雙哭暈!黃曉明跟女制片人貼臉擁抱,坐大腿親密照來了

      八星人
      2025-11-05 15:32:27
      澤連斯基勇赴火線;預測一下他的未來

      澤連斯基勇赴火線;預測一下他的未來

      近距離
      2025-11-05 10:33:58
      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      于和偉曝余皚磊失眠嚴重,片場險心臟驟停,現被罵到抑郁不想拍戲

      仙味少女心
      2025-11-05 15:42:35
      回購+300億分紅!貴州茅臺打出“重磅組合拳”

      回購+300億分紅!貴州茅臺打出“重磅組合拳”

      財聯社
      2025-11-05 21:30:07
      這類型iPhone17Pro Max有遠程反鎖風險,買到就虧大了!

      這類型iPhone17Pro Max有遠程反鎖風險,買到就虧大了!

      果粉易查
      2025-11-03 20:50:03
      王思聰疑已換女友,顏值身材比懶懶更火辣!有人偷拍被王思聰拒絕

      王思聰疑已換女友,顏值身材比懶懶更火辣!有人偷拍被王思聰拒絕

      娛樂團長
      2025-11-04 11:06:56
      鹿哈官宣領證

      鹿哈官宣領證

      極目新聞
      2025-11-05 21:25:40
      孫宏斌“賭”贏了:融創中國95.5億美元境外債務實質性清零,他還牢牢掌握公司控制權

      孫宏斌“賭”贏了:融創中國95.5億美元境外債務實質性清零,他還牢牢掌握公司控制權

      每日經濟新聞
      2025-11-05 20:28:10
      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      碼農翻身
      2025-11-03 08:58:46
      4年1.1億!從雷霆廢太子到芝加哥登基,這筆1換1交易收獲4大贏家

      4年1.1億!從雷霆廢太子到芝加哥登基,這筆1換1交易收獲4大贏家

      毒舌NBA
      2025-11-05 12:48:51
      受不利氣象條件影響,北京空氣質量達到重度污染水平

      受不利氣象條件影響,北京空氣質量達到重度污染水平

      新京報
      2025-11-05 19:14:16
      中國不愿看到的一幕發生:俄羅斯警告塞爾維亞別亂來,武契奇急了

      中國不愿看到的一幕發生:俄羅斯警告塞爾維亞別亂來,武契奇急了

      霹靂炮
      2025-11-05 22:24:43
      完全就是負面影響!快船讓保羅繼續留在場上簡直就是給對手送分?

      完全就是負面影響!快船讓保羅繼續留在場上簡直就是給對手送分?

      稻谷與小麥
      2025-11-05 23:27:01
      2025-11-05 23:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      健康
      藝術
      旅游
      房產
      公開課

      超聲探頭會加重受傷情況嗎?

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      旅游要聞

      立冬將至 秋韻未央

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av午夜精品福利| 蜜桃久久精品成人无码av| 中文字幕色av一区二区三区 | 国产午夜一区二区在线观看| 狠狠色婷婷久久综合频道日韩| 亚洲人成网线在线播放VA | 国产精品黄色片在线观看| 综合激情网一区二区三区| 原阳县| 国产精品夜夜春夜夜爽久久小说| 精品视频一区二区福利午夜| 大香j蕉75久久精品免费8| 99国产欧美另类久久久精品| 国99久9在线 | 免费| 亚洲高清最新AV网站| 来凤县| 精品精品亚洲高清a毛片| 精品国产一区二区三区大| 99久久国产综合精品女图图等你| 性一交一乱一乱一视频| 日韩精品无码免费专区午夜不卡| 丰满人妻熟妇乱精品视频| 99热门精品一区二区三区无码 | 黑人异族巨大巨大巨粗| 精品久久久久久无码不卡| 久久人人97超碰精品| 人妻系列中文字幕精品| 东港市| av在线播放日韩亚洲欧| 小嫩批日出水无码视频免费| 熟女人妇 成熟妇女系列视频| 4399理论片午午伦夜理片| 国产欧美日韩亚洲一区二区三区| 91网站在线看| 国产欧美日韩精品丝袜高跟鞋| 国产在线一区二区在线视频| 无码一区中文字幕| 国产免费无遮挡吸奶头视频| 久久精品国产88精品久久| 秋霞在线观看秋| 亚洲国产性夜夜综合|