網易首頁 > 網易號 > 正文申請入駐

比NanoBanana更擅長中文和細節控制！兔展&北大新模型刷新SOTA

2025-11-05 14:42:26　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

比Nano Banana更擅長P細節的圖像編輯模型來了，還是更懂中文的那種。

就像這樣，要求AI“把中間白色衣服戴口罩女生的手勢改成OK”，原圖如下：

這個名為UniWorld-V2的模型能做到完美修改。

而Nano Banana則未能成功get到提示詞的意圖。

模型背后，是兔展智能&北京大學的UniWorld團隊的最新技術成果：

他們提出了一種名為UniWorld-R1的創新型圖像編輯后期訓練框架，該框架首次將強化學習（RL）策略優化應用于統一架構的圖像編輯模型，是第一個視覺強化學習框架。基于此，他們推出了新一代模型UniWorld-V2。

UniWorld-V2在GEdit-Bench和ImgEdit等行業權威基準測試中取得了SOTA成績，在綜合表現上超越了如OpenAI的GPT-Image-1等頂尖閉源模型。

一起來看詳細技術報告。

強大的中文字體掌握與精細化可控

功能上，UniWorld-V2在實際應用中展現了SFT模型難以企及的精細化控制力。

中文字體掌握

在論文的“海報編輯”示例中，模型能精準理解指令，并渲染出“月滿中秋”和“月圓人圓事事圓”等筆畫復雜的藝術中文字體，效果清晰、語義準確。

能做到想改啥字改啥字，只需一句Prompt。

精細化空間可控

在“紅框控制”任務中，用戶可以通過畫框（如紅色矩形框）來指定編輯區域，模型能夠嚴格遵守該空間限制，實現“將鳥移出紅框”等高難度精細操作。

全局光影融合

模型能深刻理解“給場景重新打光”等指令，使物體自然融入場景之中，讓畫面變得更統一和諧，并且光影融合度極高。

核心創新：UniWorld-R1框架

實現以上功能，研究團隊的核心創新是提出了UniWorld-R1框架。

傳統的圖像編輯模型依賴監督微調（SFT），普遍存在對訓練數據過擬合、泛化能力差的問題。此外，還存在面對編輯指令和任務的多樣性，缺乏通用獎勵模型的瓶頸。

UniWorld-R1框架的核心優勢在于：

首個基于強化學習的統一架構：UniWorld-R1是業內首個基于策略優化（RL）的圖像編輯后期訓練框架。它采用了Diffusion Negative-aware Finetuning （擴散負向感知微調，DiffusionNFT）技術，這是一種無需似然估計的策略優化方法，訓練更高效，并且允許使用高階采樣器。

MLLM作為免訓練獎勵模型：針對編輯任務多樣性導致缺乏通用獎勵模型的挑戰，UniWorld-R1開創性地使用多模態大語言模型（MLLM，如GPT-4V）作為統一的、免訓練的獎勵模型。通過利用MLLM的輸出logits（而非單一評分）來提供精細化的隱式反饋，極大地提升了模型對人類意圖的對齊能力。

如下圖所示，UniWorld-R1的pipeline主要包括三個部分：采樣、MLLM評分和DiffusionNFT，這三個部分逐步將模型與最優策略對齊。

全面超越SOTA，分數領跑

實驗方面，研究團隊整理了一個包含27572個基于指令的編輯樣本的數據集。

這些樣本來自LAION、LexArt和UniWorldV1。為了增強任務多樣性，加入了額外的文本編輯和紅框控制任務，共形成九種不同的任務類型。

研究團隊訓練FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509]和UniWorld-V2作為基礎模型，并采用ImgEdit和GEdit-Bench作為測試基準。前者將多種專門任務統一為一個通用框架以進行全面模型比較，后者通過豐富的自然語言指令評估通用圖像編輯。

在GEdit-Bench基準測試中，UniWorld-V2（基于UniWorld-R1訓練）獲得了7.83的驚人高分，顯著優于GPT-Image-1 [High]（7.53分）和Gemini 2.0（6.32分）。在ImgEdit基準上，UniWorld-V2同樣以4.49分領跑，超越了所有已知的開源和閉源模型。

更重要的是，UniWorld-R1框架具有極強的通用性。當該框架被應用于Qwen-Image-Edit和FLUX-Kontext等其他基礎模型時，同樣帶來了顯著的性能提升，充分證明了其作為通用后期訓練框架的巨大價值。

該方法顯著增強了所有基礎模型在ImgEdit基準上的表現。對于FLUX.1-Kontext [Dev]，整體分數顯著提高，從3.71上升到4.02，超過了較強的Pro版本（4.00）。同樣，在應用于Qwen-Image-Edit [2509]時，該方法將其分數從4.35提升到4.48，實現了開源模型中的最先進性能，并超越了頂級閉源模型如GPT-Image-1。

除了總得分的提升之外，UniWorld-FLUX.1-Kontext在“調整”、“提取”和“移除”維度上表現出顯著的性能提升，而 UniWorld-Qwen-Image-Edit則在“提取”和“混合”維度上表現優異。此外，UniWorld-V2達到了最佳性能。這一現象表明，該方法能夠解鎖和顯著提高基礎模型中之前未開發的潛力。

在域外GEdit-Bench上，UniWorld-R1為三種模型展示了強大的泛化性能。它使FLUX.1-Kontext [Dev] 模型的總分從6.00提升到6.74，表現超越了Pro版本（6.56）。對于Qwen-Image模型，其得分從7.54增加到7.76。同時，UniWorld-V2在這一基準測試中建立了新的最先進水平，超越了所有列出的模型，包括Qwen-Image-Edit（7.56）和GPT-Image-1（7.53）。這一結果確認該方法有效地保留和增強了在未見數據分布上的核心編輯能力，展示了強大的泛化能力。

為了全面評估，研究人員還對FLUX.1和Qwen系列進行了人工偏好研究，參與者將本文的微調模型與其基礎模型和更強大的版本進行比較。他們被要求在兩個維度上選擇最佳結果：指令對齊和圖像質量。

用戶在所有標準中更傾向于選擇UniWorld-FLUX.1-Kontext而不是FLUX.1-Kontext [Dev]。此外，它在編輯能力上表現出較強的優勢，尤其是在與更強大的官方版本FLUX.1-Kontext [Pro]的比較中。總體而言，UniWorld-FLUX.1-Kontext因其優越的指令遵循能力而獲得更多的喜歡，盡管官方模型在圖像質量上稍微勝出。這證實了該方法能夠有效地引導模型生成更符合人類偏好的輸出。

此次發布的UniWorld-V2，是基于團隊早先的UniWorld-V1構建的。UniWorld-V1作為業內首個統一理解與生成的模型，其開源時間領先于谷歌Nano Banana等后續知名模型長達三個月，為多模態領域的統一架構探索奠定了重要基礎。

另外，UniWorld-R1的論文、代碼和模型均已在GitHub和Hugging Face平臺公開發布，以支持后續研究。

論文地址：
https://arxiv.org/abs/2510.16888

GitHub鏈接：
https://github.com/PKU-YuanGroup/UniWorld

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.