網易首頁 > 網易號 > 正文申請入駐

Seedream4.0大戰NanoBanana、GPT-4o？EdiVal-Agent 終結編輯評測

2025-10-24 17:46:56　來源: 機器之心Pro

北京舉報

分享至

在 AIGC 的下一個階段，圖像編輯（Image Editing）正逐漸取代一次性生成，成為檢驗多模態模型理解、生成與推理能力的關鍵場景。我們該如何科學、公正地評測這些圖像編輯模型？

為了解決這一難題，來自得克薩斯大學奧斯汀分校、UCLA、微軟等機構的研究者們共同提出了EdiVal-Agent，一個以對象為中心的自動化、細粒度的多輪編輯（Multi-Turn Editing）評估框架。

EdiVal-Agent的名字巧妙地融合了“Editing”（編輯）和“Evaluation”（評估），并以“Agent”（智能體）的形式呈現，寓意它是一個能夠自主執行復雜評估任務的智能系統。它不僅能自動化生成多樣化的編輯指令，還能從指令遵循，內容一致性，視覺質量多維度對編輯結果進行精細評估，其評估結果與人類判斷的一致性顯著優于現有方法。

論文題目：
EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
論文鏈接：
https://arxiv.org/abs/2509.13399
項目主頁：
https://tianyucodings.github.io/EdiVAL-page/

評測：如何定義“好”的編輯？

當前主流評測分為兩類：

1、基于參考圖像（Reference-based）：依賴成對的參考圖像，覆蓋面有限，還容易繼承舊模型的偏差。

2、基于大模型打分（VLM-based）：用視覺語言模型（VLM）通過提示語打分，看似方便卻問題重重：空間理解差，常誤判物體位置與關系；細節不敏感，難察覺局部或微小修改；審美失準，對生成瑕疵（artifacts）缺乏感知。結果是，VLM 單評雖“方便”，卻難以精確、可靠地衡量編輯質量。

EdiVal-Agent ：圖像編輯界的“評測裁判”

EdiVal-Agent是一個面向對象的自動評測智能體。它能像人類一樣，識別圖像中的每個對象，理解編輯語義，并在多輪編輯中動態追蹤變化。

在講工作流之前，我們先來看一組直觀的測試結果。

Base Image：兩匹馬

Turn 1：添加文字 “HORSES
Turn 2：棕色的馬換成一只鹿
Turn 3：白馬的毛色改成棕色

聽起來很簡單，對吧？但當我們讓各家頂尖模型來完成這三步時，結果卻大不相同。

GPT-Image-1（OpenAI）指令執行得不錯，但背景和細節越來越不一致。

Qwen-Image-Edit（阿里）在視覺質量和一致性上雙雙失手，第三輪后出現明顯“過曝感”。

FLUX.1-Kontext-dev（Black Forest Labs）基本能保留背景，但理解指令有偏差，比如第三輪“白馬的毛色改成棕色”執行失敗。

Nano Banana（Google Gemini 2.5 Flash）表現最平衡——穩、準、無明顯短板。

在剛才的對比中，我們看到不同模型在多輪編輯下表現差異明顯。那 EdiVal-Agent 是如何實現自動評測、做到“既懂圖又懂語義”的呢？答案來自它精心設計的三步工作流。

1、圖像分解（Decomposition）

第一步，EdiVal-Agent 會讓大模型（如 GPT-4o）先“看懂”一張圖片。它會自動識別出圖中所有可見對象，并為每個對象生成結構化的描述——包括顏色（color）、材質（material）、物體上是否存在文字（text）、數量（count）和前景屬性（foreground）。

這些對象被匯總成一個對象池（Object Pool），并通過物體檢測器進行驗證過濾，為后續指令生成和評測打下基礎。

2、指令生成（Instruction Generation）

第二步，EdiVal-Agent 根據場景自動生成多輪編輯指令。它擁有覆蓋9 種編輯類型、6 個語義類別的指令體系，包括：

添加（add）、刪除（remove）、替換（replace）、改顏色（color alter）、改材質（material alter）、改文字（text change）、移動位置（position change）、改數量（count change）、換背景（background change）。

EdiVal-Agent 會動態維護三個對象池：

All Objects Pool（所有出現過的對象）
Available Objects Pool（當前可編輯的對象）
Unchanged Objects Pool（尚未被修改的對象）

在每一輪編輯中，智能體都會：

隨機選取指令類型；
挑選合適對象；
生成自然語言編輯指令；
更新對象池狀態。

默認設置為三輪（Turn 1 – Turn 3），也可以擴展到更長鏈條，實現更多輪可組合編輯。

3、自動評測（Evaluation）

最后一步，EdiVal-Agent 從三個維度評估模型表現：

EdiVal-IF（Instruction Following）判斷模型是否準確執行指令——例如“把白馬換成鹿”是否真的完成。對于符號任務（如位置或數量變化），使用 Grounding-DINO 等開放詞匯檢測器進行幾何驗證；對于語義任務（如顏色或背景變化），則結合物體檢測器和VLM進行語義核對。
EdiVal-CC（Content Consistency）測量未被編輯的部分是否保持一致。它計算背景區域（排除 All Objects Pool 中的所有物體）與未修改對象（屬于 Unchanged Objects Pool 的物體）之間的語義相似度，以確保模型不會“誤傷”無關區域。比如，下圖中GPT-Image-1編輯后的STOP 標志發生了明顯變化，而Nano Banana則更真實地保持了內容一致性
EdiVal-VQ（Visual Quality）使用 Human Preference Score v3 評估整體視覺質量，量化生成結果的美觀度自然度

最終綜合指標EdiVal-O通過幾何平均融合EdiVal-IF和EdiVal-CC，平衡“是否聽話”與“是否穩定”。

為什么不把 EdiVal-VQ 納入總體分數？

在評估中，我們發現“視覺質量（EdiVal-VQ）”雖然重要，但并不適合直接計入綜合得分。以指令“將背景換成圖書館”為例：

GPT-Image-1會傾向于“美化”圖像，讓整體更光亮、更清晰，從而提升審美得分
FLUX.1-Kontext-max則選擇“保真”策略，盡量保持原始風格，只替換必要區域。

這說明不同模型在面對同一任務時，有的更追求視覺美感（beautification），有的更注重和保真（preservation）。由于在圖像編輯中，是否應追求“美化”仍存在爭議，因此我們未將 EdiVal-VQ 納入最終評測指標。

EdiVal-Agent 的人類一致性驗證

EdiVal-Agent評測結果能否“想法與人一致”？

我們設計了一項人類一致性實驗（Human Agreement Study），來檢驗 EdiVal-Agent 的評測結果，是否真正符合人類判斷。結果如下：

EdiVal-Agent 的指標EdiVal-IF與人類判斷的平均一致率高達81.3%。相比之下，傳統評測方法的表現明顯更低：

VLM-only（Qwen-2.5-VL）：75.2%
CLIP-dir（CLIP-directional similarity)：68.9%

換句話說，EdiVal-Agent 不僅能“算得對”，更能“想得像人”。此外，人工之間的一致率為85.5%，這意味著——EdiVal-Agent 的表現已接近人類評測的上限。

為什么 EdiVal-IF 與人類判斷更為一致？

符號任務更精準。對于“添加 / 刪除 / 替換 / 移動 / 改數量”等符號（symbolic）任務，EdiVal-IF使用Grounding-DINO精確檢測目標是否真的出現、移動或消失，幾乎沒有歧義。相比之下，VLM模型則容易受到幻覺（Hallucination）與空間推理（Spatial Reasoning）的限制。

語義任務更智能。對于“改顏色 / 改材質 / 改文字 / 換背景”等語義（semantic）任務，EdiVal-IF將VLM（Qwen-2.5-VL）與對象檢測（Object Detection）相結合，先定位，再推理，讓模型真正做到“對著圖回答問題”。

結果表明，這種檢測 + 推理融合的方式，比單純讓大模型“看圖說話”更加穩定、可靠。

誰才是最強圖像編輯模型？

在本文提出的多輪圖像編輯EdiVal-Bench上，EdiVal-Agent系統對比了13 個代表性模型，涵蓋閉源與開源、in-context和context-free，Flow Matching與Diffusion等不同范式。結果如下：

其中EdiVal-IF衡量的是模型指令遵循的能力，EdiVal-CC衡量的是模型內容一致性的能力。EdiVal-O是兩者的幾何平均值，為最終評分。可以看到：

Seedream 4.0 在指令遵循能力上遙遙領先，并且在最終評分上全面超越國際閉源模型，排名第一；
Nano Banana在速度（Latency）與質量上達成完美平衡，在內容一致性上尤為出色，排名第二；
GPT-Image-1指令遵循能力上出色，因追求美觀（見上文）而犧牲一致性，位列第三；
Qwen-Image-Edit出現典型“曝光偏差（exposure bias）”：在編輯次數變多時越改越偏，其在開源模型中排名第一，總排名第六。

評測結果也解釋了為什么ChatGPT-4o在吉卜力風格遷移指令遵循和美化效果出圈，而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務上出圈。

更多實驗結果與詳細分析（比如關于in-context和complex editing），歡迎閱讀原文。

關于作者

論文作者成員來自UT-Austin， UCLA，Microsft GenAI 以及Lambda Inc，兩位共同一作分別是陳天鈺，張雅思。

陳天鈺，得克薩斯大學奧斯汀分校（UT-Austin）統計系博士生（三年級），導師為周名遠教授。碩士畢業于芝加哥大學，本科畢業于復旦大學統計系。研究方向涵蓋生成模型、強化學習、因果推斷與表示學習等，目前與Microsoft GenAI開展長期合作研究。

張雅思，加州大學洛杉磯分校（UCLA）統計與數據科學系博士生（四年級），師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態學習、大模型后訓練與計算機視覺，曾在Amazon AWS AI Labs與Google Research從事相關研究工作。

值得一提的是，兩位共一本科均畢業于復旦大學。

陳天鈺

張雅思

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.