<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Seedream4.0大戰NanoBanana、GPT-4o?EdiVal-Agent 終結編輯評測

      0
      分享至



      在 AIGC 的下一個階段,圖像編輯(Image Editing)正逐漸取代一次性生成,成為檢驗多模態模型理解、生成與推理能力的關鍵場景。我們該如何科學、公正地評測這些圖像編輯模型?

      為了解決這一難題,來自得克薩斯大學奧斯汀分校、UCLA、微軟等機構的研究者們共同提出了EdiVal-Agent,一個以對象為中心自動化細粒度多輪編輯(Multi-Turn Editing)評估框架。

      EdiVal-Agent的名字巧妙地融合了“Editing”(編輯)和“Evaluation”(評估),并以“Agent”(智能體)的形式呈現,寓意它是一個能夠自主執行復雜評估任務智能系統。它不僅能自動化生成多樣化的編輯指令,還能從指令遵循,內容一致性,視覺質量多維度對編輯結果進行精細評估,其評估結果與人類判斷的一致性顯著優于現有方法。



      • 論文題目:
      • EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing
      • 論文鏈接:
      • https://arxiv.org/abs/2509.13399
      • 項目主頁:
      • https://tianyucodings.github.io/EdiVAL-page/

      評測:如何定義“好”的編輯?

      當前主流評測分為兩類:

      1、基于參考圖像(Reference-based):依賴成對的參考圖像,覆蓋面有限,還容易繼承舊模型的偏差。

      2、基于大模型打分(VLM-based):用視覺語言模型(VLM)通過提示語打分,看似方便卻問題重重:空間理解差,常誤判物體位置關系;細節不敏感,難察覺局部微小修改;審美失準,對生成瑕疵(artifacts)缺乏感知。結果是,VLM 單評雖“方便”,卻難以精確可靠地衡量編輯質量。

      EdiVal-Agent :圖像編輯界的“評測裁判”

      EdiVal-Agent是一個面向對象自動評測智能體。它能像人類一樣,識別圖像中的每個對象,理解編輯語義,并在多輪編輯動態追蹤變化。

      在講工作流之前,我們先來看一組直觀的測試結果。

      Base Image:兩匹馬

      • Turn 1:添加文字 “HORSES
      • Turn 2:棕色的馬換成一只鹿
      • Turn 3:白馬的毛色改成棕色



      聽起來很簡單,對吧?但當我們讓各家頂尖模型來完成這三步時,結果卻大不相同。

      GPT-Image-1(OpenAI) 指令執行得不錯,但背景和細節越來越不一致。

      Qwen-Image-Edit(阿里)視覺質量和一致性上雙雙失手,第三輪后出現明顯“過曝感”。

      FLUX.1-Kontext-dev(Black Forest Labs) 基本能保留背景,但理解指令有偏差,比如第三輪“白馬的毛色改成棕色”執行失敗。

      Nano Banana(Google Gemini 2.5 Flash) 表現最平衡——穩、準、無明顯短板

      在剛才的對比中,我們看到不同模型在多輪編輯下表現差異明顯。那 EdiVal-Agent 是如何實現自動評測、做到“既懂圖又懂語義”的呢?答案來自它精心設計的三步工作流。



      1、圖像分解(Decomposition)

      第一步,EdiVal-Agent 會讓大模型(如 GPT-4o)先“看懂”一張圖片。它會自動識別出圖中所有可見對象,并為每個對象生成結構化的描述——包括顏色(color)、材質(material)、物體上是否存在文字(text)、數量(count) 和前景屬性 (foreground)。

      這些對象被匯總成一個對象池(Object Pool),并通過物體檢測器進行驗證過濾,為后續指令生成和評測打下基礎。

      2、指令生成(Instruction Generation)

      第二步,EdiVal-Agent 根據場景自動生成多輪編輯指令。 它擁有覆蓋9 種編輯類型、6 個語義類別的指令體系,包括:

      添加(add)、刪除(remove)、替換(replace)、 改顏色(color alter)、改材質(material alter)、改文字(text change)、移動位置(position change)、改數量(count change)、換背景(background change)。

      EdiVal-Agent 會動態維護三個對象池:

      • All Objects Pool(所有出現過的對象)
      • Available Objects Pool(當前可編輯的對象)
      • Unchanged Objects Pool(尚未被修改的對象)

      在每一輪編輯中,智能體都會:

      • 隨機選取指令類型;
      • 挑選合適對象;
      • 生成自然語言編輯指令;
      • 更新對象池狀態。

      默認設置為三輪(Turn 1 – Turn 3),也可以擴展到更長鏈條,實現更多輪可組合編輯。

      3、 自動評測(Evaluation)

      最后一步,EdiVal-Agent 從三個維度評估模型表現:

      • EdiVal-IF(Instruction Following)判斷模型是否準確執行指令——例如“把白馬換成鹿”是否真的完成。 對于符號任務(如位置或數量變化),使用 Grounding-DINO 等開放詞匯檢測器進行幾何驗證; 對于語義任務(如顏色或背景變化),則結合物體檢測器和VLM進行語義核對。
      • EdiVal-CC(Content Consistency)測量未被編輯的部分是否保持一致。 它計算背景區域(排除 All Objects Pool 中的所有物體)與未修改對象(屬于 Unchanged Objects Pool 的物體)之間的語義相似度,以確保模型不會“誤傷”無關區域。比如,下圖中GPT-Image-1編輯后的STOP 標志發生了明顯變化,而Nano Banana則更真實地保持了內容一致性
      • EdiVal-VQ(Visual Quality)使用 Human Preference Score v3 評估整體視覺質量,量化生成結果的美觀度自然度

      最終綜合指標EdiVal-O通過幾何平均融合EdiVal-IFEdiVal-CC,平衡“是否聽話”與“是否穩定”。



      為什么不把 EdiVal-VQ 納入總體分數?

      在評估中,我們發現“視覺質量(EdiVal-VQ)”雖然重要,但并不適合直接計入綜合得分。以指令“將背景換成圖書館”為例:

      • GPT-Image-1會傾向于“美化”圖像,讓整體更光亮、更清晰,從而提升審美得分
      • FLUX.1-Kontext-max則選擇“保真”策略,盡量保持原始風格,只替換必要區域。



      這說明不同模型在面對同一任務時,有的更追求視覺美感(beautification),有的更注重和保真(preservation)。由于在圖像編輯中,是否應追求“美化”仍存在爭議,因此我們未將 EdiVal-VQ 納入最終評測指標。

      EdiVal-Agent 的人類一致性驗證

      EdiVal-Agent評測結果能否“想法與人一致”?

      我們設計了一項人類一致性實驗(Human Agreement Study),來檢驗 EdiVal-Agent 的評測結果,是否真正符合人類判斷。結果如下:



      EdiVal-Agent 的指標EdiVal-IF與人類判斷的平均一致率高達81.3%。相比之下,傳統評測方法的表現明顯更低:

      • VLM-only(Qwen-2.5-VL):75.2%
      • CLIP-dir(CLIP-directional similarity):68.9%

      換句話說,EdiVal-Agent 不僅能“算得對”,更能“想得像人”。此外,人工之間的一致率為85.5%,這意味著——EdiVal-Agent 的表現已接近人類評測的上限

      為什么 EdiVal-IF 與人類判斷更為一致?

      符號任務更精準。對于“添加 / 刪除 / 替換 / 移動 / 改數量”等符號(symbolic)任務,EdiVal-IF使用Grounding-DINO精確檢測目標是否真的出現、移動或消失,幾乎沒有歧義。相比之下,VLM模型則容易受到幻覺(Hallucination)空間推理(Spatial Reasoning)的限制。

      語義任務更智能。 對于“改顏色 / 改材質 / 改文字 / 換背景”等語義(semantic)任務,EdiVal-IFVLM(Qwen-2.5-VL)對象檢測(Object Detection)相結合,先定位,再推理,讓模型真正做到“對著圖回答問題”。

      結果表明,這種檢測 + 推理融合的方式,比單純讓大模型“看圖說話”更加穩定、可靠。

      誰才是最強圖像編輯模型?

      在本文提出的多輪圖像編輯EdiVal-Bench上,EdiVal-Agent系統對比了13 個代表性模型,涵蓋閉源與開源、in-context和context-free,Flow Matching與Diffusion等不同范式。結果如下:



      其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型內容一致性的能力。EdiVal-O是兩者的幾何平均值,為最終評分。可以看到:

      • Seedream 4.0 在指令遵循能力上遙遙領先,并且在最終評分上全面超越國際閉源模型,排名第一;
      • Nano Banana在速度(Latency)與質量上達成完美平衡,在內容一致性上尤為出色,排名第二;
      • GPT-Image-1指令遵循能力上出色,因追求美觀(見上文)而犧牲一致性,位列第三;
      • Qwen-Image-Edit出現典型“曝光偏差(exposure bias)”:在編輯次數變多時越改越偏,其在開源模型中排名第一,總排名第六。

      評測結果也解釋了為什么ChatGPT-4o在吉卜力風格遷移指令遵循美化效果出圈,而Nano Banana在OOTD這些背景/物體一致性要求比較高的任務上出圈。

      更多實驗結果與詳細分析(比如關于in-context和complex editing),歡迎閱讀原文。

      關于作者

      論文作者成員來自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,兩位共同一作分別是陳天鈺,張雅思。

      陳天鈺,得克薩斯大學奧斯汀分校(UT-Austin)統計系博士生(三年級),導師為周名遠教授。碩士畢業于芝加哥大學,本科畢業于復旦大學統計系。研究方向涵蓋生成模型、強化學習、因果推斷與表示學習等,目前與Microsoft GenAI開展長期合作研究。

      張雅思,加州大學洛杉磯分校(UCLA)統計與數據科學系博士生(四年級),師從吳英年教授與 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模態學習、大模型后訓練與計算機視覺,曾在Amazon AWS AI LabsGoogle Research從事相關研究工作。

      值得一提的是,兩位共一本科均畢業于復旦大學。



      陳天鈺



      張雅思

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      省級老同志赴鄭州航空港區參觀調研

      省級老同志赴鄭州航空港區參觀調研

      政知新媒體
      2025-11-05 14:51:57
      王岳倫帶女出席活動,王詩齡1米7身高超何超蓮,少女感穿搭獲贊

      王岳倫帶女出席活動,王詩齡1米7身高超何超蓮,少女感穿搭獲贊

      述家娛記
      2025-11-02 22:35:31
      25歲小伙花170萬買邁巴赫跑婚車,貸款100萬,每月還車貸19000元!一個月穩賺2萬

      25歲小伙花170萬買邁巴赫跑婚車,貸款100萬,每月還車貸19000元!一個月穩賺2萬

      極目新聞
      2025-11-04 10:38:03
      商務部新聞發言人就調整不可靠實體清單措施答記者問

      商務部新聞發言人就調整不可靠實體清單措施答記者問

      界面新聞
      2025-11-05 17:01:19
      三分命中60%!又一個狄龍誕生,火箭底薪賺麻了,他有8000萬價值

      三分命中60%!又一個狄龍誕生,火箭底薪賺麻了,他有8000萬價值

      巴叔GO聊體育
      2025-11-05 16:20:13
      郭汝瑰:潛伏國軍高層,為我黨提供4年情報,建國后為何沒被重用

      郭汝瑰:潛伏國軍高層,為我黨提供4年情報,建國后為何沒被重用

      健康快樂丁
      2025-06-15 08:50:53
      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      蘇超遭球迷痛批變味!曝泰州奪冠功臣,返回長春,或參加末輪中超

      小金體壇大視野
      2025-11-05 11:14:36
      插翅難逃?江蘇一小河,釣魚人多達上千人!網友:真有這么多魚?

      插翅難逃?江蘇一小河,釣魚人多達上千人!網友:真有這么多魚?

      健身狂人
      2025-11-05 11:16:25
      全新斯柯達速派2027登場,EA888 Evo5引擎配大屏演繹行政豪車新篇

      全新斯柯達速派2027登場,EA888 Evo5引擎配大屏演繹行政豪車新篇

      圖圖老司機
      2025-11-04 14:32:32
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      飛船疑似被撞推遲返回,網友說征用神舟二十一號,為啥不這樣做?

      飛船疑似被撞推遲返回,網友說征用神舟二十一號,為啥不這樣做?

      科學黑洞v
      2025-11-05 18:47:27
      國王vs勇士前瞻:庫里缺陣勇士傷筋動骨,國王坐收漁利?

      國王vs勇士前瞻:庫里缺陣勇士傷筋動骨,國王坐收漁利?

      體壇野秀才
      2025-11-05 19:44:40
      村官貪腐6億!家中搜出700萬現金62斤金磚,豪華私人園林堪比皇宮

      村官貪腐6億!家中搜出700萬現金62斤金磚,豪華私人園林堪比皇宮

      易玄
      2025-11-03 11:55:56
      弗州競選驚爆冷門:瓊斯逆襲,民主黨以64%勝率上演驚天翻盤

      弗州競選驚爆冷門:瓊斯逆襲,民主黨以64%勝率上演驚天翻盤

      老瑋是個手藝人
      2025-11-05 12:59:08
      翁帆被清華大學聘用!與其說“照顧”,不如說其自身能力適配!

      翁帆被清華大學聘用!與其說“照顧”,不如說其自身能力適配!

      玖宇維
      2025-11-03 21:10:11
      馬德興:海港隊低調埋頭干事,球迷不樹敵,這是中超需要的

      馬德興:海港隊低調埋頭干事,球迷不樹敵,這是中超需要的

      懂球帝
      2025-11-05 13:40:06
      日本連開3槍,全方位反華?王毅開始上場,第一擊就讓日本老實了

      日本連開3槍,全方位反華?王毅開始上場,第一擊就讓日本老實了

      田園小歸
      2025-11-04 09:11:29
      發現一個有趣的現象:30萬的車滿街跑,但有30萬存款的人卻不多

      發現一個有趣的現象:30萬的車滿街跑,但有30萬存款的人卻不多

      大道微言
      2025-09-09 22:13:32
      張柏芝小兒子太帥了,大部分像媽媽,但估計父親也是一位帥哥

      張柏芝小兒子太帥了,大部分像媽媽,但估計父親也是一位帥哥

      小椰的奶奶
      2025-11-04 08:38:39
      瓜子是糖尿病的加速器?醫生提醒:保護胰島,記住5吃、5不吃

      瓜子是糖尿病的加速器?醫生提醒:保護胰島,記住5吃、5不吃

      泠泠說史
      2025-11-05 10:26:21
      2025-11-05 22:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      游戲
      數碼
      健康
      軍事航空

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      27歲小花生發文感謝中國粉絲 將服兵役告別職業賽場

      數碼要聞

      AMD銳龍AI Max+ 388/392蓄勢待發:滿血最強集顯 降落凡間

      超聲探頭會加重受傷情況嗎?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区日韩二区欧美三区| 在线国产你懂的| 真实国产老熟女无套中出| 开心一区二区三区激情| 狠狠色噜噜狠狠狠狠蜜桃| 奇米四色7777中文字幕| 无码乱人伦一区二区亚洲一| 国产一区二区在线观看粉嫩| 国产色无码精品视频免费| 亚洲第一狼人天堂网伊人| 人妻丝袜AV中文系列先锋影音| 久热综合在线亚洲精品| 日韩精品毛片一区到三区| 亚洲成人av综合一区| 亚洲毛片多多影院| 国产一区二区亚洲精品| 国产欧美日韩另类精彩视频 | 日韩一区二区大尺度在线| 成人影片一区免费观看| 国产精品白浆在线观看免费| 欧美乱码精品一区二区三区| 97国产成人无码精品久久久| 午夜福利免费视频一区二区| 亚洲一区二区偷拍精品| 成人国产精品日本在线观看| 亚洲精品专区永久免费区| 色综合天天综合网国产人| 国产日韩一区二区四季| 亚洲精品久久久久午夜福禁果tⅴ 免费看美女被靠到爽的视频 | 久久综合色之久久综合色| av综合网男人的天堂| 亚洲综合久久一区二区三区| 久久国产免费观看精品3| 高清自拍亚洲精品二区| 久久人妻精品大屁股一区| 内地自拍三级在线观看| 亚洲成av人片天堂网无码| 国产无套内射又大又猛又粗又爽 | 中文字幕乱码无码人妻系列蜜桃| 四虎成人精品国产永久免费| 亚洲一区久久蜜臀av|