<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AGILE:自監督+交互式強化學習助力VLMs感知與推理全面提升

      0
      分享至



      現有視覺語言大模型(VLMs)在多模態感知和推理任務上仍存在明顯短板:1. 對圖像中的細粒度視覺信息理解有限,視覺感知和推理能力未被充分激發;2. 強化學習雖能帶來改進,但缺乏高質量、易擴展的 RL 數據。

      AGILE 提出一種全新的自監督學習范式,將「智能體交互」遷移至多模態大模型的強化學習訓練中,通過「模型生成動作代碼 + 視覺環境反饋」的循環式交互過程,讓模型像人一樣邊觀察、邊推理、邊學習,從而顯著提升模型視覺感知與邏輯推理能力。



      • Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
      • Paper:https://arxiv.org/pdf/2510.01304
      • Project Page:https://yuzeng0-0.github.io/AGILE/
      • Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
      • Code:https://github.com/yuzeng0-0/AGILE
      • 作者單位:中科大、上海 AI Lab、華東師大、港中文



      圖 1:AGILE 主要工作框架

      方法核心:

      交互式智能體 + 拼圖代理任務

      為了克服數據瓶頸與可擴展性問題,研究者們選擇「拼圖」作為一種高效的兼具感知和推理的代理任務,提出 AGILE。將拼圖過程建模為「可控、可驗證」的交互式形式:

      • 模型在每一步生成 Python 動作代碼(Swap、Observe、Crop、Zoom);
      • 環境執行代碼、返回視覺反饋;
      • 模型根據環境反饋繼續規劃調整拼圖,該循環重復至拼圖完成。

      這一閉環交互形成了「觀察–交互–反饋–學習」的智能體訓練范式,使 VLMs 能在自監督方式下持續提升感知和推理能力。

      AGILE 的完整流程分為兩個階段:

      Cold-Start 階段,使用 Gemini 2.5 Pro 生成 1.6K 條高質量專家拼圖交互軌跡,教會模型如何正確生成動作代碼與交互邏輯,解決初期模型「不會動手」的問題;

      Reinforcement Learning 階段,在 15.6K 張圖像上訓練拼圖任務,采用 GRPO 算法,通過準確率、格式規范與交互輪數三重獎勵信號優化策略。



      圖 2:模型拼圖過程中激發出來的感知和推理行為

      實驗

      研究者們進行了大量實驗,驗證了 AGILE 的有效性,并得到了多條富有啟發意義的結論:

      • 研究者們設計了系統的拼圖評估數據集,涵蓋不同難度(2×2、3×3)與不同初始正確塊數(L0–L7)。模型性能以兩種指標衡量:Acc,所有塊完全放對的比例;Score,正確拼塊數占總拼塊數的比例。在最簡單的 2×2 任務中,AGILE 使準確率從 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 個百分點。在更具挑戰性的 3×3 拼圖中,也從 0.4% 提升至 20.8%,標志著模型感知和推理能力大幅躍升。



      表 1:拼圖 Acc 結果。LN 表示難度級別,N 表示初始正確拼圖塊數。N 值越小,拼圖越亂,難度越高。最佳結果以粗體顯示,次佳結果以下劃線顯示。

      • 通用能力即泛化性評測:經過拼圖訓練,模型在 9 項通用視覺任務中(涵蓋真實世界場景、高分辨率場景、細粒度感知、幻覺和多模態推理)平均提升 3.1%,展現出強大的泛化能力。進一步驗證了拼圖任務作為代理任務對于通用視覺能力的泛化價值。



      表 2:不同模型在 9 個基準測試上的性能比較。縮寫:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 個基準測試的平均性能。? 表示強化學習相對于基礎模型 Qwen2.5-VL-7B 獲得的相對性能提升。最佳結果以粗體突出顯示,次佳結果以下劃線標出。

      • Scaling 實驗:數據規模帶來的持續增益。研究者們進一步探究了拼圖數據規模對性能的影響。當訓練數據從 0 擴展至 16K 時:拼圖任務準確率從 22.0% → 82.8%;HRBench4K 準確率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的訓練在數據量擴增下持續有效。由于拼圖環境可自動生成,AGILE 的數據擴展幾乎零成本、無限擴容,為多模態 RL 提供了可持續的自監督范式。



      圖 3:(左圖)訓練數據規模的影響。左側 y 軸表示 HRBench4K 和 RealWorldQA 的準確率,右側 y 軸表示拼圖任務的準確率。(右圖)與常規 QA 數據的比較,在兩種實驗設置中,樣本總數始終保持在 20K。

      • 與常規 QA 數據的對比實驗:研究者們替換 20K 常規 QA 數據中的其中 10K 為拼圖數據,發現模型可以表現出更好的性能。這說明拼圖任務提供了更強的結構感知與監督信號。這一發現凸顯了拼圖任務在緩解多模態強化學習數據稀缺方面的潛力,并為推進多模態模型開發開辟了一個充滿前景的新方向。

      意義與未來

      AGILE = 交互式拼圖代理 + 自監督 RL,在無需額外人工標注的前提下,持續提升 VLMs 的感知與推理能力。它證明了「交互式拼圖代理任務」作為突破數據瓶頸、強化 VLMs 的可行性和自監督強化學習范式的潛力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      11月6日晚間滬深上市公司重大事項公告最新快遞

      11月6日晚間滬深上市公司重大事項公告最新快遞

      新浪財經
      2025-11-06 22:20:48
      春節還沒開始,近百人機票被平臺“一鍵取消”,補償方案存在差別對待

      春節還沒開始,近百人機票被平臺“一鍵取消”,補償方案存在差別對待

      封面新聞
      2025-11-07 00:57:10
      中國提出幫印度治霾,印度網友破防:到最后還是要靠中國的善意啊

      中國提出幫印度治霾,印度網友破防:到最后還是要靠中國的善意啊

      戶外小阿隋
      2025-11-07 07:45:06
      什么時候吃降壓藥合適?早上空腹能吃嗎?告訴你答案

      什么時候吃降壓藥合適?早上空腹能吃嗎?告訴你答案

      泠泠說史
      2025-11-06 15:45:43
      中國改朝換代第一姓:每逢亂世此姓必出奇人,還總是起到關鍵作用

      中國改朝換代第一姓:每逢亂世此姓必出奇人,還總是起到關鍵作用

      牛馬搞笑
      2025-11-06 14:00:12
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      1952年,給全軍評級別時,十大元帥都是什么級別?

      1952年,給全軍評級別時,十大元帥都是什么級別?

      春秋硯
      2025-11-06 17:50:03
      26.6萬元起拍的成都“兇宅”以105.6萬元成交,落槌前14次加價競爭激烈

      26.6萬元起拍的成都“兇宅”以105.6萬元成交,落槌前14次加價競爭激烈

      極目新聞
      2025-11-06 15:06:27
      4千噸對10萬噸,南海爆發激烈對峙!美航母迫近黃巖島,054A立功

      4千噸對10萬噸,南海爆發激烈對峙!美航母迫近黃巖島,054A立功

      動漫里的童話
      2025-11-04 15:06:42
      26號臺風“鳳凰”生成!海上“雙臺共舞”,會影響深圳嗎?

      26號臺風“鳳凰”生成!海上“雙臺共舞”,會影響深圳嗎?

      深圳晚報
      2025-11-06 14:41:23
      裁員裁到核心是啥體驗?網友:裁到我這條靜脈,都照樣痛很久

      裁員裁到核心是啥體驗?網友:裁到我這條靜脈,都照樣痛很久

      解讀熱點事件
      2025-11-06 00:05:09
      1976年,華國鋒做的一個決定影響至今,毛主席沒有看錯人

      1976年,華國鋒做的一個決定影響至今,毛主席沒有看錯人

      南書房
      2025-11-06 16:55:03
      baby新男友已獲小海綿認可?街頭帶娃遛大型犬,像幸福的一家三口

      baby新男友已獲小海綿認可?街頭帶娃遛大型犬,像幸福的一家三口

      八星人
      2025-11-05 15:55:40
      幸福太突然!英男子家中處理陳年盤子,結果竟是價值100萬的中國明朝瓷器!

      幸福太突然!英男子家中處理陳年盤子,結果竟是價值100萬的中國明朝瓷器!

      最英國
      2025-11-06 20:31:30
      教育部已經亮明牌了,恭喜明年參加高考的孩子

      教育部已經亮明牌了,恭喜明年參加高考的孩子

      玉辭心
      2025-11-07 07:11:34
      《棕眼之謎》好評如潮,追3集后,我想說:國產懸疑劇尺度真敢拍

      《棕眼之謎》好評如潮,追3集后,我想說:國產懸疑劇尺度真敢拍

      娛樂圈筆娛君
      2025-11-06 15:21:45
      鐵飯碗為何突然上鎖?10月29日新規后,公務員辭職的5條生死線

      鐵飯碗為何突然上鎖?10月29日新規后,公務員辭職的5條生死線

      詩意世界
      2025-11-06 10:39:58
      市民在通州大運河森林公園偶遇白狐,園方:系被遺棄,不提倡投喂

      市民在通州大運河森林公園偶遇白狐,園方:系被遺棄,不提倡投喂

      新京報
      2025-11-06 20:55:08
      陳賡跟誰都處得來,唯獨和此人不合拍,差點被害!毛主席保護陳賡

      陳賡跟誰都處得來,唯獨和此人不合拍,差點被害!毛主席保護陳賡

      史韻流轉
      2025-11-05 09:21:03
      橫看成嶺側成峰,喬治娜曬出差照秀出傲人身材

      橫看成嶺側成峰,喬治娜曬出差照秀出傲人身材

      懂球帝
      2025-11-07 04:18:36
      2025-11-07 09:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      牛彈琴:特朗普現在最擔心的事很不妙 心提到嗓子眼了

      頭條要聞

      牛彈琴:特朗普現在最擔心的事很不妙 心提到嗓子眼了

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      老登們的社交貨幣全崩了

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      時尚
      手機
      藝術
      公開課
      軍事航空

      美拉德失寵了?今年冬天最流行的3個顏色,誰穿誰好看!

      手機要聞

      蘋果喊話iPhone 13 Pro / 14 Pro釘子戶,不如現在就換 17 Pro 吧

      藝術要聞

      Omar Ortiz 2025作品,墨西哥當代極簡超寫實畫家

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍兩架B-52轟炸機接近委內瑞拉海岸

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 白色丝袜国产在线视频| 久章草在线毛片视频播放| 亚洲人成人日韩中文字幕| 精品久久丝袜熟女一二三| 欧美日韩综合网| 日韩少妇人妻vs中文字幕| 乱女乱妇熟女熟妇综合网| 又黄又爽又色的少妇毛片| 人妻系列中文字幕精品| 国产精品av中文字幕| 无码av中文一区二区三区桃花岛 | 亚洲激情一区二区三区在线| 成全我在线观看免费第二季| 国产精品视频午夜福利| 亚洲精品熟女国产| 综合区一区二区三区狠狠| 欧美成人精品一区二区三区免费| 免费看欧美全黄成人片| 九九热视频精选在线播放| 免费人成年激情视频在线观看| 国产午夜91福利一区二区| 国产亚洲av人片在线播放| 麻豆国产成人AV在线播放| 91福利一区福利二区| 玩弄放荡人妻少妇系列 | 亚洲中文字幕日产无码成人片| 国产国产午夜福利视频| 四虎成人在线观看免费| 亚洲AV无码一区二区一二区色戒| 亚洲国产高清av网站| 久久婷婷大香萑太香蕉AV人| 亚洲国产精品第一区二区| 亚洲av专区一区| 色99久久久久高潮综合影院| 安仁县| 99久久亚洲综合精品成人| 99福利一区二区视频| 18禁超污无遮挡无码网址| 波多野结av在线无码中文免费| 久久精品国产免费观看频道| 日韩精品理论片一区二区|