<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      3B Image Captioning小鋼炮重磅來襲,性能比肩Qwen2.5-VL-72B

      0
      分享至



      邢龍和董瀟逸為本篇文章共同第一作者。邢龍是中國科學技術大學博士生,師從林達華教授和吳楓教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。董瀟逸是香港中文大學 MMLab 的博士后研究員,同時在上海人工智能實驗室擔任兼職顧問研究員,已在頂級會議和期刊(如 CVPR、ICCV、ECCV 等)上發表了 50 余篇論文,Google Scholar 上獲得超過 10000 次引用。

      今天推薦一個 Dense Image Captioning 的最新技術 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強化學習方法應用到 image captioning 這種開放視覺任務,創新的以實用性重新定義 image captioning 的 reward。訓練得到的 CapRL-3B 模型,可以成功達到與 Qwen2.5-VL-72B 相當的 captioning 水平!這是 image captioning 領域的一大進展,更是為 GRPO 策略應用于開放任務提供了重要思路!

      目前 Huggingface model&dataset 總下載量已經突破 6k,并且正在迭代更強的基座模型以及升級 training recipe,歡迎使用!



      • 論文鏈接: https://arxiv.org/abs/2509.22647
      • 倉庫鏈接: https://github.com/InternLM/CapRL
      • 模型鏈接: https://huggingface.co/internlm/CapRL-3B
      • 數據鏈接: https://huggingface.co/datasets/internlm/CapRL-2M



      圖 1. CapRL 解決了為 image captioning 這種主觀任務設計 reward 的重大挑戰,巧妙的以實用性定義了客觀 verifiable reward,避免了使用 LVLM-as-a-Judge 帶來的 reward hacking,顯著提升了描述的質量

      從 SFT captioner 到 RL captioner:

      Reward 設計重大難點

      Image Captioning 旨在為給定圖像生成自然語言描述,彌合視覺與語言世界之間的鴻溝,是目前 ViT 訓練以及 LVLM 預訓練重要的訓練語料。目前大多數 Image Captioning 模型都是基于 LVLMs 并采用監督微調(SFT)方法進行訓練,但是這種訓練方式有兩大問題,數據方面依賴大量由人工或閉源模型標注的數據集,成本高昂且難以擴展,效果方面因為死記硬背的訓練方式導致泛化與多樣性不足。

      SFT 的局限性促使研究者轉向一種新的范式 —— 基于可驗證獎勵的強化學習(RLVR)。RLVR 這種訓練范式在 visual grounding,detection 這種包含標準答案的視覺任務上已經得到廣泛應用,然而,將 RLVR 應用于 Image Captioning 等開放性任務仍然非常具有挑戰性,其關鍵在于如何設計一個客觀可靠的 reward 函數。“什么是一個好的圖片描述?”,這個問題帶有很強的主觀性,大家往往看法不一,同一張圖片可能會存在多種不同的合理描述,這就給 verifiable reward 設計帶來很大的困難。

      現有的一些方法嘗試使用獎勵模型(reward models)或 LVLM-as-a-judge 來提供 reward,如圖 1(a)所示,但是這種方法非常容易受到獎勵欺騙(reward hacking)的影響。模型可能學會利用獎勵模型的漏洞(偏好冗長或簡短的輸出形式)來獲得更高分數,而非真正生成高質量的描述,這種不可靠的獎勵信號很容易導致在 GRPO 訓練過程中出現異常,圖 1(c)中展示了訓練過程中出現了 caption 過長以及過短的情況,最終導致模型的表現不及預期甚至出現訓練崩潰。



      圖 2. CapRL 框架。 我們的 CapRL 采用了解耦的兩階段流程,首先 LVLM 生成圖像描述,然后讓一個 LLM 基于該圖像描述回答視覺多選題,而 LLM 的回答準確率則作為 LVLM 的客觀獎勵信號

      Reward 設計新思路:好的 caption 應當能讓純語言模型正確回答視覺問題

      為了解決主觀圖像描述任務中 RLVR 獎勵函數缺乏客觀性的難題,我們提出了一種全新的視角:caption quality 與其實用性成正比。當圖像描述足夠詳細且準確時,即使一個純語言模型無法直接 “看到” 圖像,也能回答與圖像相關的視覺問答。例如圖二中,對于問題 “圖片里面誰在大笑?”,當描述中包含 “兔子警官 Judy 正在開懷大笑”,LLM 即可正確回答 “Judy”。

      基于這一動機,我們提出了一個高效的兩階段解耦式訓練框架,稱為 CapRL(Captioning Reinforcement Learning)。在 CapRL 框架中,我們讓一個純語言模型根據 caption 去回答與原圖像相關的多項選擇題,LLM 的回答準確率即作為 RLVR 訓練的客觀獎勵信號。基于 CapRL 訓練之后,輸出的描述如圖 3 所示,會在準確率,細節覆蓋等方面大幅度提升



      圖 3. CapRL 效果展示。Qwen2.5-VL-3B 經過 CapRL 訓練之后描述的準確性更高,圖片信息覆蓋更全,含有更少幻覺。

      CapRL 實驗結果

      我們對 CapRL 框架帶來的優勢進行了全面評估。

      (i)我們使用 CapRL-3B 標注圖片產生了 CapRL-5M 數據集,并在該數據集上對 LVLM 進行預訓練,在全部 12 項基準測試中均取得了顯著性能提升,與以往的 ShareGPT4V,DenseFusion dataset 的對比中展示出了巨大優勢,效果如圖 4 所示;(ii)此外,借助 Prism Framework 對描述質量進行直接的評估,我們觀察到 CapRL-3B 的性能與 72B 模型相當,并在平均水平上超越基線模型 8.4%。



      圖 4. 使用不同預訓練數據集的性能比較結果顯示:CapRL-1M 在全部三個設置中均顯著優于其他數據集,并且當數據規模擴展至 5M 時,模型性能進一步得到提升。



      圖 5. 在 Prism 框架下的圖像描述能力對比中,CapRL-3B 的表現可與 Qwen2.5-VL-72B 相媲美,并且顯著優于以 LVLM-as-a-Judge 作為獎勵信號的現有方法。









      圖 6. 我們針對 CapRL 進行了豐富的探究實驗,具體實驗設置可查看原論文

      我們目前已經開源了論文中的模型,數據集和 QA 構造的代碼,我們還在持續迭代中,歡迎使用!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      千言娛樂記
      2025-09-25 20:27:56
      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      籃球圈里的那些事
      2025-11-05 14:02:52
      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      奶蓋熊本熊
      2025-11-05 12:48:54
      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      夜深愛雜談
      2025-11-04 21:47:20
      國務院臺辦新任發言人、港澳局局長張晗亮相

      國務院臺辦新任發言人、港澳局局長張晗亮相

      政知新媒體
      2025-11-05 10:26:10
      王家衛劇組在陜西榆林組團Piao娼?

      王家衛劇組在陜西榆林組團Piao娼?

      華人星光
      2025-11-05 11:53:54
      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      澎湃新聞
      2025-11-05 14:22:10
      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      財經大拿
      2025-11-05 13:36:42
      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      FM93浙江交通之聲
      2025-11-04 20:09:22
      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      懂球帝
      2025-11-05 14:43:13
      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      南書房
      2025-09-28 23:01:03
      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      籃球資訊達人
      2025-11-05 15:04:24
      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      妙知
      2025-11-04 10:34:03
      暴跌,熔斷!剛剛,大跳水

      暴跌,熔斷!剛剛,大跳水

      新浪財經
      2025-11-05 10:31:00
      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      解讀熱點事件
      2025-11-02 14:48:17
      女性出軌率最高的幾大職業

      女性出軌率最高的幾大職業

      微微熱評
      2025-11-04 12:27:00
      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      鄭丁嘉話
      2025-11-04 10:41:50
      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      有范又有料
      2025-11-05 10:41:30
      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      浪子阿邴聊體育
      2025-11-01 10:57:22
      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      老王說正義
      2025-11-04 00:05:34
      2025-11-05 17:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      本地
      房產
      手機
      軍事航空

      親子要聞

      重度自閉癥孩子幸不幸福,要看帶養人費不費勁

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      手機要聞

      小米REDMI Turbo 5 Pro曝光:9000mAh大電池+超聲波指紋

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阿拉尔市| 国产一级av在线播放| 五月天天天综合精品无码| 性欧美VIDEOFREE高清大喷水 | 亚洲日韩国产一区二区三区在线| 人妻蜜臀久久av不卡| 松桃| 少妇人妻偷人精品无码视频新浪| 强奷漂亮人妻系列老师| 国产综合精品一区二区三区| 中文字幕乱码十国产乱码| 色成年激情久久综合国产| 国产精品亚洲mnbav网站| 国产精品午夜福利免费看| 日韩精品不卡一区二区三区| 好吊妞| 国产一级片内射在线视频| 亚洲一区二区三区久久受| 狠狠综合久久久久综| 亚洲成人四虎在线播放| 亚洲首页一区任你躁xxxxx| 亚洲色大成网站www久久九九| h无码精品3d动漫在线观看| 免费观看日本污污ww网站69| 波多野结衣在线精品视频| 国产成人亚洲综合图区| 男女18禁啪啪无遮挡激烈网站| 欧美成人精品一区二区三区免费 | 西西444www高清大胆| 国产精品国产精品无卡区| 久久天天躁夜夜躁狠狠820175| 亚洲日本韩国欧美云霸高清| 成人av天堂男人资源站| 五月婷婷开心中文字幕| 亚洲欧美日韩愉拍自拍美利坚| 国产精品午夜福利小视频| 免费av网站| 伊人久久大香线蕉av色婷婷色| 91午夜福利在线观看精品| 精品视频福利| 在线无码免费的毛片视频|