![]()
邢龍和董瀟逸為本篇文章共同第一作者。邢龍是中國科學技術大學博士生,師從林達華教授和吳楓教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。董瀟逸是香港中文大學 MMLab 的博士后研究員,同時在上海人工智能實驗室擔任兼職顧問研究員,已在頂級會議和期刊(如 CVPR、ICCV、ECCV 等)上發表了 50 余篇論文,Google Scholar 上獲得超過 10000 次引用。
今天推薦一個 Dense Image Captioning 的最新技術 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強化學習方法應用到 image captioning 這種開放視覺任務,創新的以實用性重新定義 image captioning 的 reward。訓練得到的 CapRL-3B 模型,可以成功達到與 Qwen2.5-VL-72B 相當的 captioning 水平!這是 image captioning 領域的一大進展,更是為 GRPO 策略應用于開放任務提供了重要思路!
目前 Huggingface model&dataset 總下載量已經突破 6k,并且正在迭代更強的基座模型以及升級 training recipe,歡迎使用!
![]()
- 論文鏈接: https://arxiv.org/abs/2509.22647
- 倉庫鏈接: https://github.com/InternLM/CapRL
- 模型鏈接: https://huggingface.co/internlm/CapRL-3B
- 數據鏈接: https://huggingface.co/datasets/internlm/CapRL-2M
![]()
圖 1. CapRL 解決了為 image captioning 這種主觀任務設計 reward 的重大挑戰,巧妙的以實用性定義了客觀 verifiable reward,避免了使用 LVLM-as-a-Judge 帶來的 reward hacking,顯著提升了描述的質量
從 SFT captioner 到 RL captioner:
Reward 設計重大難點
Image Captioning 旨在為給定圖像生成自然語言描述,彌合視覺與語言世界之間的鴻溝,是目前 ViT 訓練以及 LVLM 預訓練重要的訓練語料。目前大多數 Image Captioning 模型都是基于 LVLMs 并采用監督微調(SFT)方法進行訓練,但是這種訓練方式有兩大問題,數據方面依賴大量由人工或閉源模型標注的數據集,成本高昂且難以擴展,效果方面因為死記硬背的訓練方式導致泛化與多樣性不足。
SFT 的局限性促使研究者轉向一種新的范式 —— 基于可驗證獎勵的強化學習(RLVR)。RLVR 這種訓練范式在 visual grounding,detection 這種包含標準答案的視覺任務上已經得到廣泛應用,然而,將 RLVR 應用于 Image Captioning 等開放性任務仍然非常具有挑戰性,其關鍵在于如何設計一個客觀可靠的 reward 函數。“什么是一個好的圖片描述?”,這個問題帶有很強的主觀性,大家往往看法不一,同一張圖片可能會存在多種不同的合理描述,這就給 verifiable reward 設計帶來很大的困難。
現有的一些方法嘗試使用獎勵模型(reward models)或 LVLM-as-a-judge 來提供 reward,如圖 1(a)所示,但是這種方法非常容易受到獎勵欺騙(reward hacking)的影響。模型可能學會利用獎勵模型的漏洞(偏好冗長或簡短的輸出形式)來獲得更高分數,而非真正生成高質量的描述,這種不可靠的獎勵信號很容易導致在 GRPO 訓練過程中出現異常,圖 1(c)中展示了訓練過程中出現了 caption 過長以及過短的情況,最終導致模型的表現不及預期甚至出現訓練崩潰。
![]()
圖 2. CapRL 框架。 我們的 CapRL 采用了解耦的兩階段流程,首先 LVLM 生成圖像描述,然后讓一個 LLM 基于該圖像描述回答視覺多選題,而 LLM 的回答準確率則作為 LVLM 的客觀獎勵信號
Reward 設計新思路:好的 caption 應當能讓純語言模型正確回答視覺問題
為了解決主觀圖像描述任務中 RLVR 獎勵函數缺乏客觀性的難題,我們提出了一種全新的視角:caption quality 與其實用性成正比。當圖像描述足夠詳細且準確時,即使一個純語言模型無法直接 “看到” 圖像,也能回答與圖像相關的視覺問答。例如圖二中,對于問題 “圖片里面誰在大笑?”,當描述中包含 “兔子警官 Judy 正在開懷大笑”,LLM 即可正確回答 “Judy”。
基于這一動機,我們提出了一個高效的兩階段解耦式訓練框架,稱為 CapRL(Captioning Reinforcement Learning)。在 CapRL 框架中,我們讓一個純語言模型根據 caption 去回答與原圖像相關的多項選擇題,LLM 的回答準確率即作為 RLVR 訓練的客觀獎勵信號。基于 CapRL 訓練之后,輸出的描述如圖 3 所示,會在準確率,細節覆蓋等方面大幅度提升
![]()
圖 3. CapRL 效果展示。Qwen2.5-VL-3B 經過 CapRL 訓練之后描述的準確性更高,圖片信息覆蓋更全,含有更少幻覺。
CapRL 實驗結果
我們對 CapRL 框架帶來的優勢進行了全面評估。
(i)我們使用 CapRL-3B 標注圖片產生了 CapRL-5M 數據集,并在該數據集上對 LVLM 進行預訓練,在全部 12 項基準測試中均取得了顯著性能提升,與以往的 ShareGPT4V,DenseFusion dataset 的對比中展示出了巨大優勢,效果如圖 4 所示;(ii)此外,借助 Prism Framework 對描述質量進行直接的評估,我們觀察到 CapRL-3B 的性能與 72B 模型相當,并在平均水平上超越基線模型 8.4%。
![]()
圖 4. 使用不同預訓練數據集的性能比較結果顯示:CapRL-1M 在全部三個設置中均顯著優于其他數據集,并且當數據規模擴展至 5M 時,模型性能進一步得到提升。
![]()
圖 5. 在 Prism 框架下的圖像描述能力對比中,CapRL-3B 的表現可與 Qwen2.5-VL-72B 相媲美,并且顯著優于以 LVLM-as-a-Judge 作為獎勵信號的現有方法。
![]()
![]()
![]()
![]()
圖 6. 我們針對 CapRL 進行了豐富的探究實驗,具體實驗設置可查看原論文
我們目前已經開源了論文中的模型,數據集和 QA 構造的代碼,我們還在持續迭代中,歡迎使用!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.