網易首頁 > 網易號 > 正文申請入駐

3B Image Captioning小鋼炮重磅來襲，性能比肩Qwen2.5-VL-72B

2025-10-28 14:48:53　來源: 機器之心Pro

北京舉報

分享至

邢龍和董瀟逸為本篇文章共同第一作者。邢龍是中國科學技術大學博士生，師從林達華教授和吳楓教授，研究興趣主要集中在 multi-modal LLMs 和 efficient AI。董瀟逸是香港中文大學 MMLab 的博士后研究員，同時在上海人工智能實驗室擔任兼職顧問研究員，已在頂級會議和期刊（如 CVPR、ICCV、ECCV 等）上發表了 50 余篇論文，Google Scholar 上獲得超過 10000 次引用。

今天推薦一個 Dense Image Captioning 的最新技術 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強化學習方法應用到 image captioning 這種開放視覺任務，創新的以實用性重新定義 image captioning 的 reward。訓練得到的 CapRL-3B 模型，可以成功達到與 Qwen2.5-VL-72B 相當的 captioning 水平！這是 image captioning 領域的一大進展，更是為 GRPO 策略應用于開放任務提供了重要思路！

目前 Huggingface model&dataset 總下載量已經突破 6k，并且正在迭代更強的基座模型以及升級 training recipe，歡迎使用！

論文鏈接: https://arxiv.org/abs/2509.22647
倉庫鏈接: https://github.com/InternLM/CapRL
模型鏈接: https://huggingface.co/internlm/CapRL-3B
數據鏈接: https://huggingface.co/datasets/internlm/CapRL-2M

圖 1. CapRL 解決了為 image captioning 這種主觀任務設計 reward 的重大挑戰，巧妙的以實用性定義了客觀 verifiable reward，避免了使用 LVLM-as-a-Judge 帶來的 reward hacking，顯著提升了描述的質量

從 SFT captioner 到 RL captioner:

Reward 設計重大難點

Image Captioning 旨在為給定圖像生成自然語言描述，彌合視覺與語言世界之間的鴻溝，是目前 ViT 訓練以及 LVLM 預訓練重要的訓練語料。目前大多數 Image Captioning 模型都是基于 LVLMs 并采用監督微調（SFT）方法進行訓練，但是這種訓練方式有兩大問題，數據方面依賴大量由人工或閉源模型標注的數據集，成本高昂且難以擴展，效果方面因為死記硬背的訓練方式導致泛化與多樣性不足。

SFT 的局限性促使研究者轉向一種新的范式 —— 基于可驗證獎勵的強化學習（RLVR）。RLVR 這種訓練范式在 visual grounding，detection 這種包含標準答案的視覺任務上已經得到廣泛應用，然而，將 RLVR 應用于 Image Captioning 等開放性任務仍然非常具有挑戰性，其關鍵在于如何設計一個客觀可靠的 reward 函數。“什么是一個好的圖片描述？”，這個問題帶有很強的主觀性，大家往往看法不一，同一張圖片可能會存在多種不同的合理描述，這就給 verifiable reward 設計帶來很大的困難。

現有的一些方法嘗試使用獎勵模型（reward models）或 LVLM-as-a-judge 來提供 reward，如圖 1（a）所示，但是這種方法非常容易受到獎勵欺騙（reward hacking）的影響。模型可能學會利用獎勵模型的漏洞（偏好冗長或簡短的輸出形式）來獲得更高分數，而非真正生成高質量的描述，這種不可靠的獎勵信號很容易導致在 GRPO 訓練過程中出現異常，圖 1（c）中展示了訓練過程中出現了 caption 過長以及過短的情況，最終導致模型的表現不及預期甚至出現訓練崩潰。

圖 2. CapRL 框架。我們的 CapRL 采用了解耦的兩階段流程，首先 LVLM 生成圖像描述，然后讓一個 LLM 基于該圖像描述回答視覺多選題，而 LLM 的回答準確率則作為 LVLM 的客觀獎勵信號

Reward 設計新思路：好的 caption 應當能讓純語言模型正確回答視覺問題

為了解決主觀圖像描述任務中 RLVR 獎勵函數缺乏客觀性的難題，我們提出了一種全新的視角：caption quality 與其實用性成正比。當圖像描述足夠詳細且準確時，即使一個純語言模型無法直接 “看到” 圖像，也能回答與圖像相關的視覺問答。例如圖二中，對于問題 “圖片里面誰在大笑？”，當描述中包含 “兔子警官 Judy 正在開懷大笑”，LLM 即可正確回答 “Judy”。

基于這一動機，我們提出了一個高效的兩階段解耦式訓練框架，稱為 CapRL（Captioning Reinforcement Learning）。在 CapRL 框架中，我們讓一個純語言模型根據 caption 去回答與原圖像相關的多項選擇題，LLM 的回答準確率即作為 RLVR 訓練的客觀獎勵信號。基于 CapRL 訓練之后，輸出的描述如圖 3 所示，會在準確率，細節覆蓋等方面大幅度提升

圖 3. CapRL 效果展示。Qwen2.5-VL-3B 經過 CapRL 訓練之后描述的準確性更高，圖片信息覆蓋更全，含有更少幻覺。

CapRL 實驗結果

我們對 CapRL 框架帶來的優勢進行了全面評估。

（i）我們使用 CapRL-3B 標注圖片產生了 CapRL-5M 數據集，并在該數據集上對 LVLM 進行預訓練，在全部 12 項基準測試中均取得了顯著性能提升，與以往的 ShareGPT4V，DenseFusion dataset 的對比中展示出了巨大優勢，效果如圖 4 所示；（ii）此外，借助 Prism Framework 對描述質量進行直接的評估，我們觀察到 CapRL-3B 的性能與 72B 模型相當，并在平均水平上超越基線模型 8.4%。

圖 4. 使用不同預訓練數據集的性能比較結果顯示：CapRL-1M 在全部三個設置中均顯著優于其他數據集，并且當數據規模擴展至 5M 時，模型性能進一步得到提升。

圖 5. 在 Prism 框架下的圖像描述能力對比中，CapRL-3B 的表現可與 Qwen2.5-VL-72B 相媲美，并且顯著優于以 LVLM-as-a-Judge 作為獎勵信號的現有方法。

圖 6. 我們針對 CapRL 進行了豐富的探究實驗，具體實驗設置可查看原論文

我們目前已經開源了論文中的模型，數據集和 QA 構造的代碼，我們還在持續迭代中，歡迎使用！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.