henry 發自 凹非寺
量子位 | 公眾號 QbitAI
強化學習+任意一張牌,往往就是王炸。
專注于LLM+RL的科技公司OpenPipe提出全新開源強化學習框架——MCP·RL。
只需一個MCP Server的地址,agent就能自動發現工具、生成任務,通過強化學習在閉環反饋中摸索出最優調用策略。
在實測中,MCP·RL更是在2/3的benchmark上達到或超過SOTA性能,效果直接拉滿。
![]()
不套公式,在“做中學”,這就是專屬RL的power!
![]()
MCP·RL的做中學
想明白MCP·RL怎么個“做中學”法,咱們有必要簡單過一下傳統MCP的流程:
舉個例子,假如你想讓agent幫自己讀郵件、分類、寫回復,那么你就得提前設置好整個工作流:
準備郵件數據、注冊工具、寫prompt規劃執行順序。
此外,你還得設置回退邏輯,以防中途崩掉。
而這只是一個發郵件的例子,功能一多,配置量指數級上升。
最關鍵的是——你得知道怎么拆任務、調工具、寫邏輯。
換句話說,agent就是在做你給他出的完形填空。
而你,我的朋友,要填除了空以外的所有東西。
MCP·RL的提出就是為了解決這一問題。
你只需提供MCP Server地址,不用配置工具、不用寫prompt、不用人工標注。
模型就能自己發現工具、自己設計任務、自己實戰訓練,邊跑邊學。
![]()
簡單來說,MCP·RL的訓練流程分四步:
- 發現工具:自動連接MCP Server,獲取所有可用工具和參數。
- 生成任務:根據工具信息自己“腦補”出一批使用場景,作為訓練任務(數據)。
- 實戰訓練:通過跑任務直接從經驗中學習,搭配RULER評估策略,調參優化。
- 測試泛化:用新任務檢驗策略泛化性,讓agent越用越順手。
總結下來就是:任務場景是什么?AI找;工具怎么用?AI學;流程怎么拆?AI想;效果好不好?AI試。
一位網友精辟的點出了這一轉變:
- 我們曾借助MCP讓AI調用工具,而現在是AI反過來利用MCP。
![]()
那么,它的效果如何呢?
正如我們開頭提到的,MCP·RL在2/3的基準測試中達到SOTA。
![]()
而在具體的部署層面,MCP·RL無需標注數據,適用于任何Server,無需定制MCP接口,開箱即用。
One more thing
MCP·RL是科技公司OpenPipe基于強化學習的智能體訓練系統(Agent Reinforcement Trainer,ART)的最新項目。
ART是一個開源強化學習框架,其核心思想是讓LLM從經驗中學習,從而提高agent的可靠性,ART可以將GRPO集成到任何Python應用中。
在此前的實測中,ART(Agent Reinforcement Trainer)對Qwen 2.5-14B進行強化訓練,其在一項電子郵件檢索任務中表現優于o3,實現了SOTA(state-of-the-art)。
![]()
[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.