網易首頁 > 網易號 > 正文申請入駐

AI在線強化學習“邊做邊學”，斯坦福團隊讓7B小模型性能飆升

2025-10-24 12:13:38　來源: 量子位

山東舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

斯坦福等新框架，用在線強化學習讓智能體系統“以小搏大”，領先GPT-4o——

AgentFlow，是一種能夠在線優化智能體系統的新范式，可以持續提升智能體系統對于復雜問題的推理能力

它由規劃器、執行器、驗證器、生成器四個專業智能體組成的團隊通過共享內存進行協作，利用新方法Flow-GRPO，在系統內部直接對其規劃器智能體進行實時優化。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在10個基準測試中表現突出：

搜索任務提升14.9%、智能體任務提升14.0%、數學任務提升14.5%、科學任務提升4.1%。

多項任務表現甚至超越比其大50倍的模型，超越GPT-4o、Llama3.1-405B。

AgentFlow發布后，受到業界不少廣泛關注與看好。

網友紛紛表示方向很棒：

多智能體流（multi-agentflow）給人的感覺就像“相位耦合推理”（phase-coupled reasoning）。很期待看到“協同能力”取代“規模”，成為衡量智能的指標。

Flow-GRPO采用共享內存的多智能體架構設計精妙。其中驗證智能體對幻覺化工具調用的阻斷機制尤為關鍵——它能顯著減少智能體工作流中典型的多步推理鏈誤差傳播。

所以，AgentFlow究竟長啥樣？

工具集成的智能體系統+流中強化學習訓練

自“AI下半場”開啟以來，智能體（Agent）在垂直領域與通用場景中呈現出井噴式發展。然而，在復雜決策與持續優化能力方面，當前智能體仍存在一定局限。如何將智能體的推理能力與強化學習的自我進化機制深度融合，成為突破這一瓶頸的關鍵所在。

在今年早些時候，隨著DeepSeek-R1的發布，推理模型的訓練方式迎來了新的啟發。不久之后，伊利諾伊大學香檳分校（UIUC）發布Search-R1，系統揭示了如何通過強化學習，訓練能夠自主推理并調用外部工具的推理模型（Tool-Integrated Reasoning Models）。

而在此之前，智能體系統（Agentic System）的發展也從系統層面推動了智能體協作與可擴展性的提升，為后續相關研究奠定了堅實基礎。

例如，LangGraph、PydanticAI、OWL等框架在智能體通信、任務規劃與工具調用等方面進行了多樣化的探索，為智能體生態的快速演進提供了有力支撐。

而AgentFlow提出了一種新范式，其中由四個具備記憶能力的專門化智能體協同配合：

規劃器負責分析任務并選擇工具，執行器調用工具并整合結果，驗證器基于累積記憶評估中間結果，生成器整合信息生成最終答案。

對于每個新任務，規劃器在智能體交互的“流”中根據環境變化及其他智能體的反饋實時進行on-policy優化，各模塊在推理流中協同演化并不斷調整決策策略。這些優化隨后被整合到系統的記憶中，形成一個閉環的自適應推理過程，使整個智能體系統在復雜環境下實現魯棒的工具調用與持續進化。

其中，AgentFlow包含了以下幾個關鍵組件：

模塊化智能體結構。

AgentFlow采用了四個具備記憶能力的專門化智能體協同配合，共同完成復雜推理，從而實現“即時學習”：

（i）規劃器（Action Planner）：分析任務、制定策略并選擇最合適的工具;
（ii）執行器（Tool Executor）：調用工具集并整合工具執行結果;
（iii）驗證器（Verifier）：基于系統維護的累積記憶評估中間結果是否滿足目標與約束;
（iv）生成器（Generator）：整合所有信息與驗證反饋，生成最終答案或行動建議。

AgentFlow流中強化學習。

AgentFlow的關鍵創新在于：規劃器（Planner）并非固定不變，而是能夠在智能體交互的”流”（flow）中實時進行on-policy優化，使決策過程隨著環境變化及其他智能體的反饋不斷自適應進化。集成過程分為三個步驟：（i）環境感知與記憶檢索，（ii）動作規劃與工具選擇，（iii）策略優化與記憶更新。

Flow-GRPO：流中強化學習優化算法。

實現智能體流中強化學習訓練的核心挑戰在于多輪信用分配（multi-turn credit assignment）：即如何在長時跨度（long-horizon）且獎勵稀疏（sparse reward）的條件下，穩定且高效地訓練。為此團隊提出動作級別的（Action Level）的多輪推理優化目標。

如圖2所示，通過將軌跡最終結果的成功或失敗信號（outcome reward）廣播至每一步，將原本復雜的多輪強化學習問題轉化為一系列可處理的單輪策略更新。該方法不僅緩解了獎勵稀疏問題，還顯著提升了訓練效率，為智能體在復雜多輪推理中的穩定學習提供了基礎。

實驗結果

為了充分評估AgentFlow的泛化能力與高效性，研究團隊在10個跨各個領域的基準測試上進行了系統評測，涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。

以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在各項基準上均超越現有領先方法：

知識檢索（Search）：提升14.9%
智能體推理（Agentic Reasoning）：提升14.0%
數學推理（Math）：提升14.5%
科學推理（Science）：提升4.1%

值得注意的是，AgentFlow的表現甚至超過了大規模的專有模型，如GPT-4o（~200B）。

表1、2展示了AgentFlow在不同類型任務上的評估結果，表明了在有效性（相對提高高達14.9%）和效率（平均推理步數優化）上均優于基準方法。

研究團隊在10個基準測試上進行了評估，涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。一些有趣的發現：

1、模型規模不是唯一答案

使用7B參數的AgentFlow在多個任務上超過了約200B參數的GPT-4o，Llama3.1-405B，在搜索任務上領先8.2%，在智能體任務上領先15.8%。這再一次展現了，合理的系統設計和訓練方法可能比單純堆砌參數訓練All in one的大模型更有效。

2、“在流中學習”至關重要

對比實驗顯示，若采用離線監督學習（SFT）方式訓練規劃器，性能反而顯著下降，平均降低19%。

這表明，智能體在真實交互環境“流”中進行在線學習是實現高效推理的必要條件。

此外，盡管AgentFlow的推理流本身能夠利用其強大的任務分解能力帶來顯著性能提升，但仍可能出現循環錯誤或卡頓問題。通過在真實環境中的訓練，智能體系統展現出快速修正錯誤的工具調用、更精細的子任務規劃，以及全局任務解決性能的提升。

這些結果進一步證明了模塊協作機制以及流中強化學習在提升多輪智能體系統穩定性與效率方面的顯著作用。

3、自主發現新的解決路徑

有意思的是，經過Flow-GRPO的強化訓練規劃器，系統學會了根據任務特點選擇合適的工具組合；同時，經過訓練的系統會自發探索出新的工具使用模式，比如組合使用維基百科搜索（Wikipedia Search）和特定網頁增強搜索（Web Search）的連招，通過工具鏈獲得更加深入地信息挖掘，而這些模式幾乎沒有在未訓練的推理流中出現。

4、動態推理深度與性能提升

對于相同的數據集下的不同難度任務：譬如說多跳搜索（Multihop Search），智能體任務中的密集長鏈推理任務，AgentFlow在經過 FlowGRPO訓練后能夠隨著最大限制推理步數的上升穩步提升性能，同時又不會大幅提升平均推理步數——這表示對于長難任務會增加有效的推理步數來提升正確率，而不會一味地所有任務都隨著最大輪數限制而延長推理步數。

總之，AgentFlow為智能體訓練提供了一種全新的思路：

與其追求一個功能完備的單一大語言模型或“一次性完美”的智能體系統，不如讓智能體在系統中自我適應與持續學習。

通過將群體智能與“邊做邊學”的范式相結合，AgentFlow使智能體系統能夠在協同演化中不斷優化，從而高效應對復雜任務。

盡管從研究探索到實際應用仍有較長的距離，但這讓團隊看見Agentic AI依然蘊藏著巨大的潛力與想象空間。

論文地址：https://arxiv.org/abs/2510.05592
項目主頁：https://agentflow.stanford.edu/
Github倉庫：https://github.com/lupantech/AgentFlow
在線Demo：https://huggingface.co/spaces/AgentFlow/agentflow
YouTube視頻：https://www.youtube.com/watch?v=kIQbCQIH1SI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.