網易首頁 > 網易號 > 正文申請入駐

斯坦福7B智能體全面超越GPT-4o，推理流登頂HF

2025-11-03 17:19:44　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】傳統智能體系統難以兼顧穩定性和學習能力，斯坦福等學者提出AgentFlow框架，通過模塊化和實時強化學習，在推理中持續優化策略，并使小規模模型在多項任務中超越GPT-4o，為AI發展開辟新思路。

當前AI Agent的發展正陷入兩難的境地：

一方面，訓練「全能型」大模型讓其同時承擔推理、規劃與工具調用，雖具一體化優勢，但在長鏈推理中往往訓練不穩定、擴展性受限；

另一方面，基于prompt的智能體系統雖具靈活性，卻缺乏學習與自我優化能力，無法從交互中持續進化。

如何突破這一瓶頸？

斯坦福大學聯合德州農工大學（Texas A&M）、加州大學圣地亞哥分校（UC San Diego）和Lambda的研究團隊給出了新答案：讓智能體系統在推理「流」中進行在線強化學習，從而實現持續的自我提升與能力進化。

論文地址：https://arxiv.org/abs/2510.05592

項目主頁：https://agentflow.stanford.edu/

開源代碼：https://github.com/lupantech/AgentFlow

在線展示：https://huggingface.co/spaces/AgentFlow/agentflow

視頻教程：https://www.youtube.com/watch?v=kIQbCQIH1SI

他們提出AgentFlow框架采用模塊化架構，通過4個專門化智能體協同工作，配合專門設計的Flow-GRPO算法，使系統能夠在真實交互環境中持續優化決策策略。

實驗結果顯示，僅7B參數的AgentFlow在搜索、數學、科學等多個任務上全面超越GPT-4o（約200B參數）和 Llama-3.1-405B。

團隊負責人在推特上分享了工作，獲得了極大的關注。

該工作目前已登上HuggingFace Paper日榜第二名，以及周最火Huggingface 項目。

長鏈推理中的信用分配難題

訓練智能體系統面臨的核心挑戰是多輪信用分配（multi-turn credit assignment）問題：在長時跨度、獎勵稀疏的環境中，如何準確判斷每一步決策對最終結果的貢獻？

傳統的單一模型方法將所有功能集成在一個LLM中，通過特殊標簽（如）一體化輸出思考、工具調用和回復。

這種方式在短鏈任務中有效，但在復雜場景下容易出現：推理鏈過長導致訓練不穩定、工具選擇錯誤難以追溯、無法根據環境反饋動態調整策略。

而現有的智能體系統（如 LangGraph、OWL、Pydantic、AutoGen）雖然實現了模塊化，但大多依賴固定的 prompt 工程，缺乏從經驗中學習的機制。

AgentFlow多模塊實時交互

在「流」中學習

AgentFlow的設計思路是：將復雜的推理任務分解給專門化的智能體模塊，同時讓核心決策模塊能夠在交互中持續學習。

四模塊協同架構

系統由四個具備記憶能力的專門化智能體組成：

規劃器（Action Planner）：分析任務需求，制定執行策略，選擇最合適的工具。這是系統的核心決策模塊，也是唯一需要訓練的部分。
執行器（Tool Executor）：負責實際調用工具API，整合工具返回結果。
驗證器（Verifier）：基于系統累積的歷史記憶，評估中間結果是否符合任務目標和約束條件。
生成器（Generator）：整合所有信息和驗證反饋，生成最終答案或下一步行動建議。

關鍵創新在于：規劃器不是靜態的，而是通過在線（on-policy）強化學習在推理流中實時優化。

每輪交互后，系統會根據最終結果的成功或失敗，更新規劃器的決策策略，并將優化結果整合到系統記憶中，形成閉環的自適應學習過程。

Flow-GRPO算法

解決信用分配問題

團隊提出Flow-GRPO（Flow-based Group Relative Policy Optimization）算法，專門針對多輪推理場景設計。核心思想是將軌跡最終的獎勵信號（成功/失敗）廣播到每一步動作，把復雜的多輪強化學習問題轉化為一系列單輪策略更新。

具體做法是：

1. 收集完整的推理軌跡（從初始任務到最終結果）；

2. 根據最終結果計算 outcome reward；

3. 將這個 reward 分配給軌跡中每個規劃動作；

4. 使用相對優勢函數計算每個動作的優勢，進行策略梯度更新。

這種方法有效緩解了獎勵稀疏問題，同時保持了訓練的穩定性。

在線學習使系統能夠：快速糾正錯誤的工具調用、探索更優的子任務分解方式、根據環境反饋動態調整推理深度。

實驗結果：小模型的逆襲

研究團隊在10個跨領域基準上進行了系統評測，覆蓋知識檢索、智能體任務、數學推理和科學推理四大類。

性能對比

以Qwen-2.5-7B-Instruct為基座模型，AgentFlow 在所有類別中均顯著領先。

知識檢索：相比基線提升14.9%

智能體推理：提升14.0%

數學推理：提升14.5%

科學推理：提升4.1%

更令人驚訝的是跨規模對比結果：

7B的AgentFlow在搜索任務上比GPT-4o（約200B）高8.2%
在智能體任務上比Llama-3.1-405B高15.8%
3B模型的AgentFlow也能在多項任務中超越405B的基線模型

消融實驗的關鍵發現

1. 在線學習 vs 離線學習

對比實驗顯示，如果用傳統SFT方式訓練規劃器，性能反而會平均下降19%。這證明在真實交互環境中的在線學習是實現高效推理的必要條件。

2. 自主探索新策略

根據任務特點選擇合適的工具組合；同時，經過訓練的系統會自發探索出新的工具使用模式，比如組合使用維基百科搜索（Wikipedia Search）和特定網頁增強搜索（Web Search）的連招，通過工具鏈獲得更加深入地信息挖掘，而這些模式幾乎沒有在未訓練的推理流中出現。

3. 動態推理深度

在多跳搜索等密集推理任務中，訓練后的AgentFlow展現出「智能的懶惰」：對簡單任務保持較少的推理步數，對復雜任務才會增加推理深度。

隨著最大步數限制的提升，性能穩步上升但平均步數不會同比例增長。

4. 模塊協作的價值

雖然推理流本身就能帶來性能提升，但未經訓練的系統容易出現循環錯誤或卡頓。

通過強化學習訓練后，系統在工具調用準確性、子任務規劃精細度和全局性能上都有明顯改善。作者團隊提供過了一個例子來生動展示了在實驗中的有趣發現。

在這個例子中，在經過Flow-GRPO訓練前的推理系統，一旦遇到了諸如這里的python變量定義錯誤，便會反復輸出相同的子目標和工具調用，極大地浪費時間和推理效率。

在經過Flow-GRPO在線更新后，動作規劃器能夠根據之前的錯誤自動調整用更確切的子目標和任務描述來指導后續步驟，并且經過這樣的隨機應變后，一步成功。

這個例子也極大程度展現了，在智能體系統真實推理中進行強化學習的極大潛力。

技術意義與未來展望

AgentFlow的工作價值在于：

1. 提供了新的訓練范式證明了智能體系統可以通過在線強化學習獲得類似大模型的學習能力，且在特定任務上效率更高。

2. 驗證了「小而精」的可行性在合理的系統設計下，小模型通過模塊化協作和持續學習，可以在復雜推理任務中超越大規模通用模型。

3. 為可擴展AI提供思路模塊化架構使得系統可以靈活添加新工具、調整模塊功能。

AgentFlow至少讓我們看到：Agentic AI的發展不必完全依賴模型規模的堆砌，系統架構創新+高效訓練方法可能是更值得探索的方向。

參考資料：

https://arxiv.org/abs/2510.05592

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

我MiniMax，用實習生處理數據，照樣屠榜開源大模型

量子位 2025-11-04 13:14:18
4 跟貼 4
剛剛，華為AI推理大招開源，時延降90%，吞吐提22倍，上下文10倍級擴展

智東西 2025-11-05 17:53:14
4 跟貼 4

Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0

微信AI團隊，悄悄干了件大事，算力消耗暴降44%！

智東西 2025-11-05 22:10:40
0 跟貼 0
AI跌價900倍，連一瓶礦泉水都比它貴！

新智元 2025-11-05 19:51:51
12 跟貼 12

27萬小時的真實數據，終于驗證了機器人領域的Scaling Law？

DeepTech深科技 2025-11-05 21:55:30
0 跟貼 0

AI實盤投資哪家強？專訪Nof1人工智能負責人：表現最佳的都是開源模型

每日經濟新聞 2025-11-05 23:20:06
0 跟貼 0
用完這張無限可能的AI畫布，第一次感覺人類導演要失業了！

新智元 2025-11-04 10:12:24
3 跟貼 3

亞馬遜與Perplexity打起來了！互聯網平臺與智能體水火不容？

雷科技 2025-11-05 21:29:34
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
你刷到的視頻是真的么？用物理規律拆穿Sora謊言

機器之心Pro 2025-11-05 16:27:02
0 跟貼 0
2025世界大學校長論壇 | 重磅嘉賓搶先看！

中國高等教育學會 2025-11-06 00:01:28
0 跟貼 0
阿里發布信息檢索Agent，可自主上網查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
67 跟貼 67
男子通過模型講解自建房結構，“圈梁構造柱樓板馬牙槎”，網友：樓板才是磚混結構的靈魂

鶴壁焦點 2025-11-03 16:34:57
363 跟貼 363
神秘策略曝光：中美關系顛覆在即？

和明艷 2025-11-04 07:57:14
2 跟貼 2
英偉達幫你省錢，讓大模型推理「短而精」，速度快5倍

機器之心Pro 2025-11-04 13:49:30
2 跟貼 2
1斤豆芽賣28.8元？網友直呼“吃不起”，知名餐飲品牌回應

都市快報橙柿互動 2025-11-02 16:20:16
8631 跟貼 8631
32萬年終獎變成3千我沒鬧，每天準時上下班，再也不維護公司程序

小秋情感說 2025-11-01 18:30:30
637 跟貼 637
佐赫蘭·馬姆達尼成為美國紐約市史上首位印度裔市長

央視新聞客戶端 2025-11-05 11:23:28
9103 跟貼 9103
Qwen3-Max思考版上線，集成代碼解釋器攻堅復雜數學

DeepTech深科技 2025-11-04 17:45:57
2 跟貼 2
丑女易容后的報復，最被忽視的推理神作《回廊亭殺人事件》

壹哥追劇 2025-11-05 19:42:43
1 跟貼 1
新領導處處針對我，我遞辭呈她急眼：為你調崗想跑？沒門！

曉艾故事匯 2025-11-02 18:06:56
1 跟貼 1
烏克蘭公布“罕見”作戰畫面！外媒：烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

環球網資訊 2025-11-05 16:09:59
5081 跟貼 5081
RAE終極形態？北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

機器之心Pro 2025-11-03 17:23:27
0 跟貼 0
富家花重金，買下泰森11的拳頭模型，有錢就是豪橫

歡樂夢工廠 2025-11-04 11:55:45
1 跟貼 1
輕量高效，即插即用：Video-RAG為長視頻理解帶來新范式

機器之心Pro 2025-10-20 18:23:17
0 跟貼 0
國務院公告后搜索暴漲3倍上海人立馬出手：怕搶不到

極目新聞 2025-11-05 15:06:20
394 跟貼 394
紅壹科技獲數千萬元B輪融資，發布“AI智能體工廠” | 融資首發

鈦媒體APP 2025-11-05 21:24:44
0 跟貼 0
地球級AI智能體爆誕！谷歌地球開外掛，一夜為20億人洪水預警

新智元 2025-11-05 19:52:11
0 跟貼 0
《毛選》智慧：告別低效掙扎！掌握毛選思維模型，做復雜時代的明白人

云霧J視界 2025-11-05 21:18:34
0 跟貼 0
三亞海灘“長滿”了俄羅斯人！網友調侃：我在這里反而成了“老外”

封面新聞 2025-11-02 12:57:02
148 跟貼 148
成都一處兇宅以起拍價26.6萬元拍賣，市場價約160萬元，已有70人報名

極目新聞 2025-11-05 12:35:31
1030 跟貼 1030
熱血傳奇：升級武器時墊刀到底有沒有用？

道哥説傳奇 2025-11-05 06:25:03
30 跟貼 30
美財長稱中國是"不可靠的伙伴" 外交部回應

澎湃新聞 2025-11-05 15:18:30
689 跟貼 689
當深圳00后也來抄底：內地客赴港買房，十年砸下8000億

南方都市報 2025-11-05 13:54:46
438 跟貼 438
這個 pubmed 插件自帶全文下載通道，校外可用

生物學霸 2025-10-31 17:26:22
0 跟貼 0
智能油車破局：上汽奧迪A5L Sportback的科技進化

路咖汽車 2025-11-05 10:17:11
4 跟貼 4
小鵬科技日發布第二代VLA大模型，三大具身智能產品矩陣集體進階

天天汽車 2025-11-05 18:23:22
3 跟貼 3
大轉彎！特朗普再提名馬斯克盟友任NASA局長，曾斥2億美元完成首次商業太空行走

紅星新聞 2025-11-05 13:16:38
375 跟貼 375
從此，請叫“貝爵爺”！貝克漢姆獲封英國王室最高爵士頭銜

封面新聞 2025-11-05 16:29:05
354 跟貼 354

新智元

AI產業主平臺領航智能+時代

13794文章數 66238關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

本地

教育

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
為何密封包裝的大米也會生蟲？該如何防治？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

斯坦福7B智能體全面超越GPT-4o，推理流登頂HF

大轉彎!特朗普再提名馬斯克盟友任NASA局長

俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

贏下皇馬，會是利物浦的轉折點嗎？

港星林尚武突發心臟病去世

事關加快建設金融強國 中央金融辦發聲

智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

態度原創

最新！海南樓市10月熱銷榜單出爐！

這屆干飯人，已經把博物館吃成了食堂

最新：2026年南京中考體育考試內容及評分標準曝光！

孩子夾腿觸摸自己不一定都是壞事，但這種情況除外！

斯坦福7B智能體全面超越GPT-4o，推理流登頂HF

俄士兵連遭烏軍7架無人機襲擊奇跡生還視頻披露

俄士兵連遭烏軍7架無人機襲擊奇跡生還視頻披露

贏下皇馬，會是利物浦的轉折點嗎？

事關加快建設金融強國中央金融辦發聲

智己LS9入局"9系"混戰全尺寸SUV市場迎來新變量

這屆干飯人，已經把博物館吃成了食堂

最新：2026年南京中考體育考試內容及評分標準曝光！

孩子夾腿觸摸自己不一定都是壞事，但這種情況除外！