<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      斯坦福7B智能體全面超越GPT-4o,推理流登頂HF

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】傳統智能體系統難以兼顧穩定性和學習能力,斯坦福等學者提出AgentFlow框架,通過模塊化和實時強化學習,在推理中持續優化策略,并使小規模模型在多項任務中超越GPT-4o,為AI發展開辟新思路。

      當前AI Agent的發展正陷入兩難的境地:

      一方面,訓練「全能型」大模型讓其同時承擔推理、規劃與工具調用,雖具一體化優勢,但在長鏈推理中往往訓練不穩定、擴展性受限;

      另一方面,基于prompt的智能體系統雖具靈活性,卻缺乏學習與自我優化能力,無法從交互中持續進化。

      如何突破這一瓶頸?

      斯坦福大學聯合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和Lambda的研究團隊給出了新答案:讓智能體系統在推理「流」中進行在線強化學習,從而實現持續的自我提升與能力進化。


      論文地址:https://arxiv.org/abs/2510.05592

      項目主頁:https://agentflow.stanford.edu/

      開源代碼:https://github.com/lupantech/AgentFlow

      在線展示:https://huggingface.co/spaces/AgentFlow/agentflow

      視頻教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

      他們提出AgentFlow框架采用模塊化架構,通過4個專門化智能體協同工作,配合專門設計的Flow-GRPO算法,使系統能夠在真實交互環境中持續優化決策策略。


      實驗結果顯示,僅7B參數的AgentFlow在搜索、數學、科學等多個任務上全面超越GPT-4o(約200B參數)和 Llama-3.1-405B。

      團隊負責人在推特上分享了工作,獲得了極大的關注。





      該工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 項目。



      長鏈推理中的信用分配難題

      訓練智能體系統面臨的核心挑戰是多輪信用分配(multi-turn credit assignment)問題:在長時跨度、獎勵稀疏的環境中,如何準確判斷每一步決策對最終結果的貢獻?


      傳統的單一模型方法將所有功能集成在一個LLM中,通過特殊標簽(如 )一體化輸出思考、工具調用和回復。

      這種方式在短鏈任務中有效,但在復雜場景下容易出現:推理鏈過長導致訓練不穩定、工具選擇錯誤難以追溯、無法根據環境反饋動態調整策略。

      而現有的智能體系統(如 LangGraph、OWL、Pydantic、AutoGen)雖然實現了模塊化,但大多依賴固定的 prompt 工程,缺乏從經驗中學習的機制。

      AgentFlow多模塊實時交互

      在「流」中學習

      AgentFlow的設計思路是:將復雜的推理任務分解給專門化的智能體模塊,同時讓核心決策模塊能夠在交互中持續學習


      四模塊協同架構

      系統由四個具備記憶能力的專門化智能體組成:

      • 規劃器(Action Planner):分析任務需求,制定執行策略,選擇最合適的工具。這是系統的核心決策模塊,也是唯一需要訓練的部分。

      • 執行器(Tool Executor):負責實際調用工具API,整合工具返回結果。

      • 驗證器(Verifier):基于系統累積的歷史記憶,評估中間結果是否符合任務目標和約束條件。

      • 生成器(Generator):整合所有信息和驗證反饋,生成最終答案或下一步行動建議。

      關鍵創新在于:規劃器不是靜態的,而是通過在線(on-policy)強化學習在推理流中實時優化。

      每輪交互后,系統會根據最終結果的成功或失敗,更新規劃器的決策策略,并將優化結果整合到系統記憶中,形成閉環的自適應學習過程。

      Flow-GRPO算法

      解決信用分配問題

      團隊提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,專門針對多輪推理場景設計。核心思想是將軌跡最終的獎勵信號(成功/失?。V播到每一步動作,把復雜的多輪強化學習問題轉化為一系列單輪策略更新。



      具體做法是:

      1. 收集完整的推理軌跡(從初始任務到最終結果);

      2. 根據最終結果計算 outcome reward;

      3. 將這個 reward 分配給軌跡中每個規劃動作;

      4. 使用相對優勢函數計算每個動作的優勢,進行策略梯度更新。

      這種方法有效緩解了獎勵稀疏問題,同時保持了訓練的穩定性。

      在線學習使系統能夠:快速糾正錯誤的工具調用、探索更優的子任務分解方式、根據環境反饋動態調整推理深度。

      實驗結果:小模型的逆襲

      研究團隊在10個跨領域基準上進行了系統評測,覆蓋知識檢索、智能體任務、數學推理和科學推理四大類。

      性能對比

      以Qwen-2.5-7B-Instruct為基座模型,AgentFlow 在所有類別中均顯著領先。

      知識檢索:相比基線提升14.9%

      智能體推理:提升14.0%

      數學推理:提升14.5%

      科學推理:提升4.1%

      更令人驚訝的是跨規模對比結果:

      • 7B的AgentFlow在搜索任務上比GPT-4o(約200B)高8.2%

      • 在智能體任務上比Llama-3.1-405B高15.8%

      • 3B模型的AgentFlow也能在多項任務中超越405B的基線模型



      消融實驗的關鍵發現

      1. 在線學習 vs 離線學習

      對比實驗顯示,如果用傳統SFT方式訓練規劃器,性能反而會平均下降19%。這證明在真實交互環境中的在線學習是實現高效推理的必要條件。


      2. 自主探索新策略

      根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search) 和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。


      3. 動態推理深度

      在多跳搜索等密集推理任務中,訓練后的AgentFlow展現出「智能的懶惰」:對簡單任務保持較少的推理步數,對復雜任務才會增加推理深度。

      隨著最大步數限制的提升,性能穩步上升但平均步數不會同比例增長。



      4. 模塊協作的價值

      雖然推理流本身就能帶來性能提升,但未經訓練的系統容易出現循環錯誤或卡頓。

      通過強化學習訓練后,系統在工具調用準確性、子任務規劃精細度和全局性能上都有明顯改善。作者團隊提供過了一個例子來生動展示了在實驗中的有趣發現。


      在這個例子中,在經過Flow-GRPO訓練前的推理系統,一旦遇到了諸如這里的python變量定義錯誤,便會反復輸出相同的子目標和工具調用,極大地浪費時間和推理效率。

      在經過Flow-GRPO在線更新后,動作規劃器能夠根據之前的錯誤自動調整用更確切的子目標和任務描述來指導后續步驟,并且經過這樣的隨機應變后,一步成功。

      這個例子也極大程度展現了,在智能體系統真實推理中進行強化學習的極大潛力。

      技術意義與未來展望

      AgentFlow的工作價值在于:

      1. 提供了新的訓練范式證明了智能體系統可以通過在線強化學習獲得類似大模型的學習能力,且在特定任務上效率更高。

      2. 驗證了「小而精」的可行性在合理的系統設計下,小模型通過模塊化協作和持續學習,可以在復雜推理任務中超越大規模通用模型。

      3. 為可擴展AI提供思路模塊化架構使得系統可以靈活添加新工具、調整模塊功能。

      AgentFlow至少讓我們看到:Agentic AI的發展不必完全依賴模型規模的堆砌,系統架構創新+高效訓練方法可能是更值得探索的方向。

      參考資料:

      https://arxiv.org/abs/2510.05592

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      回顧探花大神:害人害己,多位女主被親戚認出當場“社死”

      就一點
      2025-10-09 12:19:42
      比水貝黃金市場還熱鬧,深圳華強北有產品翻倍漲價!商戶稱“每天都在漲,后面可能更貴”,但不敢囤貨

      比水貝黃金市場還熱鬧,深圳華強北有產品翻倍漲價!商戶稱“每天都在漲,后面可能更貴”,但不敢囤貨

      每日經濟新聞
      2025-11-06 00:32:06
      代賬行業要變天了!財政部通知,2026年1月開始!

      代賬行業要變天了!財政部通知,2026年1月開始!

      墜入二次元的海洋
      2025-11-05 06:55:18
      弗蘭克:如果范德芬還能做到這樣,他就可以直接從我身邊走過

      弗蘭克:如果范德芬還能做到這樣,他就可以直接從我身邊走過

      懂球帝
      2025-11-05 08:13:26
      57歲楊瀾在新加坡旅游被偶遇,她的打扮貴氣十足,身材胖了不少

      57歲楊瀾在新加坡旅游被偶遇,她的打扮貴氣十足,身材胖了不少

      喜歡歷史的阿繁
      2025-11-05 07:21:33
      文晏回應爭獎!直言不認識白百何否認滬圈投資,白百何再次內涵

      文晏回應爭獎!直言不認識白百何否認滬圈投資,白百何再次內涵

      萌神木木
      2025-11-05 22:51:26
      越南政壇驚天變動:阮維玉空降河內,裴氏明懷突遭調動!

      越南政壇驚天變動:阮維玉空降河內,裴氏明懷突遭調動!

      丹徒生
      2025-11-06 05:48:09
      外媒:中國六代戰機對美西方新型戰機構成壓力,甚至可能拉開代差

      外媒:中國六代戰機對美西方新型戰機構成壓力,甚至可能拉開代差

      止戈軍是我
      2025-11-05 21:19:41
      江蘇北部這7000平方公里是高速公路“大洼地”,將建2條高速相交?

      江蘇北部這7000平方公里是高速公路“大洼地”,將建2條高速相交?

      小陸搞笑日常
      2025-11-05 14:01:53
      陳志根本不是重點,別再盯著他的下落了

      陳志根本不是重點,別再盯著他的下落了

      麥大人
      2025-11-03 15:37:57
      頂碗大媽正式回歸!現身公牛主場表演 穿喬丹45號球衣宣布復出

      頂碗大媽正式回歸!現身公牛主場表演 穿喬丹45號球衣宣布復出

      羅說NBA
      2025-11-05 10:51:02
      1-2,歐冠冠軍倒下+遭5連殺!無敵之隊瘋狂16連勝,繼續創造歷史

      1-2,歐冠冠軍倒下+遭5連殺!無敵之隊瘋狂16連勝,繼續創造歷史

      烏龍球OwnGoal
      2025-11-05 08:39:34
      沉默7天后,歐盟對華攤牌,拒絕承認2758號決議,反制箭在弦上

      沉默7天后,歐盟對華攤牌,拒絕承認2758號決議,反制箭在弦上

      第一心理
      2025-11-05 23:09:03
      青州一男一女在深山里玩野的,出不來了!

      青州一男一女在深山里玩野的,出不來了!

      青州論壇
      2025-11-05 22:51:52
      廣東一珠寶商通過快遞寄出7萬元翡翠手鐲,顧客卻收到空包裹?警方已立案!

      廣東一珠寶商通過快遞寄出7萬元翡翠手鐲,顧客卻收到空包裹?警方已立案!

      廣東吃喝玩樂
      2025-11-05 12:04:25
      十年后,上海必然起飛的四大板塊!

      十年后,上海必然起飛的四大板塊!

      環線房產咨詢
      2025-11-05 17:59:25
      馬斯克驚人預言!

      馬斯克驚人預言!

      互聯網思維
      2025-11-05 23:34:03
      新質觀察|創新何以驅動經濟增長?

      新質觀察|創新何以驅動經濟增長?

      澎湃新聞
      2025-11-04 08:09:06
      于正曝吳謹言手握八個復仇劇本,粉絲急呼:求你別再演魏瓔珞

      于正曝吳謹言手握八個復仇劇本,粉絲急呼:求你別再演魏瓔珞

      草莓解說體育
      2025-11-06 00:53:18
      “國補”確認恢復繼續!第四批690億補貼11月已開啟

      “國補”確認恢復繼續!第四批690億補貼11月已開啟

      濟寧生活網
      2025-11-06 01:11:53
      2025-11-06 07:23:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      美國發射洲際彈道導彈 俄羅斯:俄方不參加軍備競賽

      頭條要聞

      美國發射洲際彈道導彈 俄羅斯:俄方不參加軍備競賽

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      游戲
      健康
      親子
      公開課

      今年一定要擁有這件大衣,復古又時髦!

      一份游戲雙平臺玩!PS5/PC跨平臺購買標志新發現

      超聲探頭會加重受傷情況嗎?

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩丝袜亚洲国产欧美一区| 亚洲区一区二区激情文学| 伊人av超碰伊人久久久| 无码人妻h动漫| 中文字幕av国产精品| 日韩高清福利视频在线观看| 男人又大又硬又粗视频| 蜜臀av久久国产午夜福利软件| 五月综合网亚洲乱妇久久| 国产成人黄色自拍小视频| 久久精品国产字幕高潮| 日本阿v片在线播放免费| 久热这里只有精品12| 成人看的污污超级黄网站免费| 日本一区二区三本视频在线观看| 人妻中文字幕av资源站| 无遮无挡爽爽免费视频| 成人乱码一区二区三区四区| 国产无码高清视频不卡| 熟妇人妻不卡中文字幕| 宝鸡市| 97碰碰碰免费公开在线视频| 精品九九人人做人人爱| 爆乳日韩尤物无码一区| 国产AV无码专区亚洲AV漫画| 铁力市| 国产无遮挡猛进猛出免费| 国产99视频精品免费视频36| aaa少妇高潮大片免费看| av在线播放无码线| 精品一区二区不卡免费| 中国极品少妇xxxxx| 啦啦啦视频在线日韩精品| 国产高清自产拍av在线| 顶级欧美熟妇xx| 亚洲精品香蕉一区二区| 国产精品中文第一字幕| 国产日产亚洲系列最新| 国产一区二区三区无遮挡| 中文字幕99国产精品| 麻豆蜜桃av蜜臀av色欲av|