<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      斯坦福7B智能體全面超越GPT-4o,推理流登頂HF

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】傳統智能體系統難以兼顧穩定性和學習能力,斯坦福等學者提出AgentFlow框架,通過模塊化和實時強化學習,在推理中持續優化策略,并使小規模模型在多項任務中超越GPT-4o,為AI發展開辟新思路。

      當前AI Agent的發展正陷入兩難的境地:

      一方面,訓練「全能型」大模型讓其同時承擔推理、規劃與工具調用,雖具一體化優勢,但在長鏈推理中往往訓練不穩定、擴展性受限;

      另一方面,基于prompt的智能體系統雖具靈活性,卻缺乏學習與自我優化能力,無法從交互中持續進化。

      如何突破這一瓶頸?

      斯坦福大學聯合德州農工大學(Texas A&M)、加州大學圣地亞哥分校(UC San Diego)和Lambda的研究團隊給出了新答案:讓智能體系統在推理「流」中進行在線強化學習,從而實現持續的自我提升與能力進化


      論文地址:https://arxiv.org/abs/2510.05592

      項目主頁:https://agentflow.stanford.edu/

      開源代碼:https://github.com/lupantech/AgentFlow

      在線展示:https://huggingface.co/spaces/AgentFlow/agentflow

      視頻教程:https://www.youtube.com/watch?v=kIQbCQIH1SI

      他們提出AgentFlow框架采用模塊化架構,通過4個專門化智能體協同工作,配合專門設計的Flow-GRPO算法,使系統能夠在真實交互環境中持續優化決策策略。


      實驗結果顯示,僅7B參數的AgentFlow在搜索、數學、科學等多個任務上全面超越GPT-4o(約200B參數)和 Llama-3.1-405B。

      團隊負責人在推特上分享了工作,獲得了極大的關注。





      該工作目前已登上HuggingFace Paper日榜第二名,以及周最火Huggingface 項目。



      長鏈推理中的信用分配難題

      訓練智能體系統面臨的核心挑戰是多輪信用分配(multi-turn credit assignment)問題:在長時跨度、獎勵稀疏的環境中,如何準確判斷每一步決策對最終結果的貢獻?


      傳統的單一模型方法將所有功能集成在一個LLM中,通過特殊標簽(如 )一體化輸出思考、工具調用和回復。

      這種方式在短鏈任務中有效,但在復雜場景下容易出現:推理鏈過長導致訓練不穩定、工具選擇錯誤難以追溯、無法根據環境反饋動態調整策略。

      而現有的智能體系統(如 LangGraph、OWL、Pydantic、AutoGen)雖然實現了模塊化,但大多依賴固定的 prompt 工程,缺乏從經驗中學習的機制。

      AgentFlow多模塊實時交互

      在「流」中學習

      AgentFlow的設計思路是:將復雜的推理任務分解給專門化的智能體模塊,同時讓核心決策模塊能夠在交互中持續學習。


      四模塊協同架構

      系統由四個具備記憶能力的專門化智能體組成:

      • 規劃器(Action Planner):分析任務需求,制定執行策略,選擇最合適的工具。這是系統的核心決策模塊,也是唯一需要訓練的部分。

      • 執行器(Tool Executor):負責實際調用工具API,整合工具返回結果。

      • 驗證器(Verifier):基于系統累積的歷史記憶,評估中間結果是否符合任務目標和約束條件。

      • 生成器(Generator):整合所有信息和驗證反饋,生成最終答案或下一步行動建議。

      關鍵創新在于:規劃器不是靜態的,而是通過在線(on-policy)強化學習在推理流中實時優化。

      每輪交互后,系統會根據最終結果的成功或失敗,更新規劃器的決策策略,并將優化結果整合到系統記憶中,形成閉環的自適應學習過程。

      Flow-GRPO算法

      解決信用分配問題

      團隊提出Flow-GRPO(Flow-based Group Relative Policy Optimization)算法,專門針對多輪推理場景設計。核心思想是將軌跡最終的獎勵信號(成功/失敗)廣播到每一步動作,把復雜的多輪強化學習問題轉化為一系列單輪策略更新。



      具體做法是:

      1. 收集完整的推理軌跡(從初始任務到最終結果);

      2. 根據最終結果計算 outcome reward;

      3. 將這個 reward 分配給軌跡中每個規劃動作;

      4. 使用相對優勢函數計算每個動作的優勢,進行策略梯度更新。

      這種方法有效緩解了獎勵稀疏問題,同時保持了訓練的穩定性。

      在線學習使系統能夠:快速糾正錯誤的工具調用、探索更優的子任務分解方式、根據環境反饋動態調整推理深度。

      實驗結果:小模型的逆襲

      研究團隊在10個跨領域基準上進行了系統評測,覆蓋知識檢索、智能體任務、數學推理和科學推理四大類。

      性能對比

      以Qwen-2.5-7B-Instruct為基座模型,AgentFlow 在所有類別中均顯著領先。

      知識檢索:相比基線提升14.9%

      智能體推理:提升14.0%

      數學推理:提升14.5%

      科學推理:提升4.1%

      更令人驚訝的是跨規模對比結果:

      • 7B的AgentFlow在搜索任務上比GPT-4o(約200B)高8.2%

      • 在智能體任務上比Llama-3.1-405B高15.8%

      • 3B模型的AgentFlow也能在多項任務中超越405B的基線模型



      消融實驗的關鍵發現

      1. 在線學習 vs 離線學習

      對比實驗顯示,如果用傳統SFT方式訓練規劃器,性能反而會平均下降19%。這證明在真實交互環境中的在線學習是實現高效推理的必要條件。


      2. 自主探索新策略

      根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search) 和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。


      3. 動態推理深度

      在多跳搜索等密集推理任務中,訓練后的AgentFlow展現出「智能的懶惰」:對簡單任務保持較少的推理步數,對復雜任務才會增加推理深度。

      隨著最大步數限制的提升,性能穩步上升但平均步數不會同比例增長。



      4. 模塊協作的價值

      雖然推理流本身就能帶來性能提升,但未經訓練的系統容易出現循環錯誤或卡頓。

      通過強化學習訓練后,系統在工具調用準確性、子任務規劃精細度和全局性能上都有明顯改善。作者團隊提供過了一個例子來生動展示了在實驗中的有趣發現。


      在這個例子中,在經過Flow-GRPO訓練前的推理系統,一旦遇到了諸如這里的python變量定義錯誤,便會反復輸出相同的子目標和工具調用,極大地浪費時間和推理效率。

      在經過Flow-GRPO在線更新后,動作規劃器能夠根據之前的錯誤自動調整用更確切的子目標和任務描述來指導后續步驟,并且經過這樣的隨機應變后,一步成功。

      這個例子也極大程度展現了,在智能體系統真實推理中進行強化學習的極大潛力。

      技術意義與未來展望

      AgentFlow的工作價值在于:

      1. 提供了新的訓練范式證明了智能體系統可以通過在線強化學習獲得類似大模型的學習能力,且在特定任務上效率更高。

      2. 驗證了「小而精」的可行性在合理的系統設計下,小模型通過模塊化協作和持續學習,可以在復雜推理任務中超越大規模通用模型。

      3. 為可擴展AI提供思路模塊化架構使得系統可以靈活添加新工具、調整模塊功能。

      AgentFlow至少讓我們看到:Agentic AI的發展不必完全依賴模型規模的堆砌,系統架構創新+高效訓練方法可能是更值得探索的方向。

      參考資料:

      https://arxiv.org/abs/2510.05592

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不論男女,如果肛門經常出現5個問題,或許暗示體內有癌

      不論男女,如果肛門經常出現5個問題,或許暗示體內有癌

      風信子的花
      2025-11-05 12:17:08
      倒反天罡,烏克蘭人紛紛慶祝烏軍最精銳的第155旅被俄軍包圍。

      倒反天罡,烏克蘭人紛紛慶祝烏軍最精銳的第155旅被俄軍包圍。

      徐云流浪中國
      2025-11-05 16:49:14
      超60人報名競選國足主帥,半數來自西班牙,10人進面試僅3名中方教練

      超60人報名競選國足主帥,半數來自西班牙,10人進面試僅3名中方教練

      齊魯壹點
      2025-11-05 21:03:18
      又見“家長抱著嬰兒在學校門口站崗”:學校阻止了,她說她可以!

      又見“家長抱著嬰兒在學校門口站崗”:學校阻止了,她說她可以!

      走讀新生
      2025-11-05 18:19:25
      被紀委帶走15天音訊全無,到底有多嚴重?這3種結局普通人根本想不到!

      被紀委帶走15天音訊全無,到底有多嚴重?這3種結局普通人根本想不到!

      微法官
      2025-11-06 00:04:26
      觀看量第一!《白雪公主》主演瑞秋·齊格勒回應影片票房口碑撲街

      觀看量第一!《白雪公主》主演瑞秋·齊格勒回應影片票房口碑撲街

      仙味少女心
      2025-11-05 03:09:37
      別找年齡借口 43歲陳自瑤靠自律拿下豐胸代言 這才是“姐感”天花板

      別找年齡借口 43歲陳自瑤靠自律拿下豐胸代言 這才是“姐感”天花板

      阿廢冷眼觀察所
      2025-10-17 12:20:16
      馬上停止5類運動,很可能加速血栓形成!等血管“堵死”就遲了

      馬上停止5類運動,很可能加速血栓形成!等血管“堵死”就遲了

      39健康網
      2025-11-03 20:11:36
      蒯紀聞梅開二度!U20上海隊晉級

      蒯紀聞梅開二度!U20上海隊晉級

      魯中晨報
      2025-11-05 18:27:02
      哈登情緒失控!因倫納德“陰陽合同”怒砸更衣室,或交易回火箭

      哈登情緒失控!因倫納德“陰陽合同”怒砸更衣室,或交易回火箭

      體壇黑馬
      2025-11-04 18:23:05
      預計我國將進入拉尼娜狀態!今年冬季,廣西或出現極端低溫

      預計我國將進入拉尼娜狀態!今年冬季,廣西或出現極端低溫

      南國今報
      2025-11-05 12:47:03
      善惡到頭終有報!57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報!57歲央視女主持王小丫,已走上另一條大路

      草莓解說體育
      2025-11-04 03:55:31
      許律師發朋友圈云淡風輕,王空姐未刪多年合照,網友:細思極恐!

      許律師發朋友圈云淡風輕,王空姐未刪多年合照,網友:細思極恐!

      一只番茄魚
      2025-11-04 10:24:48
      魏德爾雙喜臨門,默茨陷入兩難,還有余力拒絕選擇黨的橄欖枝嗎?

      魏德爾雙喜臨門,默茨陷入兩難,還有余力拒絕選擇黨的橄欖枝嗎?

      牛鍋巴小釩
      2025-11-06 00:55:34
      馬卡:C羅認為世界杯代表不了什么,但那是他簡歷上最大缺憾

      馬卡:C羅認為世界杯代表不了什么,但那是他簡歷上最大缺憾

      懂球帝
      2025-11-05 08:13:26
      龔正會見格魯吉亞總理科巴希澤

      龔正會見格魯吉亞總理科巴希澤

      澎湃新聞
      2025-11-05 21:42:28
      這個狀元怎么了?才25歲啊,得分生涯最低,命中率生涯最低

      這個狀元怎么了?才25歲啊,得分生涯最低,命中率生涯最低

      球毛鬼胎
      2025-11-04 18:23:43
      哈馬斯:以色列向地道灌混凝土困我們的戰士,嚴重違反協議

      哈馬斯:以色列向地道灌混凝土困我們的戰士,嚴重違反協議

      桂系007
      2025-11-04 22:41:12
      10歲患兒被切除6個器官迎來反轉!輿論從網暴醫生,轉為網暴父母

      10歲患兒被切除6個器官迎來反轉!輿論從網暴醫生,轉為網暴父母

      垛垛糖
      2025-11-03 14:51:45
      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      開開森森
      2025-11-05 11:27:09
      2025-11-06 02:51:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      本地
      教育
      親子
      公開課

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      親子要聞

      孩子夾腿觸摸自己不一定都是壞事,但這種情況除外!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 又粗又硬又黄a级毛片| 国产又色又爽又黄的| 中文字幕无线码中文字幕| 欧美拍拍视频免费大全| 胶南市| 内射无套内射国产精品视频| 亚洲av成人三区国产精品| 99er热精品视频| 午夜国产精品福利一二| 精品亚洲欧美高清不卡高清 | 内射无套内射国产精品视频| 国产午夜精品福利免费不| 亚洲AV福利天堂在线观看| 日本无翼乌邪恶大全彩h| 国产精品人成视频免费国产| 国产亚洲av产精品亚洲| 九九热视频在线免费观看| 女人18片毛片60分钟| 亚洲香蕉免费有线视频| 亚洲国产成人精品无色码| 曰韩亚洲av人人夜夜澡人人爽| 成人片黄网站色大片免费毛片| 色天使亚洲综合一区二区| 在线看片免费人成视频久网| 国产精品免费观在线| 亚洲av永久无码精品漫画| 又污又黄又无遮挡的网站| 国产午夜福利免费入口| 波多野结衣av一区二区三区中文| 亚洲欧美日本久久网站| 麻豆麻豆麻豆麻豆麻豆麻豆| 美女一级毛片无遮挡内谢| 26uuu另类亚洲欧美日本| 国产成年码av片在线观看| 色爱综合激情五月激情| 少妇特黄a一区二区三区| 国产九九视频一区二区三区| 国产午夜精品在人线播放| 免费国产高清在线精品一区| 日韩在线视频网| 久久国产一区二区日韩av|