<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI在線強化學習“邊做邊學”,斯坦福團隊讓7B小模型性能飆升

      0
      分享至

      允中 發自 凹非寺
      量子位 | 公眾號 QbitAI

      斯坦福等新框架,用在線強化學習讓智能體系統“以小搏大”,領先GPT-4o——

      AgentFlow,是一種能夠在線優化智能體系統的新范式,可以持續提升智能體系統對于復雜問題的推理能力

      它由規劃器、執行器、驗證器、生成器四個專業智能體組成的團隊通過共享內存進行協作,利用新方法Flow-GRPO,在系統內部直接對其規劃器智能體進行實時優化。



      以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在10個基準測試中表現突出:

      搜索任務提升14.9%、智能體任務提升14.0%、數學任務提升14.5%、科學任務提升4.1%。

      多項任務表現甚至超越比其大50倍的模型,超越GPT-4o、Llama3.1-405B。



      AgentFlow發布后,受到業界不少廣泛關注與看好。



      網友紛紛表示方向很棒:

      • 多智能體流(multi-agentflow)給人的感覺就像“相位耦合推理”(phase-coupled reasoning)。很期待看到“協同能力”取代“規模”,成為衡量智能的指標。



      • Flow-GRPO采用共享內存的多智能體架構設計精妙。其中驗證智能體對幻覺化工具調用的阻斷機制尤為關鍵——它能顯著減少智能體工作流中典型的多步推理鏈誤差傳播。



      所以,AgentFlow究竟長啥樣?



      工具集成的智能體系統+流中強化學習訓練

      自“AI下半場”開啟以來,智能體(Agent)在垂直領域與通用場景中呈現出井噴式發展。然而,在復雜決策與持續優化能力方面,當前智能體仍存在一定局限。如何將智能體的推理能力與強化學習的自我進化機制深度融合,成為突破這一瓶頸的關鍵所在。

      在今年早些時候,隨著DeepSeek-R1的發布,推理模型的訓練方式迎來了新的啟發。不久之后,伊利諾伊大學香檳分校(UIUC)發布Search-R1,系統揭示了如何通過強化學習,訓練能夠自主推理并調用外部工具的推理模型(Tool-Integrated Reasoning Models)。

      而在此之前,智能體系統(Agentic System)的發展也從系統層面推動了智能體協作與可擴展性的提升,為后續相關研究奠定了堅實基礎。

      例如,LangGraph、PydanticAI、OWL等框架在智能體通信、任務規劃與工具調用等方面進行了多樣化的探索,為智能體生態的快速演進提供了有力支撐。



      而AgentFlow提出了一種新范式,其中由四個具備記憶能力的專門化智能體協同配合:

      規劃器負責分析任務并選擇工具,執行器調用工具并整合結果,驗證器基于累積記憶評估中間結果,生成器整合信息生成最終答案。



      對于每個新任務,規劃器在智能體交互的“流”中根據環境變化及其他智能體的反饋實時進行on-policy優化,各模塊在推理流中協同演化并不斷調整決策策略。這些優化隨后被整合到系統的記憶中,形成一個閉環的自適應推理過程,使整個智能體系統在復雜環境下實現魯棒的工具調用與持續進化。

      其中,AgentFlow包含了以下幾個關鍵組件:

      模塊化智能體結構。

      AgentFlow采用了四個具備記憶能力的專門化智能體協同配合,共同完成復雜推理,從而實現“即時學習”:

      (i)規劃器(Action Planner):分析任務、制定策略并選擇最合適的工具;
      (ii)執行器(Tool Executor):調用工具集并整合工具執行結果;
      (iii)驗證器(Verifier):基于系統維護的累積記憶評估中間結果是否滿足目標與約束;
      (iv)生成器(Generator):整合所有信息與驗證反饋,生成最終答案或行動建議。

      AgentFlow流中強化學習。

      AgentFlow的關鍵創新在于:規劃器(Planner)并非固定不變,而是能夠在智能體交互的”流”(flow)中實時進行on-policy優化,使決策過程隨著環境變化及其他智能體的反饋不斷自適應進化。集成過程分為三個步驟:(i)環境感知與記憶檢索,(ii)動作規劃與工具選擇,(iii)策略優化與記憶更新。

      Flow-GRPO:流中強化學習優化算法。

      實現智能體流中強化學習訓練的核心挑戰在于多輪信用分配(multi-turn credit assignment):即如何在長時跨度(long-horizon)且獎勵稀疏(sparse reward)的條件下,穩定且高效地訓練。為此團隊提出動作級別的(Action Level)的多輪推理優化目標。



      如圖2所示,通過將軌跡最終結果的成功或失敗信號(outcome reward)廣播至每一步,將原本復雜的多輪強化學習問題轉化為一系列可處理的單輪策略更新。該方法不僅緩解了獎勵稀疏問題,還顯著提升了訓練效率,為智能體在復雜多輪推理中的穩定學習提供了基礎。



      實驗結果

      為了充分評估AgentFlow的泛化能力與高效性,研究團隊在10個跨各個領域的基準測試上進行了系統評測,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。



      以Qwen-2.5-7B-Instruct為基座模型的AgentFlow在各項基準上均超越現有領先方法:

      • 知識檢索(Search):提升14.9%
      • 智能體推理(Agentic Reasoning):提升14.0%
      • 數學推理(Math):提升14.5%
      • 科學推理(Science):提升4.1%

      值得注意的是,AgentFlow的表現甚至超過了大規模的專有模型,如GPT-4o(~200B)。





      表1、2展示了AgentFlow在不同類型任務上的評估結果,表明了在有效性(相對提高高達14.9%)和效率(平均推理步數優化)上均優于基準方法。

      研究團隊在10個基準測試上進行了評估,涵蓋知識檢索、智能體任務、數學推理和科學推理四大類。一些有趣的發現:

      1、模型規模不是唯一答案

      使用7B參數的AgentFlow在多個任務上超過了約200B參數的GPT-4o,Llama3.1-405B,在搜索任務上領先8.2%,在智能體任務上領先15.8%。這再一次展現了,合理的系統設計和訓練方法可能比單純堆砌參數訓練All in one的大模型更有效。

      2、“在流中學習”至關重要

      對比實驗顯示,若采用離線監督學習(SFT)方式訓練規劃器,性能反而顯著下降,平均降低19%。

      這表明,智能體在真實交互環境“流”中進行在線學習是實現高效推理的必要條件。

      此外,盡管AgentFlow的推理流本身能夠利用其強大的任務分解能力帶來顯著性能提升,但仍可能出現循環錯誤或卡頓問題。通過在真實環境中的訓練,智能體系統展現出快速修正錯誤的工具調用、更精細的子任務規劃,以及全局任務解決性能的提升。

      這些結果進一步證明了模塊協作機制以及流中強化學習在提升多輪智能體系統穩定性與效率方面的顯著作用。





      3、自主發現新的解決路徑

      有意思的是,經過Flow-GRPO的強化訓練規劃器,系統學會了根據任務特點選擇合適的工具組合;同時,經過訓練的系統會自發探索出新的工具使用模式,比如組合使用維基百科搜索(Wikipedia Search)和特定網頁增強搜索(Web Search)的連招,通過工具鏈獲得更加深入地信息挖掘,而這些模式幾乎沒有在未訓練的推理流中出現。



      4、動態推理深度與性能提升

      對于相同的數據集下的不同難度任務:譬如說多跳搜索(Multihop Search),智能體任務中的密集長鏈推理任務,AgentFlow在經過 FlowGRPO訓練后能夠隨著最大限制推理步數的上升穩步提升性能,同時又不會大幅提升平均推理步數——這表示對于長難任務會增加有效的推理步數來提升正確率,而不會一味地所有任務都隨著最大輪數限制而延長推理步數。





      總之,AgentFlow為智能體訓練提供了一種全新的思路:

      與其追求一個功能完備的單一大語言模型或“一次性完美”的智能體系統,不如讓智能體在系統中自我適應與持續學習。

      通過將群體智能與“邊做邊學”的范式相結合,AgentFlow使智能體系統能夠在協同演化中不斷優化,從而高效應對復雜任務。

      盡管從研究探索到實際應用仍有較長的距離,但這讓團隊看見Agentic AI依然蘊藏著巨大的潛力與想象空間。

      論文地址:https://arxiv.org/abs/2510.05592
      項目主頁:https://agentflow.stanford.edu/
      Github倉庫:https://github.com/lupantech/AgentFlow
      在線Demo:https://huggingface.co/spaces/AgentFlow/agentflow
      YouTube視頻:https://www.youtube.com/watch?v=kIQbCQIH1SI

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      四川A股最年輕董事長續任:29歲林曉晴連任成都路橋董事長,去年年薪92.57萬元

      四川A股最年輕董事長續任:29歲林曉晴連任成都路橋董事長,去年年薪92.57萬元

      澎湃新聞
      2025-11-05 10:19:09
      皇馬主帥亂來!客場變陣+3次換人沒用,西班牙21歲天才大戰遭棄

      皇馬主帥亂來!客場變陣+3次換人沒用,西班牙21歲天才大戰遭棄

      體育知多少
      2025-11-05 07:37:22
      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      環球熱點快評
      2025-11-03 22:40:40
      今天,A股調整到3923反彈,不出所料,周四很可能這樣走

      今天,A股調整到3923反彈,不出所料,周四很可能這樣走

      花心電影
      2025-11-05 14:59:43
      吳石出事,家中傭人卻沒受到牽連,原因是她拒絕了吳石的這個提議

      吳石出事,家中傭人卻沒受到牽連,原因是她拒絕了吳石的這個提議

      墨印齋
      2025-11-04 16:35:04
      醫生警示:中國腦梗發病率世界第一!4物是禍根,早戒早安

      醫生警示:中國腦梗發病率世界第一!4物是禍根,早戒早安

      袁醫生課堂
      2025-11-05 18:45:07
      武漢一網紅橋被封閉,曾因酷似奧特曼變身器引市民打卡

      武漢一網紅橋被封閉,曾因酷似奧特曼變身器引市民打卡

      大風新聞
      2025-11-05 13:46:14
      “安世大劫案”越鬧越兇,中國商務部公開點名荷蘭:別再一意孤行

      “安世大劫案”越鬧越兇,中國商務部公開點名荷蘭:別再一意孤行

      策前論
      2025-11-05 20:07:11
      火箭隊進攻第一!美媒曬開季6大驚喜:里夫斯蛻變76人探花淘到寶

      火箭隊進攻第一!美媒曬開季6大驚喜:里夫斯蛻變76人探花淘到寶

      鍋子籃球
      2025-11-05 20:05:51
      賽力斯港股上市首日破發,開盤跌破發行價,網友奇怪咋回事?

      賽力斯港股上市首日破發,開盤跌破發行價,網友奇怪咋回事?

      眼光很亮
      2025-11-05 15:12:17
      “難產”的國足新帥敲定45歲邵佳一,去年才首次獨立帶隊

      “難產”的國足新帥敲定45歲邵佳一,去年才首次獨立帶隊

      南方都市報
      2025-11-05 18:26:07
      上海停車場后續:原配背景被扒,老公已失業,阿三一毛錢都拿不到

      上海停車場后續:原配背景被扒,老公已失業,阿三一毛錢都拿不到

      來條娛吃
      2025-11-04 20:06:25
      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      碼農翻身
      2025-11-03 08:58:46
      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      大西體育
      2025-11-05 13:29:33
      巴黎主力后衛遭迪亞斯鏟哭,歐冠官方發聲譴責,球迷:世界杯懸了

      巴黎主力后衛遭迪亞斯鏟哭,歐冠官方發聲譴責,球迷:世界杯懸了

      側身凌空斬
      2025-11-05 07:01:52
      廣東一醫院招牌破損,“偉倫醫院”被誤讀為“律偷醫院”

      廣東一醫院招牌破損,“偉倫醫院”被誤讀為“律偷醫院”

      極目新聞
      2025-11-05 16:29:42
      外媒稱中國施壓英國教授停止相關研究 中方回應

      外媒稱中國施壓英國教授停止相關研究 中方回應

      看看新聞Knews
      2025-11-04 17:52:04
      此人官至總司令,將女兵霸占,還點名要宋美齡,最終被活埋黃河邊

      此人官至總司令,將女兵霸占,還點名要宋美齡,最終被活埋黃河邊

      云霄紀史觀
      2025-11-01 09:12:27
      藍色露肩T恤搭五分瑜伽褲,有活力又不失風格,小姐姐端莊又溫柔

      藍色露肩T恤搭五分瑜伽褲,有活力又不失風格,小姐姐端莊又溫柔

      小喬古裝漢服
      2025-11-05 15:34:03
      央視緊急撤檔!官媒怒批秦雯,襲警撈人已被立案,后臺再硬也不行

      央視緊急撤檔!官媒怒批秦雯,襲警撈人已被立案,后臺再硬也不行

      鯨探所長
      2025-11-05 14:19:24
      2025-11-05 21:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      頭條要聞

      神二十推遲返回 專家:厘米級空間碎片可致航天器損壞

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      手機
      旅游
      本地
      公開課
      軍事航空

      手機要聞

      華為Mate 70 Air真機曝光:塑料中框,保留物理SIM卡槽

      旅游要聞

      南寧青秀山深秋爆火!這 3 處花海美到窒息,踏秋攻略全在這!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本精品不卡一二三区| 男女做aj视频免费的网站| 视频一区视频二区在线视频| 日本高清中文字幕免费一区二区| 丁香五香天堂网| 九九热在线视频精品免费| 我国产码在线观看av哈哈哈网站| 四虎库影成人在线播放| 欧美色丁香| 水蜜桃精品综合视频在线| 精品日韩亚洲av无码| 亚洲无码在线免费观看| 国产目拍亚洲精品二区| 国产精品美女一区二三区| 最新精品国偷自产在线美女足| 久久精品国产99亚洲精品| 亚洲色一区二区三区四区| 国产成人精品无码专区| 好吊视频在线一区二区三区| 亚洲乱熟女一区二区三区| 亚洲人妻中文字幕一区| 欧美喷潮最猛视频| 国产亚洲精品久久综合阿香| 人妻日韩精品中文字幕| 国产精品夜夜春夜夜爽久久小| 国内少妇偷人精品免费| 国产午精品午夜福利757视频播放| 国产老妇伦国产熟女老妇高清| 东京热人妻无码一区二区av| 丝袜美腿视频一区二区三区| 精品国产美女福到在线不卡| 成人区人妻精品一区二蜜臀| 农村老熟妇乱子伦视频| 三人成全免费观看电视剧高清| 国产精品久久久久久久专区| 激情内射亚洲一区二区三区| 日本中文字幕有码在线视频| 日本伊人色综合网| 尹人香蕉久久99天天拍欧美p7| 最近免费中文字幕大全| 国产成人亚洲精品自产在线|