<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      阿里發布信息檢索Agent,可自主上網查資料,GAIA基準超越GPT-4o

      0
      分享至

      不圓 發自 凹非寺
      量子位 | 公眾號 QbitAI

      Agent能“看懂網頁”,像人類一樣上網

      阿里發布WebDancer,就像它的名字一樣,為“網絡舞臺”而生。

      只要輸入指令,它就可以幫你上網搜索、做攻略,實現自主信息檢索代理和類似深度研究模型的推理。

      傳統模型只能按固定流程思考,而WebDancer作為一個端到端的自主信息搜索智能體,具備多步推理、工具使用和泛化能力。



      WebDancer在GAIA和WebWalkerQA上分別取得了61.1%和54.6%的Pass@3分數,優于基線模型和部分開源框架。

      模型和方法均已開源,網友直呼想試:



      WebDancer的秘密武器

      不同于其它的推理問答模型,WebDancer要像人類一樣思考、理解并操作,可不是一件簡單的事情。

      使用GAIA、WebWalkerQA和日常使用情況對WebDancer進行演示,可以看到,WebDancer能夠執行多步驟和復雜推理的長期任務,例如網頁遍歷、信息搜索和問答。

      它的“秘密武器”是一種四階段訓練范式,包括瀏覽數據構建、軌跡采樣、針對有效冷啟動的監督微調以及用于改進泛化能力的強化學習。

      阿里開源了這個訓練框架,使除了WebDancer以外的智能代理也能夠自主獲取自主搜索和推理技能:

      1、瀏覽數據構建



      這一步的目標是創建覆蓋真實的網頁環境、需要多步交互的復雜QA對。

      可以分為兩個網絡數據生成流程,如上圖所示。

      在CRAWLQA中,需要先收集知識性網站(ArXiv、GitHub、Wiki等)的主URL,然后在主頁上系統地點擊和收集通過子鏈接可訪問的子頁面,模擬人類行為。

      使用預定義規則,就可以利用GPT4o根據收集到的信息生成QA對(1.0版)了。

      對于E2HQA(Easy-to-Hard QA)來說,將初始的簡單問題Q1通過實體檢索→信息擴展→問題重構的步驟,使任務在復雜性上逐步擴展,從簡單的實例到更具挑戰性的實例。

      依然是使用GPT-4o重寫問題,直到迭代達到n,QA對足夠成熟。

      2、軌跡采樣



      這一步要從QA對中生成高質量的思維-動作-觀察(Thought-Action-Observation)執行軌跡。

      WebDancer的代理框架基于ReAct,這是語言代理最流行的方法,一個ReAct軌跡由多個思維-動作-觀察輪次組成:

      在思維階段,模型會根據輸入生成推理鏈,然后在動作階段將參數為結構化JSON,最后在觀察階段返回結果(如網頁摘要或搜索片段)

      思維階段生成的思維鏈對智能體執行十分重要,WebDancer采用了雙路徑采樣的方法,可分為短思維鏈和長思維鏈兩條路徑:

      • 短思維鏈適用于單步驟任務,直接使用GPT-4o生成簡潔軌跡;
      • 長思維鏈適用于多步驟任務,使用專用推理模型(LRMs、QwQ-Plus)生成帶長鏈推理的軌跡。



      因為LRM、QwQ-Plus在訓練過程中沒有接觸過多步推理輸入,在進一步推理時,WebDancer排除了之前的思維,但它們作為有價值的監督信號保留在了生成的軌跡中。

      隨后,WebDancer采用了一個基于漏斗的三階段軌跡過濾框架,僅保留滿足以下三個標準的軌跡:信息非冗余、目標一致性以及邏輯推理準確性。

      3、有監督微調



      在獲得ReAct格式的優質軌跡后,就可以將其無縫整合到智能體的有監督微調(Supervised Fine-Tuning,SFT)訓練階段,這個步驟可以教會模型基礎的任務分解與工具調用能力,同時盡可能保留其原有的推理能力。

      在SFT階段,要先將軌跡轉換為標記化輸入,明確分隔符,然后計算Thought和Action部分的損失(忽略Observation噪聲),損失公式如下:



      其中tc

      是任務上下文,



      為完整的智能體執行軌跡,每個



      代表思考/行動/觀察,



      過濾掉對應外部反饋的標記,確保損失是在代理的自主決策步驟上計算的。

      SFT階段為后續的RL階段提供了強大的初始化。

      4、強化學習

      這一步的目標是優化代理在真實網絡環境中的決策能力和泛化能力。

      在SFT階段的基礎上,本階段采用解耦裁剪動態采樣策略優化算法(Decoupled Clip and Dynamic Sampling Policy Optimization,DAPO)來精調策略模型。

      DAPO是一種基于獎勵模型R的策略優化算法,其工作原理如下:

      首先,對于每個包含部分答案



      的階段軌跡



      ,算法生成一組候選執行序列



      。通過最大化以下目標更新策略:



      隨后,過采樣并過濾準確率為1或0的提示(prompts),確保智能體聚焦于高質量信號的學習。

      最后,采用新舊策略的概率比替代固定KL懲罰項:





      獎勵設計在RL訓練過程中起著至關重要的作用,WebDancer的獎勵機制主要由兩種類型的獎勵組成,分別為格式獎勵和答案獎勵,權重分別為0.1和0.9。

      最終獎勵函數為:

      有效性分析



      在GAIA和WebWalkerQA這兩個成熟的基準數據集上測試WebDancer,結果顯示,WebDancer在GAIA上達到46.6%的平均準確率,WebWalkerQA上達到43.2%,優于基線模型和部分開源智能體框架。

      可以看到,不具備代理能力的框架(No Agency)在GAIA和WebWalkerQA基準測試中均表現不佳,這突出了主動信息搜索和代理決策對于這些任務的重要性。

      閉源代理系統OpenAI DR通過端到端強化學習訓練實現了最高分,在開源框架中,基于原生強推理模型(如QwQ-32B)構建的代理方法始終優于非代理對應方法,證明了在代理構建中利用推理專用模型的有效性。



      在兩個更具挑戰性的數據集BrowseComp(英文)和BrowseComp-zh(中文)上測試WebDancer,均表現出持續強勁的性能,突顯了其在處理困難推理和信息搜索任務中的魯棒性和有效性。



      鑒于智能體環境的動態性和復雜性,以及GAIA測試集相對較小且變化較大的特點,對Pass@3和Cons@3進行細粒度分析。

      值得注意的是,經過RL后的Pass@1性能與SFT基線的Pass@3相當,表明RL能夠更有效地采樣正確響應。

      對于語言推理模型(LRMs),雖然經過RL后Pass@1、Pass@3或Cons@3沒有顯著提升,但在一致性方面有明顯的改善;這可能是過長軌跡導致的稀疏獎勵信號所致。

      參考鏈接:
      https://x.com/_akhaliq/status/1937997314737553873
      論文:https://arxiv.org/abs/2505.22648
      github:https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer
      模型:https://huggingface.co/Alibaba-NLP/WebDancer-32B

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國民主黨在三場競爭最為激烈的地方選舉中“大獲全勝”,特朗普回應

      美國民主黨在三場競爭最為激烈的地方選舉中“大獲全勝”,特朗普回應

      環球網資訊
      2025-11-05 13:39:27
      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      出差2個月把家中地暖斷掉,樓上卻在群里罵我,她家樓上也斷掉地暖

      懸案解密檔案
      2025-11-03 10:32:45
      蒯紀聞梅開二度救主,上海U20全運隊驚險殺進八強,81歲老帥徐根寶不服輸

      蒯紀聞梅開二度救主,上海U20全運隊驚險殺進八強,81歲老帥徐根寶不服輸

      上觀新聞
      2025-11-05 18:19:11
      判處死刑!緬北白應蒼昔日炫富張狂猶在眼前,今血債血償報應臨頭

      判處死刑!緬北白應蒼昔日炫富張狂猶在眼前,今血債血償報應臨頭

      可達鴨面面觀
      2025-11-04 13:26:12
      鄭麗文稱臺灣是“國家”,反對統一?洪秀柱表明立場:應謀求統一

      鄭麗文稱臺灣是“國家”,反對統一?洪秀柱表明立場:應謀求統一

      尋途
      2025-11-05 15:44:49
      你做過最瘋狂的事是什么?網友:在公園親了一小時

      你做過最瘋狂的事是什么?網友:在公園親了一小時

      解讀熱點事件
      2025-10-11 00:20:03
      臺當局做戰備,連戰送鄭麗文8個大字,洪秀柱一錘定音,勢必統一

      臺當局做戰備,連戰送鄭麗文8個大字,洪秀柱一錘定音,勢必統一

      博覽歷史
      2025-11-04 20:01:25
      鄭麗文再拋重磅,盧秀燕不裝了,吳敦義強硬出手,王鴻薇喊話翻篇

      鄭麗文再拋重磅,盧秀燕不裝了,吳敦義強硬出手,王鴻薇喊話翻篇

      蘭妮搞笑分享
      2025-11-05 12:07:45
      俄羅斯為啥不擔心芯片制造光刻機問題?除中國,其他國家都不擔心

      俄羅斯為啥不擔心芯片制造光刻機問題?除中國,其他國家都不擔心

      百態人間
      2025-10-31 05:35:02
      買鱸魚,聰明人從不只看大小!牢記這“3不選”,魚販不敢忽悠你

      買鱸魚,聰明人從不只看大小!牢記這“3不選”,魚販不敢忽悠你

      阿龍美食記
      2025-10-31 16:36:27
      安徽一地發現金礦,3000多戶拆遷?當地回應

      安徽一地發現金礦,3000多戶拆遷?當地回應

      極目新聞
      2025-11-05 16:08:13
      原來升級矛盾就是解決的終極手段!網友分享絕了,以牙還牙最管用

      原來升級矛盾就是解決的終極手段!網友分享絕了,以牙還牙最管用

      夜深愛雜談
      2025-11-05 07:56:38
      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      往哈馬斯躲藏的地道里灌混凝土,內塔尼亞胡如此“殘暴”?

      山河路口
      2025-11-05 14:11:46
      深圳一公園附近現“搓衣板”狀繞樹石凳,回應:不屬公園范圍,出于美觀設計

      深圳一公園附近現“搓衣板”狀繞樹石凳,回應:不屬公園范圍,出于美觀設計

      花小貓的美食日常
      2025-11-05 08:20:31
      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      荷蘭豆愛健康
      2025-11-02 07:55:38
      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      宅家伍菇涼
      2025-11-04 16:03:06
      巴媒:內馬爾的身體各項數據指標遠低于頂級球員標準

      巴媒:內馬爾的身體各項數據指標遠低于頂級球員標準

      懂球帝
      2025-11-05 10:09:09
      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      野薔薇觀察所
      2025-11-05 17:40:24
      又見“家長抱著嬰兒在學校門口站崗”:學校阻止了,她說她可以!

      又見“家長抱著嬰兒在學校門口站崗”:學校阻止了,她說她可以!

      走讀新生
      2025-11-05 18:19:25
      因臀部過于性感 日恐怖游戲未通過Steam審核

      因臀部過于性感 日恐怖游戲未通過Steam審核

      3DM游戲
      2025-11-04 21:29:04
      2025-11-05 21:39:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      藝術
      數碼
      本地
      公開課

      親子要聞

      為“三低”心肌病患兒植入人工雙心

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      數碼要聞

      AMD銳龍AI Max+ 388/392蓄勢待發:滿血最強集顯 降落凡間

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成年女人免费碰碰视频| 色综合天天综合网天天看片| 图片区 小说区 区 亚洲五月 | 99久久国产成人免费网站| 亚洲精品三区四区成人少| 亚洲高清 一区二区三区| 国产亚洲精品在av| 国产乱码精品一区二区三| 久久九九久精品国产免费直播| 久久精品国产热久久精品国产亚洲| 日韩V欧美V中文在线| 自拍偷自拍亚洲一区二区| 丁香婷婷无码不卡在线| 午夜福利在线观看6080| 色综合中文字幕色综合激情| 亚洲欧美人成人综合在线播放| 青青草国产精品日韩欧美| 中文字幕日韩区二区三区| 国产+亚洲+制服| 丝袜老师办公室里做好紧好爽| 国内自拍视频一区二区三区| 中文人妻无码一区二区三区在线 | 亚洲二区中文字幕在线| 亚洲中文字幕在线二页| 国产乱色国产精品免费视频| 国产线播放免费人成视频播放| 99RE8这里有精品热视频| 欧美喷潮最猛视频| 国产区免费精品视频| 国产亚洲综合一区二区三区| 四虎影视久久久免费| 少妇高潮激情一区二区三| 麻豆亚洲精品一区二区| 亚洲一区二区中文字幕| 色综合久久婷婷88| 成人白浆一区二区三区在线观看| 国产超碰无码最新上传| 国产精品中文字幕第一区| 亚洲三区在线观看内射后入| 偷拍美女厕所尿尿嘘嘘小便| 亚洲国产成人资源在线|