<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Agent RL與智能體進化關鍵一步:TaskCraft實現復雜任務自動生成

      0
      分享至



      近年來,基于智能體的強化學習(Agent + RL)與智能體優化(Agent Optimization)在學術界引發了廣泛關注。然而,實現具備工具調用能力的端到端智能體訓練,首要瓶頸在于高質量任務數據的極度稀缺。當前如GAIA 與 BrowserComp 等主流數據集在構建過程中高度依賴人工標注,因而在規模與任務復雜性方面均存在明顯限制——BrowserComp 僅涵蓋約 1300 個搜索任務,GAIA 則僅提供約 500 條多工具協同任務樣本。與基礎大模型訓練中動輒萬級以上的指令數據相比,差距十分顯著。

      盡管在基礎模型階段,像self-instruct 這樣的自監督方法已經借助大語言模型(LLM)成功構建了大規模的指令型數據,有效提升了模型的通用性和泛化能力,但在智能體(Agent)場景下,這類靜態指令數據卻難以滿足實際需求。原因在于,復雜的智能體任務通常需要模型與環境進行持續的動態交互,同時涉及多工具的協同操作和多步驟推理。而傳統的指令數據缺乏這種交互性和操作性,導致其在智能體訓練中遷移性差、適用性有限。

      為應對上述挑戰,OPPO 研究院的研究者提出了 TaskCraft,一個面向智能體任務的自動化生成框架,旨在高效構建具備可擴展難度、多工具協同與可驗證執行路徑的智能體任務實例。TaskCraft 通過統一的流程化建構機制,擺脫了對人工標注的依賴,能夠系統性地產生覆蓋多種工具(如URL、PDF、HTML、Image 等)的復雜任務場景,并支持任務目標的自動驗證,確保數據質量與執行閉環。 基于該框架,研究團隊構建并開源了一個包含約 41,000 條智能體任務的合成數據集,顯著擴展了現有Agent 數據資源的規模與多樣性,為后續通用智能體的訓練與評估提供了有力支撐。



      • 論文標題:
      • TaskCraft: Automated Generation of Agentic Tasks
      • 論文地址:
      • https://arxiv.org/abs/2506.10055
      • Github:
      • https://github.com/OPPO-PersonalAI/TaskCraft
      • 數據集:
      • https://huggingface.co/datasets/PersonalAILab/TaskCraft

      數據生成

      生成過程主要分為兩大部分:第一部分生成簡單且可驗證的原子任務;第二部分通過深度拓展和寬度拓展,不斷構建新的原子任務,使復雜性逐步提升。

      原子任務的生成



      原子結構生成示意圖

      可以簡單理解為,從原始數據中提取核心問題,然后確保問題必須通過特定工具來解決。整個流程包含以下四個關鍵步驟:

      1.收集信息:系統從多種來源(網頁、PDF、圖片等)提取信息。例如,企業財報、一張統計圖或一篇新聞文章。

      2.識別關鍵內容:利用LLM從這些文檔中提取候選結論,比如:2025 年蘋果公司總收入為383.3 億美元

      3.生成問題:LLM需要將這些候選結論轉換為工具回答的問題。例如:“在財務報告《Apple 2025 年度報告》中,2025 年的總收入是多少?”(答案:383.3 億美元)

      4.驗證任務:每個原子任務被保留必須滿足以下兩個條件:

      • 必須依賴工具才能解答(LLM無法直接推導答案)。
      • 必須經過Agent驗證,確保能夠順利執行任務。

      任務拓展

      任務拓展旨在將一個簡單任務逐步演化為更具層次和挑戰性的復雜任務,使Agent 必須通過多個步驟才能完成任務。拓展方式主要包括深度拓展寬度拓展



      深度拓展示意圖

      其中,深度拓展的目標是為了構建可被拆解為一系列相互依賴的任務。每一步都依賴前一步的結果,從而構建出一條多步推理鏈。其主要包括以下四步:

      1.確認主任務與拓展標識符:拓展標識符一般是具有強特殊性的文本,往往作為獲取工具上下文的輸入關鍵字。例如對于任務:“電影《星際穿越》的導演是誰?”(答案:克里斯托弗·諾蘭),其中的拓展標識符是:《星際穿越》。

      2.執行Agent搜索,構造新的輔助原子任務:SearchAgent以拓展標識符為線索執行搜索,并從搜索結果中構造一個新的原子任務,其答案即為該拓展標識符。例如:“哪部美國著名科幻電影是在2014 年 11 月 7 日上映的?”(答案:《星際穿越》)

      3.合并輔助原子任務,更新主任務:將輔助原子任務與原主任務進行融合,構建一個邏輯連貫的復合任務。例如:“2014 年 11 月 7 日上映的美國著名科幻電影,它的導演是誰?“(答案:克里斯托弗·諾蘭)

      4.驗證任務合理性:為了規避對合并問題的整體驗證,研究者采用了多種規則對合并后的主任務進行語義驗證,包括:超集驗證、關系驗證、信息泄露驗證、替換合理性驗證等。

      這些任務應來自同一信息源(如同一篇網頁或PDF),且答案之間不存在因果依賴。使用LLM 將多個任務的語義合并成一個自然、流暢且具備完整性的新任務

      而寬度拓展則是通過選擇兩個(或多個)結構兼容的原子任務,



      寬度拓展示意圖

      通過PromptLearning 提升任務生成效率

      在TaskCraft 的任務構建流程中,Prompt 的設計起到了至關重要的作用。研究團隊采用了自舉式 few-shot 提示優化機制,基于生成的任務數據對提示進行了迭代優化,從而實現了提示模板的自我進化。如表1,實驗結果顯示,原子任務的生成通過率從初始的54.9% 提高至 68.1%,同時平均生成時間減少了近 20%。在深度拓展任務中,6 輪任務擴展的成功率由 41% 提升至 51.2%,進一步驗證了生成數據在提升任務構建質量與效率方面的顯著效果。



      表1PromptLearning實驗結果

      對智能體基礎模型進行SFT訓練

      其次,研究團隊進一步評估了TaskCraft 所生成任務數據在提升大模型能力方面的實際效果。以 Qwen2.5-3B 系列為基礎,研究者基于三個典型的多跳問答數據集(HotpotQA、Musique 和 Bamboogle)的訓練集,生成了約32k條多跳任務以及軌跡,并利用這些生成數據對模型進行監督微調(SFT)。如表2,實驗結果表明,經過微調后,Base 模型的平均性能提升了 14%,Instruct 模型提升了 6%,說明 TaskCraft 生成的數據在增強大模型的推理能力與工具調用表現方面具有顯著成效。此外,當這些微調模型與強化學習方法 Search-R1 相結合時,模型性能進一步提升,進一步證明 TaskCraft 所生成的任務數據不僅能用于監督學習,也可作為強化學習的優質訓練起點。



      表2監督微調效果

      此外,你可能會好奇:引入搜索Agent 是否真的有必要?為此,研究團隊設計了一項對比實驗,比較了兩種任務構建方式的效果:一是直接使用 GPT-4.1 基于某個結論生成任務,另一種則是借助基于 GPT-4.1 的 Search Agent 自動生成任務。結果如表 3 所示,TaskCraft 構建范式在多項指標上表現更優。



      表3任務構建范式的有效性分析

      相比之下,TaskCraft 生成的任務具有顯著更高的通過率,驗證時間更短,且工具使用次數更符合“原子任務”的定義(理論最優為:一次輸入索引 + 一次目標工具調用)。此外,任務的工具調用次數也更穩定,方差更小,反映出 TaskCraft 在保持原子任務難度的一致性方面具備更強的優勢。



      原子數據域分布

      基于TaskCraft,研究者構建了一個包含約41,000 個 agentic 任務的大規模數據集,為 AI 智能體的系統化調優與評估提供了堅實的基礎。該數據集覆蓋多個工具使用場景,包括網頁搜索、PDF 閱讀、圖像理解等,任務結構層次豐富,難度可控,支持原子級任務和多跳復雜任務。由于所有任務都附帶了真實的執行軌跡,不僅可以進行監督式微調(SFT),還能為強化學習(RL)提供高質量的訓練數據起點。這使得該數據集可廣泛應用于智能體基礎模型的能力增強、Agent 推理策略的評估,以及多工具調用環境下的泛化能力測試。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      董路:不知邵佳一是否正直,他和李鐵曾是哥們,但不會犯同樣錯誤

      董路:不知邵佳一是否正直,他和李鐵曾是哥們,但不會犯同樣錯誤

      風過鄉
      2025-11-06 10:55:20
      “劉思涵的校服在非洲”火上熱搜,博主否認擺拍:在安哥拉生活一年多,這里有很多二手中國衣服,一件最低不到10元

      “劉思涵的校服在非洲”火上熱搜,博主否認擺拍:在安哥拉生活一年多,這里有很多二手中國衣服,一件最低不到10元

      極目新聞
      2025-11-05 21:34:47
      動真格了?普京下令不惜一切代價,降低對中國的依賴,事情不簡單

      動真格了?普京下令不惜一切代價,降低對中國的依賴,事情不簡單

      王姐懶人家常菜
      2025-11-06 13:17:14
      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      60名八路軍蘆葦蕩被5000日軍三面合圍,船夫指向水鳥,團長:有救了!

      蕭竹輕語
      2025-10-21 16:16:45
      克萊去了替補,獨行俠去了倒數第一

      克萊去了替補,獨行俠去了倒數第一

      只關于籃球
      2025-11-06 13:31:05
      22分大逆轉,開拓者送雷霆賽季首敗!誰是贏球功臣,數據不會說謊

      22分大逆轉,開拓者送雷霆賽季首敗!誰是贏球功臣,數據不會說謊

      毒舌NBA
      2025-11-06 14:12:53
      汪東興提反對意見,鄧公起身質問:為什么你每次開會都唱反調?

      汪東興提反對意見,鄧公起身質問:為什么你每次開會都唱反調?

      瀚霖學史
      2025-10-24 09:04:10
      5國軍方介入,菲軍援手全部到齊,南海生變,解放軍周邊全是強敵

      5國軍方介入,菲軍援手全部到齊,南海生變,解放軍周邊全是強敵

      薦史
      2025-11-04 19:10:14
      某行入職20周年的福利:20克金幣!

      某行入職20周年的福利:20克金幣!

      行長男朋友
      2025-11-05 11:05:03
      柬埔寨“太子集團”資產又遭凍結:涉26輛豪車、11處豪華公寓等,總值超35億元

      柬埔寨“太子集團”資產又遭凍結:涉26輛豪車、11處豪華公寓等,總值超35億元

      極目新聞
      2025-11-05 15:06:20
      小S女兒捧具俊曄,遭灣灣博主無情揭露,具俊曄留臺只因一紙合約

      小S女兒捧具俊曄,遭灣灣博主無情揭露,具俊曄留臺只因一紙合約

      好賢觀史記
      2025-11-05 10:22:37
      荷蘭正式宣布!荷蘭管制范圍擴大,敏感領域的新合作都一刀切禁止

      荷蘭正式宣布!荷蘭管制范圍擴大,敏感領域的新合作都一刀切禁止

      百態人間
      2025-11-04 16:00:18
      李湘一家三口現身機場 拿6W包包走路帶風氣場十足 被問模仿者黑臉

      李湘一家三口現身機場 拿6W包包走路帶風氣場十足 被問模仿者黑臉

      黃謀仕
      2025-11-06 14:39:25
      這位中將離休每月200元,待遇高于普通工人,但覺得經濟很拮據?

      這位中將離休每月200元,待遇高于普通工人,但覺得經濟很拮據?

      微野談寫作
      2025-11-06 14:40:03
      Model Y L雙工況能耗實測:高速能耗比很多純電轎車還低

      Model Y L雙工況能耗實測:高速能耗比很多純電轎車還低

      特空間
      2025-11-06 14:46:54
      曝甘國亮疑患失智癥,曾與鄭裕玲同居10年,因女方拒絕性行為分手

      曝甘國亮疑患失智癥,曾與鄭裕玲同居10年,因女方拒絕性行為分手

      好叫好伐
      2025-11-06 14:29:06
      傅藝偉59歲獨子離世,賬號2年未更新同學透露死因

      傅藝偉59歲獨子離世,賬號2年未更新同學透露死因

      阿光的技巧課堂
      2025-11-04 16:18:15
      保潔阿姨睡辦公樓2年,經理查看監控愣住,隔天給她發30萬獎金

      保潔阿姨睡辦公樓2年,經理查看監控愣住,隔天給她發30萬獎金

      溫情郵局
      2025-10-24 13:43:13
      拾荒父親供兒子上大學,兒子婚禮叫父親上臺,岳父聽到竟直接跪下

      拾荒父親供兒子上大學,兒子婚禮叫父親上臺,岳父聽到竟直接跪下

      今天說故事
      2024-09-24 18:07:26
      佟麗婭在深圳掃購黃金!頭發稀少假發突出,滿胳膊黃金手串太顯眼

      佟麗婭在深圳掃購黃金!頭發稀少假發突出,滿胳膊黃金手串太顯眼

      鑫鑫說說
      2025-11-04 09:18:31
      2025-11-06 15:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11660文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      男子打車將手機遺忘車內 司機將手機"丟"到300公里外

      頭條要聞

      男子打車將手機遺忘車內 司機將手機"丟"到300公里外

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      健康
      游戲
      親子
      公開課
      軍事航空

      超聲探頭會加重受傷情況嗎?

      95%好評動作×模擬經營單機二游:你想要的全都有

      親子要聞

      親生的和親自生的還是有區別的!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜福利免费视频一区二区| 男女真人国产牲交a做片野外| 陕西省| 国产精品自拍视频第一页| 国产成人精品国内自产色| 波多野无码中文字幕av专区| 午夜福利片1000无码免费| 日韩av熟女人妻一区二| 精品自拍自产一区二区三区| 国产高潮又爽又刺激的视频| 国产日韩一区二区在线| 久久精产国品一二三产品| 国产网友愉拍精品视频手机 | 久久精品成人无码观看免费| 中文字幕丰满伦子无码ab| 少妇又爽又刺激视频| 欧美一区二区三区成人久久片| 亚洲中文字幕伊人久久无码 | 国精品午夜福利视频不卡| 国色天香成人一区二区| 中文字幕日韩一区二区不卡| 国产线播放免费人成视频播放| 亚洲熟妇自偷自拍另欧美| 成人午夜大片免费看爽爽爽| 久久精品蜜芽亚洲国产av| 亚洲精品国产成人| 国产精品亚洲二区在线播放| 国产精品白丝久久av网站| 中文字幕有码免费视频| 国产精品天天看天天狠| 色偷偷亚洲女人天堂观看| 欧美一区二区三区啪啪| 公天天吃我奶躁我的在线观看| 国产伦精品一区二区亚洲| 欧美日韩v| 尹人香蕉久久99天天拍| 亚洲的天堂在线中文字幕| 国产av人人夜夜澡人人爽麻豆| 国产一区二区视频在线看| 日本福利一区二区精品| 无码任你躁久久久久久老妇 |