<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      開源RL框架Verlog來了,專為LLM智能體打造,400回合不成問題

      0
      分享至

      機器之心報道

      機器之心編輯部

      AI 時代,智能體對短期對話的處理能力已不再是難題。真正的挑戰是讓智能體在數百步的探索中依然保持清晰的推理與穩健的決策。

      傳統的強化學習框架在幾十步內尚能應付,但一旦任務延展至數百步,獎勵稀疏、歷史冗長、策略崩塌便接踵而至。

      為了應對這些挑戰,來自卡內基梅隆大學、香港大學等機構的研究者提出了 Verlog ,試圖打破這一困境。

      具體而言,Verlog 是一個多輪強化學習框架,專為具有高度可變回合(episode)長度的長時程(long-horizon) LLM-Agent 任務而設計。

      它在繼承 VeRL 和 BALROG 的基礎上,并遵循 pytorch-a2c-ppo-acktr-gail 的成熟設計原則,引入了一系列專門優化手段,從而在任務跨度從短暫交互到數百回合時,依然能夠實現穩定而高效的訓練。

      以往的框架(如 VeRL 和 RAGEN)能夠較好地處理約 10 回合的任務,verl-agent 則可擴展至 50 回合。而 Verlog 則被設計用于超過 400 回合的環境,使其在復雜的長期決策任務中具備獨特優勢。

      這一能力已在 BabyAI、BabaIsAI 和 Crafter 等高難度領域得到驗證。以 Crafter 為例,其回合長度范圍在 70 到 400 步之間,平均約為 190 步。在這些充滿挑戰的環境中,Verlog 都能夠開箱即用地展現出強勁的性能。



      • 博客地址:https://blog.ml.cmu.edu/2025/09/15/verlog-a-multi-turn-rl-framework-for-llm-agents/
      • 項目主頁:https://agentic-intelligence-lab.org/2025/08/15/technical-post.html



      方法介紹

      基礎模型

      在模型方面,本文基于 Qwen-2.5 的 Instruct 變體(Qwen-2.5-3B/7B-Instruct)構建。

      這樣做主要有兩個原因:

      一是,它可以與 BALROG 無縫集成(BALROG 是一個旨在評估 Instruct 模型在一系列基準測試中零樣本性能的框架);

      其次,它允許研究者可以直接使用基準測試提示,而無需太多修改。



      BabyAI 使用的提示模板

      記憶機制

      本文不是將整個軌跡全部放入上下文窗口中,而是僅保留最新的 n + 1 個回合。

      這樣做帶來的影響是,對于 3B 參數的 Qwen 模型,性能在 n = 1 或 2 時達到峰值,而當 n 增加到 4 或 8 時性能下降。

      作者推測,模型性能下降的原因是 3B 模型在處理長上下文方面的能力有限,例如,當 n = 8 時,提示詞長度約為 4600 個 token。

      不過,這一趨勢是否適用于更大規模的模型,仍待研究。

      Dual Discounting GAE 算法





      此外,本文 GAE 是遞歸計算的:



      其中,



      遞歸從最后一輪的最后一個 token 開始,向后進行。處理完最后一輪的所有 token 后,移至倒數第二輪的最后一個 token,并繼續遞歸執行此過程。在此過程中,所有狀態 token 都會被跳過。

      實驗結果

      該研究在三個頗具挑戰性的基準上測試了 Verlog:包括 Crafter、BabyAI 和 BabaIsAI。實驗模型包括 Qwen2.5-Instruct 。



      在 Crafter 環境中,本文使用 8 張 H100(82GB 顯存)GPU 對 Qwen2.5-7B-Instruct 模型訓練了大約 36 小時。此外,針對 BabyAI 與 BabaIsAI 環境,本文采用 4 張 A40(48GB 顯存)GPU 對 Qwen2.5-3B-Instruct 模型訓練約 24 小時。

      三個實驗環境表明,Verlog 展現出穩定的訓練能力,不管是在長周期、稀疏獎勵,還是在可變 episode 長度條件下。這也證明了該框架能自然適應從短周期到超長周期多回合任務的規模化訓練。

      總結

      Verlog 針對在構建長時程、多回合任務的 LLM Agent 時面臨的若干核心工程挑戰,提出了系統性的解決方案,包括:

      • 長交互歷史的處理:通過記憶機制和回合級抽象來管理歷史信息。
      • 稀疏獎勵下的訓練穩定性:結合 dual-discounting GAE 和價值函數預訓練來增強穩定性。
      • 軌跡長度可變的管理:通過固定回合批處理(fixed-turn batching)和自舉式價值估計來處理變長軌跡。
      • 提升動作有效性:利用針對性的提示工程和默認動作替換,使訓練過程中 >95% 的動作均為有效動作。

      作者表示,Verlog 的定位是一個靈活的研究平臺,目的是推動長時程 LLM-Agent 強化學習的發展。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      小豫講故事
      2025-11-05 06:00:03
      風向變了,在文明的地方撒野,野蠻的地方沉默,這屆網友不好帶了

      風向變了,在文明的地方撒野,野蠻的地方沉默,這屆網友不好帶了

      眼光很亮
      2025-11-05 13:04:02
      管不住下半身!網傳長沙某三甲醫院醫生不雅視頻曝光,引發關注…

      管不住下半身!網傳長沙某三甲醫院醫生不雅視頻曝光,引發關注…

      火山詩話
      2025-11-05 17:31:47
      為什么朝鮮 巴基斯坦、柬埔寨集體對中國變臉?

      為什么朝鮮 巴基斯坦、柬埔寨集體對中國變臉?

      南權先生
      2025-11-05 16:47:32
      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      小光侃娛樂
      2025-11-05 10:55:03
      澤連斯基為何再次親赴一線?俄羅斯“戰神”敲響警鐘

      澤連斯基為何再次親赴一線?俄羅斯“戰神”敲響警鐘

      史政先鋒
      2025-11-05 15:43:21
      網紅戶晨風被封禁,央視披露詳情:以“蘋果人安卓人”惡意制造對立,收割流量牟利,突破監管紅線

      網紅戶晨風被封禁,央視披露詳情:以“蘋果人安卓人”惡意制造對立,收割流量牟利,突破監管紅線

      極目新聞
      2025-11-05 16:40:03
      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      重遠投資觀
      2025-11-05 13:00:18
      5年前,被“騙”到乳山買10萬海景房的那些人,現狀很扎心!

      5年前,被“騙”到乳山買10萬海景房的那些人,現狀很扎心!

      青眼財經
      2025-11-05 21:13:34
      汪峰演唱會翻車,葛薈婕補刀:只往女人身上使勁,唱不上去很正常

      汪峰演唱會翻車,葛薈婕補刀:只往女人身上使勁,唱不上去很正常

      木子愛娛樂大號
      2025-11-04 17:40:57
      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      界面新聞
      2025-11-05 13:44:22
      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      爆角追蹤
      2025-11-05 19:18:19
      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新京報
      2025-11-05 18:11:09
      張強(句容人,1995年生),被執行

      張強(句容人,1995年生),被執行

      句容日報
      2025-11-05 16:59:09
      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      極目新聞
      2025-11-05 16:08:13
      上海律師帶小三孕檢新后續:空姐是10年白月光,婆婆態度讓人寒心

      上海律師帶小三孕檢新后續:空姐是10年白月光,婆婆態度讓人寒心

      壹月情感
      2025-11-04 22:50:11
      A股:不必再等了,漲到3969,明天周四,熟悉的劇情又要上演了?

      A股:不必再等了,漲到3969,明天周四,熟悉的劇情又要上演了?

      云鵬敘事
      2025-11-05 16:17:32
      劇毒、攻擊性極強!武漢多處已出現,發現立即上報

      劇毒、攻擊性極強!武漢多處已出現,發現立即上報

      魯中晨報
      2025-11-05 18:15:12
      專訪|烏茲別克斯坦最高會議立法院副議長:中國科技產品受民眾歡迎,期待深化人工智能與數字基建合作

      專訪|烏茲別克斯坦最高會議立法院副議長:中國科技產品受民眾歡迎,期待深化人工智能與數字基建合作

      澎湃新聞
      2025-11-04 20:10:29
      是福不是禍是禍躲不過,44歲的宋小寶深陷絕境,如今卻無人可幫?

      是福不是禍是禍躲不過,44歲的宋小寶深陷絕境,如今卻無人可幫?

      探源歷史
      2025-11-05 15:45:07
      2025-11-05 21:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      頭條要聞

      楊受成名下英皇宮殿停運 曾以大堂鋪滿78公斤黃金聞名

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      健康
      手機
      本地
      公開課

      親子要聞

      為“三低”心肌病患兒植入人工雙心

      超聲探頭會加重受傷情況嗎?

      手機要聞

      realme UI 7.0 首輪不限量內測招募明日開啟,覆蓋 GT7 Pro 系列

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产一区二区精品自拍| 久久人人妻人人爽人人爽| 正在播放国产对白孕妇作爱| 欧美野外伦姧在线观看| 色综合久久中文综合久久激情| 亚洲欧洲日韩精品在线| 温宿县| 国产综合亚洲区在线观看| 亚洲精品宾馆在线精品酒店| 午夜成人精品福利网站在线观看 | 91精品91久久久久久| 日韩中文字幕免费在线观看| 成人无码www在线看免费| 人妻体内射精一区二区三四| 日本高清aⅴ毛片免费| 免费av深夜在线观看| 精品日韩人妻中文字幕| 国产AV无码专区亚洲AV紧身裤| 久青草视频在线免费观看| 亚洲国产高清av网站| 国产精品日韩av在线播放| 中文字幕精品无码一区二区三区| 粉嫩在线一区二区三区视频 | 亚洲人妻av伦理| 亚洲中文字幕有综合久久| 国产普通话对白刺激| 不卡国产一区二区三区| 亚洲中文一区二区av| 国产成人av电影在线观看第一页| 婷婷综合缴情亚洲| 国内自拍网红在线综合一区| 日韩一区二区三区理伦片| 国产精品午夜福利视频234区 | 亚洲天码中文字幕第一页| 午夜大片免费男女爽爽影院| 成 人 色 网 站免费观看| 中文字幕国产精品一二区| 极品无码国模国产在线观看| 久久狠狠一本精品综合网| 午夜精品福利亚洲国产| 合作市|