<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      強化學習的兩個「大坑」,終于被兩篇ICLR論文給解決了

      0
      分享至

      機器之心報道

      編輯:陳陳

      實時強化學習來了!AI 再也不怕「卡頓」。

      設想這樣一個未來場景:多個廚師機器人正在協作制作煎蛋卷。雖然我們希望這些機器人能使用最強大可靠的智能模型,但更重要的是它們必須跟上瞬息萬變的節奏 —— 食材需要在精準時機添加,煎蛋過程需要實時監控以確保受熱均勻。只要機器人動作稍有延遲,蛋卷必定焦糊。它們還必須應對協作伙伴動作的不確定性,并做出即時適應性調整。



      實時強化學習

      然而,現有的強化學習算法多基于一種理想化的交互模式:環境與智能體輪流「暫停」以等待對方完成計算或響應。具體表現為:

      環境暫停假設:當智能體進行計算決策和經驗學習時,環境狀態保持靜止;

      智能體暫停假設:當環境狀態發生轉移時,智能體暫停其決策過程。

      這種類似「回合制游戲」的假設,嚴重脫離現實,難以應對持續變化、延遲敏感的真實環境。



      下圖突出顯示了智能體在實時環境中出現的兩個關鍵困難,而這些在標準的回合制 RL 研究中是不會遇到的。

      首先,由于動作推理時間較長,智能體可能不會在環境的每一步都采取動作。這可能導致智能體采用一種新的次優性策略,稱之為無動作遺憾(inaction regret)。

      第二個困難是,動作是基于過去的狀態計算的,因而動作會在環境中產生延遲影響。這導致另一個新的次優性來源,這在隨機環境中尤為突出,稱之為延遲遺憾(delay regret)。

      在這樣的背景下,Mila 實驗室兩篇 ICLR 2025 論文提出了一種全新的實時強化學習框架,旨在解決當前強化學習系統在部署過程中面臨的推理延遲和動作缺失問題,使得大模型也能在高頻、連續的任務中實現即時響應。

      第一篇論文提出了一種最小化無動作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



      最小化無動作:交錯推理

      第一篇論文基于這樣一個事實:在標準的回合制強化學習交互范式中,隨著模型參數數量的增加,智能體無動作的程度也會隨之增加。因此,強化學習社區必須考慮一種新的部署框架,以便在現實世界中實現基礎模型規模化的強化學習。為此,本文提出了一個用于異步多過程推理和學習的框架。



      • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
      • 代碼地址 https://github.com/CERC-AAI/realtime_rl
      • 論文標題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



      在該框架中,允許智能體充分利用其可用算力進行異步推理與學習。具體而言,本文提出了兩種交錯式推理算法,其核心思想是通過自適應調整并行推理過程的時序偏移,使智能體能夠以更快的固定間隔在環境中執行動作。

      本文證明:只要計算資源足夠,無論模型有多大、推理時間有多長,使用任意一種算法都可以做到在每一個環境步都執行動作,從而完全消除無動作遺憾。

      本文在 Game Boy 和 Atari 實時模擬中測試了提出的新框架,這些模擬的幀率和交互協議與人類在主機上實際玩這些游戲時所體驗到的幀率和交互協議同步。

      論文重點介紹了異步推理和學習在《寶可夢:藍》游戲中使用一個擁有 1 億參數的模型成功捕捉寶可夢時所展現的卓越性能。需要注意的是,智能體不僅必須快速行動,還必須不斷適應新的場景才能取得進展。



      此外,論文還重點介紹了該框架在像俄羅斯方塊這樣注重反應時間的實時游戲中的表現。結果證明,在使用異步推理和學習時,模型規模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應尚未得到解決。

      用單個神經網絡最小化無動作和延遲遺憾



      • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
      • 項目地址:https://github.com/avecplezir/realtime-agent
      • 論文標題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

      第二篇論文提出了一種架構解決方案,用于在實時環境中部署神經網絡時最大限度地減少無響應和延遲,因為在實時環境中,交錯推理并非可行。順序計算在深度網絡中效率低下,因為深度網絡中每一層的執行時間大致相同。因此,總延遲會隨著網絡深度的增加而成比例增加,從而導致響應緩慢。

      這一局限性與早期 CPU 架構的缺陷如出一轍 —— 當指令只能串行處理時,會導致計算資源利用率低下且執行時間延長。現代 CPU 采用 pipelining 技術成功解決了這一問題,該技術允許多條指令的不同階段并行執行。

      受此啟發,本文在神經網絡中引入了并行計算機制:通過一次計算所有網絡層,有效降低了無動作遺憾。

      為了進一步減少延遲,本文引入了時序跳躍連接(temporal skip connections),使得新的觀測信息可以更快地傳遞到更深的網絡層,而無需逐層傳遞。

      該研究的核心貢獻在于:將并行計算與時序跳躍連接相結合,從而在實時系統中同時降低無動作遺憾和延遲遺憾。

      下圖對此進行了說明。圖中縱軸表示網絡層的深度,從初始觀測開始,依次經過第一層、第二層的表示,最終到達動作輸出;橫軸表示時間。因此,每一條箭頭代表一層的計算過程,所需時間為 δ 秒。

      在基線方法中(左圖),一個新的觀測必須依次穿過全部 N 層網絡,因此動作的輸出需要 N × δ 秒才能獲得。

      通過對各層進行并行計算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無動作遺憾。

      最終,時序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機制是讓最新觀測值僅需單次 δ 延遲即可傳遞至輸出層。從設計理念來看,該方案通過在網絡表達能力與時效信息整合需求之間進行權衡,從根本上解決了延遲問題。



      此外,用過去的動作 / 狀態來增強輸入可以恢復馬爾可夫特性,即使在存在延遲的情況下也能提高學習穩定性。正如結果所示,這既減少了延遲,也減少了與優化相關的遺憾。



      兩者結合使用

      交錯式異步推理與時序跳躍連接是彼此獨立的技術,但具有互補性。時序跳躍連接可減少模型內部從觀測到動作之間的延遲,而交錯推理則確保即使在使用大模型時,也能持續穩定地輸出動作。

      兩者結合使用,可以將模型規模與交互延遲解耦,從而使在實時環境中部署既具有強表達能力、又響應迅速的智能體成為可能。這對于機器人、自動駕駛、金融交易等高度依賴響應速度的關鍵領域具有重要意義。

      通過使大模型在不犧牲表達能力的前提下實現高頻率決策,這些方法為強化學習在現實世界的延遲敏感型應用中落地邁出了關鍵一步。

      https://mila.quebec/en/article/real-time-reinforcement-learning

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      恭喜楊瀚森,決戰雷霆賽前收喜訊,開拓者主場出戰時間或創新高

      恭喜楊瀚森,決戰雷霆賽前收喜訊,開拓者主場出戰時間或創新高

      二哥聊球
      2025-11-06 09:30:35
      吳石出事,家中傭人卻沒受到牽連,原因是她拒絕了吳石的這個提議

      吳石出事,家中傭人卻沒受到牽連,原因是她拒絕了吳石的這個提議

      伴史緣
      2025-11-04 16:40:01
      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      秦雯“襲警錄音門”發酵升級!她是三八紅旗手,網傳配偶比較厲害

      火山詩話
      2025-11-04 06:13:25
      美參議院通過決議終止特朗普關稅政策,但眾議院預計無法通過

      美參議院通過決議終止特朗普關稅政策,但眾議院預計無法通過

      合贊歷史
      2025-11-05 15:27:21
      星光黯淡,官方:庫里、巴特勒、追夢、小薩和拉文均缺席勇王之戰

      星光黯淡,官方:庫里、巴特勒、追夢、小薩和拉文均缺席勇王之戰

      懂球帝
      2025-11-06 08:45:06
      不到兩天,大陸批準鄭麗文請求!民進黨折騰十年,該有個了結了

      不到兩天,大陸批準鄭麗文請求!民進黨折騰十年,該有個了結了

      奇思妙想生活家
      2025-11-05 12:12:47
      孫藝珍曬近照,像中年大姐毫無明星氣質,笑容燦爛仍難掩滿臉疲憊

      孫藝珍曬近照,像中年大姐毫無明星氣質,笑容燦爛仍難掩滿臉疲憊

      小娛樂悠悠
      2025-11-06 07:47:07
      天涯神貼:普通人家孩子的最好出路

      天涯神貼:普通人家孩子的最好出路

      前沿天地
      2025-11-03 07:42:49
      上賽季效力掘金13+6+5的威少,本賽季加盟國王隊表現如何?

      上賽季效力掘金13+6+5的威少,本賽季加盟國王隊表現如何?

      越嶺尋蹤
      2025-11-05 07:22:16
      11月5日俄烏:烏軍的拖延戰術

      11月5日俄烏:烏軍的拖延戰術

      山河路口
      2025-11-05 18:35:05
      統一信號如此強烈!推進速度越來越快,已有數十萬人更換身份證!

      統一信號如此強烈!推進速度越來越快,已有數十萬人更換身份證!

      李博世財經
      2025-11-05 09:56:07
      北京團結湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      北京團結湖街道幫“猛火炒飯”開檔口 “地攤廚神”告別東躲西藏

      新浪財經
      2025-11-05 00:55:46
      51年一特務被捕后語出驚人:楊靖宇不是自殺,害他的人在北京當官

      51年一特務被捕后語出驚人:楊靖宇不是自殺,害他的人在北京當官

      春秋硯
      2025-10-27 21:06:10
      創36年恥辱!五星巴西淪為二流!安切洛蒂負全責,球迷呼喚內馬爾

      創36年恥辱!五星巴西淪為二流!安切洛蒂負全責,球迷呼喚內馬爾

      晚霧空青
      2025-11-06 01:28:15
      害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

      害死吳石的谷正文,晚年性情大變?1990年他揚言:殺李登輝很容易

      文史達觀
      2025-11-05 17:36:09
      CCTV5直播,開拓者11點VS雷霆,楊瀚森有望登場,首戰亞歷山大

      CCTV5直播,開拓者11點VS雷霆,楊瀚森有望登場,首戰亞歷山大

      二哥聊球
      2025-11-06 09:20:06
      徐國勇再爆金句,祖先是中國人他不是,侯友宜不裝了,響應民進黨

      徐國勇再爆金句,祖先是中國人他不是,侯友宜不裝了,響應民進黨

      諦聽骨語本尊
      2025-11-05 17:30:06
      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      僅剩2000萬人?比烏克蘭投降更可怕的事情是,再打可能亡國滅種了

      牛牛叨史
      2025-11-05 14:11:53
      汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

      汪小菲真寵女兒,八萬元的外套一下買兩件,小玥兒穿上很顯貴氣

      鋭娛之樂
      2025-11-05 08:44:46
      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      村莊設環保監測點,發通知限制燃油車進村?河南新鄉當地回應:注意到石墩堵路,正核查

      大風新聞
      2025-11-05 14:48:02
      2025-11-06 09:59:04
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      游戲
      本地
      教育
      家居
      親子

      《怪物獵人物語3》采用D加密 PC配置一點都不低

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      教育要聞

      小升初幾何題難倒了無數考生,就連學霸也搖頭

      家居要聞

      別樣府院 暢享詩意生活

      親子要聞

      什么樣的父母會讓孩子懷疑不是親身的

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本深夜福利在线观看| 亚洲精品无码久久毛片| 99RE8这里有精品热视频| 亚洲av片在线免费观看| 亚洲综合精品中文字幕| 国产成人午夜精品影院| 亚洲 卡通 欧美 制服 中文| 亚洲色欲色欲www| 国产福利视频区一区二区| av天堂亚洲天堂亚洲天堂| 8av国产精品爽爽ⅴa在线观看| 成年人尤物视频在线观看| 亚洲最大有声小说AV网| 国产一区日韩二区欧美三区| 国产成人99亚洲综合精品| 中文字幕人妻不卡精品| 国产精品无码dvd在线观看| 成在线人免费视频| 国产一区二区三区激情视频| 亚洲色一区二区三区四区| 国产精品自拍中文字幕| 国产成人一区二区免av| 国产精品久久久久9999| 亚洲精品漫画一二三区| 欧美日韩中文字幕视频不卡一二区| 国产精品日韩中文字幕熟女| 亚洲中文字幕国产精品| 亚洲aⅴ男人的天堂在线观看| 亚洲 欧洲 无码 在线观看 | 日韩人妻一区中文字幕| 国产精欧美一区二区三区| 国产精品自产在线观看一| 久久综合97丁香色香蕉| 国产喷水1区2区3区咪咪爱av| 无套内谢少妇高清毛片| 熟女一区二区中文字幕| 日韩a无v码在线播放| 国产99久久精品一区二区| 日夜啪啪一区二区三区| 安西县| 精品国产乱码久久久久app下载|