<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AlphaGo之父找到創造強化學習算法新方法:讓AI自己設計

      0
      分享至



      機器之心報道

      編輯:+0、Panda

      強化學習是近來 AI 領域最熱門的話題之一,新算法也在不斷涌現。

      那么,問題來了:AI 能不能自己發現強大的強化學習算法呢?

      近日,谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且,他們得到了非常積極的結果:機器確實能夠自主發現性能達到 SOTA 的強化學習規則,并且其表現優于人工設計的規則。



      標題:Discovering state-of-the-art reinforcement learning algorithms

      地址:https://www.nature.com/articles/s41586-025-09761-x

      值得注意的是,該團隊的負責人、通訊作者是強化學習領域的引領研究者 David Silver,他也曾領導了著名的 AlphaGo 項目,常被稱為「AlphaGo 之父」。截至目前,David Silver 的引用量已接近 27 萬。本研究共有四位共同一作:Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。



      具體到方法上,該團隊的思路是:在大量復雜環境中,基于大量智能體的經驗積累,進行元學習(meta-learning)。這個方法能夠發現智能體在更新策略與預測時所遵循的強化學習規則。

      該團隊還進行了大規模實驗,結果發現這一「自動發現的規則」在經典的 Atari 基準測試上超越了所有現有方法,并且在若干它從未見過的高難度基準測試上也優于多種 SOTA 強化學習算法。

      這一研究結果可謂意義重大。它意味著,未來實現高級 AI 所需的強化學習算法或許將不再依賴人工設計,而是能夠從智能體自身的經驗中自動涌現與進化

      發現方法

      該團隊的發現方法涉及兩種類型的優化:智能體優化元優化。智能體參數通過將其策略和預測更新至強化學習規則所產生的目標來進行優化。與此同時,強化學習規則的元參數則通過更新其目標來進行優化,以最大化智能體的累積獎勵。



      智能體網絡

      許多強化學習研究考慮的是智能體應該做出什么預測(例如,價值),以及應該使用什么損失函數來學習這些預測(例如,TD 學習)和改進策略(例如,策略梯度)。

      該團隊沒有采用手工設計的方式,而是定義了一個沒有預定義語義、富有表現力的預測空間,并通過使用元網絡進行元學習,來找出智能體需要優化的內容。他們希望在保留表征現有強化學習算法中核心思想能力的同時,也支持廣闊的新穎算法可能性空間。

      為此,該團隊讓由 θ 參數化的智能體除了輸出策略 π 之外,還輸出兩種類型的預測:一個基于觀測的向量預測 y (s) 和一個基于動作的向量預測 z (s,a) ,其中 s 和 a 分別是觀測和動作 (見下圖)。



      這些預測的形式源于「預測」與「控制」之間的根本區別。例如,價值函數通常被分為狀態函數 v (s) (用于預測) 和動作函數 q (s,a) (用于控制)。強化學習中的許多其他概念,例如獎勵和后繼特征,也同樣具有一個基于觀測的版本 s??^m 和一個基于動作的版本 s,a??^m. 因此,這對預測 (y,z) 的函數形式足夠通用,可以用來表示 RL 中的許多現有基本概念,但又不僅限于此。

      除了這些有待發現的預測之外,在我們的大多數實驗中,智能體還會做出具有預定義語義的預測。具體來說,智能體會產生一個動作價值函數 q (s,a) 和一個基于動作的輔助策略預測 p (s,a)。這樣做是為了鼓勵發現過程能更專注于通過 y 和 z 來發現新概念。

      元網絡

      很大一部分現代強化學習規則采用了 RL 的「前向視圖」。在這種視圖下,RL 規則接收一個從時間步 t 到 t+n 的軌跡,并利用這些信息來更新智能體的預測或策略。它們通常會將預測或策略朝著「引導目標」更新,即朝著未來的預測值更新。

      相應地,該團隊的 RL 規則使用一個元網絡(圖 1c)作為函數,來決定智能體應將其預測和策略更新至的目標。為了在時間步 t 產生目標,該元網絡會接收從時間步 t 到 t+n 的一段軌跡作為輸入,這段軌跡包含了智能體的預測、策略、獎勵以及回合是否終止的信息。它使用一個標準的 LSTM 來處理這些輸入,當然也可以使用其他架構。



      元網絡的輸入和輸出選擇保留了手工設計的 RL 規則所具備的一些理想特性:

      首先,元網絡可以處理任何觀測信息,以及任何大小的離散動作空間。這是因為它不直接接收觀測作為輸入,而是通過智能體的預測間接獲取信息。此外,它通過在不同動作維度間共享權重來處理特定于動作的輸入和輸出。因此,它可以泛化到截然不同的環境中。

      其次,元網絡與智能體網絡的設計無關,因為它只接收智能體網絡的輸出。只要智能體網絡能產生所需形式的輸出 (π, y, z),被發現的 RL 規則就可以泛化到任意的智能體架構或規模。

      第三,由元網絡定義的搜索空間包含了「引導」這一重要的算法思想

      第四,由于元網絡同時處理策略和預測,它不僅可以元學習輔助任務,還可以直接使用預測來更新策略(例如,為減少方差) 提供一個基線

      最后,輸出目標這種方式比輸出一個標量損失函數具有更強的表達能力,因為它將 Q 學習這樣的半梯度方法也納入了搜索空間

      在繼承標準 RL 算法這些特性的基礎上,這個參數豐富的神經網絡使得被發現的規則能夠以可能高得多的效率和更精細的上下文感知方式來實現算法。

      智能體優化

      智能體的參數 (θ) 會被更新,以最小化其預測和策略與來自元網絡的目標之間的距離。智能體的損失函數可以表示為:



      其中 D (p,q) 是 p 和 q 之間的一種距離函數。團隊選擇 KL 散度作為距離函數,因為它足夠通用,并且先前已被發現在元優化中有助于簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網絡的輸出,而 ?π, ?y,? 是元網絡的輸出,每個向量都應用了 softmax 函數進行歸一化。

      輔助損失 L_aux 用于那些具有預定義語義的預測,即動作價值 (q) 和輔助策略預測 (p) ,具體如下:



      其中 ?q 是來自 Retrace 算法的動作價值目標,并被投影到一個 two-hot 向量 2; 而 p?=π_θ(s′) 是下一步的策略。為了與其他損失保持一致,團隊同樣使用 KL 散度作為距離函數 D。

      元優化





      實驗結果

      該團隊在一套復雜的環境中,通過一個大型智能體集群實現了新發現方法。

      該團隊將發現的 RL 規則稱為 DiscoRL。在評估中,該團隊使用歸一化分數的四分位均值 (IQM) 來衡量聚合性能,該基準由多個任務組成。IQM 之前已被證明是一種統計上可靠的指標。

      Atari

      Atari 基準是 RL 歷史上研究最多的基準之一,由 57 款 Atari 2600 游戲組成。它們需要復雜的策略、規劃和長期 credit 分配,這使得 AI 智能體難以精通。在過去的十年中,已有數百種 RL 算法在該基準上進行了評估,其中包括 MuZero 和 Dreamer。

      為了觀察直接從該基準中發現的規則能有多強大,該團隊元訓練 (meta-trained) 了一個 RL 規則,命名為 Disco57,并在同樣的 57 款游戲上對其進行了評估(見下圖 a)。



      Disco57 的各個實驗基準上的表現

      在此評估中,該團隊使用的網絡架構的參數數量與 MuZero 使用的數量相當。這是一個比發現過程中使用的網絡更大的網絡;因此,被發現的 RL 規則必須能泛化到這種設置。Disco57 取得了 13.86 的 IQM 分數,在 Atari 基準上超越了所有現有的 RL 規則,并且其運行效率 (wall-clock efficiency) 遠高于當前最先進的 MuZero(見下圖)。



      這表明:該團隊的新方法可以從此類具有挑戰性的環境中自動發現強大的 RL 規則。

      泛化能力

      該團隊進一步研究了 Disco57 的泛化能力,方法是在一系列其在發現過程中從未接觸過的留存基準上對其進行評估。

      這些基準包括未曾見過的觀測和動作空間、多樣化的環境動態、各種獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境(即 Atari)上進行了調整,以防止該規則被隱式地針對保留基準進行優化。

      在 ProcGen 基準上的結果顯示,Disco57 優于所有現有的已發表方法,包括 MuZero 和 PPO,盡管它在發現期間從未與 ProcGen 環境交互過。ProcGen 由 16 個程序生成的 2D 游戲組成。



      此外,Disco57 也在 Crafter 上取得了有競爭力的表現,在 Crafter 中智能體需要學習廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰賽的排行榜上獲得了第 3 名,該比賽有 40 多個團隊參加。

      與比賽中排名靠前的提交智能體不同,Disco57 沒有使用任何領域特定知識來定義子任務或進行獎勵塑造 (reward shaping)。為了進行公平比較,該團隊使用與 Disco57 相同的設置,通過 IMPALA 算法訓練了一個智能體。IMPALA 的表現要弱得多,這表明 Disco57 發現了一種比標準方法更高效的 RL 規則。

      除了環境之外,Disco57 在評估中還對一系列智能體特定設置(如網絡大小、重放比例 (replay ratio) 和超參數)表現出了魯棒性。

      復雜多樣的環境

      為了理解復雜多樣的環境對于發現過程的重要性,該團隊使用額外的環境進一步擴大了元學習的規模。

      具體來說,該團隊使用了由 Atari、ProcGen 和 DMLab-30 基準組成的 103 個更具多樣性的環境,發現了另一個規則 Disco103。該規則在 Atari 基準上表現相似,同時之前所示的每一個已見和未見的基準上都提高了分數。特別是,Disco103 在 Crafter 上達到了人類水平的表現,并在 Sokoban 上接近了 MuZero 的 SOTA 性能。

      這些結果表明,用于發現的環境集越復雜、越多樣化,發現的規則就越強大、越通用,即使在發現期間未曾見過的保留環境上也是如此。與 Disco57 相比,發現 Disco103 除了環境集不同之外,不需要對發現方法進行任何更改。這表明發現過程本身是穩健的、可擴展的和通用的。

      為了進一步研究使用復雜環境的重要性,該團隊在 57 個從先前工作 9 擴展而來的網格世界 (grid-world) 任務上運行了該團隊的發現過程,使用了與 Disco57 相同的元學習設置。新規則在 Atari 基準上的表現明顯更差(見下圖 c)。



      這驗證了該團隊關于直接從復雜且具有挑戰性的環境中進行元學習的重要性的假設。雖然使用這樣的環境至關重要,但并不需要精心策劃正確的環境組合;該團隊只是簡單地使用了文獻中流行的基準。

      效率與可擴展性

      為了進一步了解該團隊方法的可擴展性和效率,該團隊在發現過程中評估了多個 Disco57(見上圖 a)。最佳規則是在每個 Atari 游戲約 6 億步 (內發現的,這相當于在 57 個 Atari 游戲上僅進行了 3 次實驗。這可以說比手動發現 RL 規則更有效率,后者通常需要執行更多的實驗,此外還要花費人類研究員的時間。

      此外,隨著用于發現的 Atari 游戲數量的增加,DiscoRL 在未見過的 ProcGen 基準上表現得更好(見上圖 b),這表明最終得到的 RL 規則隨著用于發現的環境數量和多樣性的增加而表現出良好的擴展性。換句話說,被發現規則的性能是數據(即環境)和計算量的函數。

      發現新預測的效果

      為了研究被發現的預測 (圖 1b 中的 y, z) 其語義的效果,該團隊通過改變智能體的輸出(包含或不包含某些類型的預測)來比較不同的規則。上圖 c 中的結果表明,使用價值函數可極大地改善發現過程,這突顯了 RL 這一基本概念的重要性。

      另一方面,上圖 c 的結果也表明,在預定義預測之外發現新預測語義( y 和 z )的重要性。總的來說,與先前的工作相比,擴大發現的范圍是至關重要的。在下一節中,該團隊將提供進一步的分析,以揭示發現了哪些語義。

      分析

      定性分析

      該團隊以 Disco57 為案例,分析了被發現規則的性質(見下圖)。



      從定性上看,被發現的預測在諸如收到獎勵或策略熵發生變化等顯著事件之前會出現峰值(圖 a)。

      該團隊還通過測量與觀測的每個部分相關的梯度范數,研究了觀測中的哪些特征會導致元學習的預測產生強烈反應。圖 b 的結果顯示,元學習的預測傾向于關注未來可能相關的物體,這與策略和價值函數所關注的地方不同。這些結果表明,DiscoRL 已經學會了在一個適度的范圍內識別和預測顯著事件,從而補充了諸如策略和價值函數等現有概念。

      信息分析

      為了證實定性分析的發現,該團隊進一步研究了預測中包含哪些信息。該團隊首先在 10 款 Atari 游戲上從 DiscoRL 智能體收集數據,并訓練一個神經網絡,使其從被發現的預測、策略或價值函數中預測該團隊感興趣的量。

      圖 c 中的結果顯示,與策略和價值相比,被發現的預測包含更多關于即將到來的高額獎勵和未來策略熵的信息。這表明,被發現的預測可能捕獲了策略和價值未能很好捕獲的、與任務相關的獨特信息。

      引導機制的涌現

      該團隊還發現了 DiscoRL 使用引導 (bootstrapping) 機制的證據。當元網絡在未來時間步的預測輸入受到擾動時,它會強烈影響當前的目標圖 d)。這意味著未來的預測被用來構建當前預測的目標。

      事實證明,這種引導機制和被發現的預測對于性能至關重要(圖 e)。如果在計算 y 和 z 的目標時,將輸入到元網絡的 y 和 z 設置為零(從而阻止引導),性能會大幅下降。如果將 y 和 z 的輸入設置為零以計算包括策略目標在內的所有目標,性能會進一步下降。這表明,被發現的預測被大量用于為策略更新提供信息,而不僅僅是作為輔助任務。

      總結

      讓機器能夠自己發現學習算法是人工智能中最有前途的想法之一,因為它具有開放式自我改進的潛力。

      這項工作朝著機器設計的強化學習算法邁出了重要一步,這些算法在具有挑戰性的環境中可以與一些最佳的人工設計算法相媲美,甚至超越它們。

      該團隊還表明,隨著發現的規則接觸到更多樣化的環境,它會變得更強、更通用。這表明,未來高級人工智能的 RL 算法設計,可能會由那些能夠隨數據和計算資源有效擴展的機器來主導。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      兵國大事
      2025-11-04 17:30:59
      萬萬沒想到!灣灣博主擊碎具俊曄最后的體面,原來他留臺原因很多

      萬萬沒想到!灣灣博主擊碎具俊曄最后的體面,原來他留臺原因很多

      小娛樂悠悠
      2025-11-05 09:33:40
      停擺第36天,終釀成大禍!實在熬不住,美四大航司集體倒向共和黨

      停擺第36天,終釀成大禍!實在熬不住,美四大航司集體倒向共和黨

      南宗歷史
      2025-11-05 17:08:21
      歐盟高層爆發內斗,反華外長挑戰馮德萊恩,所有人都站在同一邊

      歐盟高層爆發內斗,反華外長挑戰馮德萊恩,所有人都站在同一邊

      沈言論
      2025-11-05 19:40:03
      車船稅新政11月落地!大排量車稅負上漲,1.6L以下或享優惠

      車船稅新政11月落地!大排量車稅負上漲,1.6L以下或享優惠

      芭比衣櫥
      2025-11-04 05:34:09
      離婚四年后,大衣哥終于等來好消息,前兒媳陳亞男悔得腸子都青了

      離婚四年后,大衣哥終于等來好消息,前兒媳陳亞男悔得腸子都青了

      說歷史的老牢
      2025-11-04 15:02:03
      古二成功毀掉王家衛,《繁花》電影版流產,導演生涯基本結束

      古二成功毀掉王家衛,《繁花》電影版流產,導演生涯基本結束

      光影新天地
      2025-11-04 14:48:35
      西媒:亞馬爾父親疑似訂婚 女方僅比亞馬爾大5歲

      西媒:亞馬爾父親疑似訂婚 女方僅比亞馬爾大5歲

      搜狐體育
      2025-11-05 14:41:26
      從此,請叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      從此,請叫“貝爵爺”!貝克漢姆獲封英國王室最高爵士頭銜

      封面新聞
      2025-11-05 16:29:05
      A股:今日,讓人刮目相看,出現三個信號,股市即將步入尾聲了?

      A股:今日,讓人刮目相看,出現三個信號,股市即將步入尾聲了?

      深析古今
      2025-11-05 12:00:15
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      特朗普果然不值得信任!剛在釜山見完面,航母編隊就逼近黃巖島

      特朗普果然不值得信任!剛在釜山見完面,航母編隊就逼近黃巖島

      朔方瞭望
      2025-11-05 17:47:13
      日本連開3槍,全方位反華?王毅開始上場,第一擊就讓日本老實了

      日本連開3槍,全方位反華?王毅開始上場,第一擊就讓日本老實了

      田園小歸
      2025-11-04 09:11:29
      斷供的人多了,銀行都開始急了

      斷供的人多了,銀行都開始急了

      深藍夜讀
      2025-11-05 10:04:34
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      突發!阿嬌前夫再曝離婚,結束人生第三段婚姻,妻子一夜刪光合照

      突發!阿嬌前夫再曝離婚,結束人生第三段婚姻,妻子一夜刪光合照

      阿訊說天下
      2025-11-05 13:36:52
      鴿武緣不打算親自出山,手中還有王炸沒出:體重300斤的巨人徒弟

      鴿武緣不打算親自出山,手中還有王炸沒出:體重300斤的巨人徒弟

      楊華評論
      2025-11-04 23:20:33
      澤連斯基勇赴火線;預測一下他的未來

      澤連斯基勇赴火線;預測一下他的未來

      近距離
      2025-11-05 10:33:58
      斯諾克半數8強誕生!中國軍團2勝1負,吳宜澤6連鞭逆轉世界第1!

      斯諾克半數8強誕生!中國軍團2勝1負,吳宜澤6連鞭逆轉世界第1!

      劉姚堯的文字城堡
      2025-11-05 18:00:53
      國務院空降地方任職!他們任省委常委

      國務院空降地方任職!他們任省委常委

      上觀新聞
      2025-11-04 20:29:04
      2025-11-05 20:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      藝術
      親子
      本地
      數碼
      公開課

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      親子要聞

      泰國媳婦第一次吃番薯烤的薯片,一口下去眼都亮了

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      數碼要聞

      威聯通發布24盤位企業級NAS:銳龍7 PRO 7000加持,支持192GB內存

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品一区二区亚洲专区 | 野花香视频在线观看免费高清版| 久久精品国产亚洲av麻豆软件| 无码熟妇人妻av在线电影| 亚洲成人高清av在线| 乱人伦人妻中文字幕| 国厂精品114福利电影免费| 最新亚洲人成网站在线影院| 亚洲色成人网站www永久四虎| 麻豆精品一区二区视频在线| 日本欧美大码a在线观看| 亚洲国产精品久久久久婷婷老年 | 熟女性饥渴一区二区三区| 免费a级黄毛片| 久久久国产成人一区二区| 亚洲国产精品嫩草影院久久| 在线日韩日本国产亚洲| 日韩精品理论片一区二区| 东京热大乱系列无码| 欧美乱妇高清无乱码免费| 国产一级二级三级毛片| 1000部拍拍拍18勿入免费视频| 国产不卡一区二区精品| 亚洲精品成人无限看| 亚洲av一本二本三本| 中文字幕一区有码视三区| 永年县| 日韩熟女熟妇久久精品综合| 久久国产成人av蜜臀| 日本怡春院一区二区三区| 亚洲天堂一区二区成人在线| 又大又粗又硬又爽黄毛少妇| 久久日产一线二线三线| 国产成人av免费观看| 国产精品无码av在线一区| 国产成人亚洲综合| 成人啪精品视频网站午夜| 国产成人AV男人的天堂| 男女真人国产牲交a做片野外| 国产激情艳情在线看视频| 中文字幕有码日韩精品|