網易首頁 > 網易號 > 正文申請入駐

AlphaGo之父找到創造強化學習算法新方法：讓AI自己設計

2025-10-28 14:20:35　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：+0、Panda

強化學習是近來 AI 領域最熱門的話題之一，新算法也在不斷涌現。

那么，問題來了：AI 能不能自己發現強大的強化學習算法呢？

近日，谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。并且，他們得到了非常積極的結果：機器確實能夠自主發現性能達到 SOTA 的強化學習規則，并且其表現優于人工設計的規則。

標題：Discovering state-of-the-art reinforcement learning algorithms

地址：https://www.nature.com/articles/s41586-025-09761-x

值得注意的是，該團隊的負責人、通訊作者是強化學習領域的引領研究者 David Silver，他也曾領導了著名的 AlphaGo 項目，常被稱為「AlphaGo 之父」。截至目前，David Silver 的引用量已接近 27 萬。本研究共有四位共同一作：Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具體到方法上，該團隊的思路是：在大量復雜環境中，基于大量智能體的經驗積累，進行元學習（meta-learning）。這個方法能夠發現智能體在更新策略與預測時所遵循的強化學習規則。

該團隊還進行了大規模實驗，結果發現這一「自動發現的規則」在經典的 Atari 基準測試上超越了所有現有方法，并且在若干它從未見過的高難度基準測試上也優于多種 SOTA 強化學習算法。

這一研究結果可謂意義重大。它意味著，未來實現高級 AI 所需的強化學習算法或許將不再依賴人工設計，而是能夠從智能體自身的經驗中自動涌現與進化

發現方法

該團隊的發現方法涉及兩種類型的優化：智能體優化元優化。智能體參數通過將其策略和預測更新至強化學習規則所產生的目標來進行優化。與此同時，強化學習規則的元參數則通過更新其目標來進行優化，以最大化智能體的累積獎勵。

智能體網絡

許多強化學習研究考慮的是智能體應該做出什么預測（例如，價值），以及應該使用什么損失函數來學習這些預測（例如，TD 學習）和改進策略（例如，策略梯度）。

該團隊沒有采用手工設計的方式，而是定義了一個沒有預定義語義、富有表現力的預測空間，并通過使用元網絡進行元學習，來找出智能體需要優化的內容。他們希望在保留表征現有強化學習算法中核心思想能力的同時，也支持廣闊的新穎算法可能性空間。

為此，該團隊讓由 θ 參數化的智能體除了輸出策略 π 之外，還輸出兩種類型的預測：一個基于觀測的向量預測 y (s) 和一個基于動作的向量預測 z (s,a) ，其中 s 和 a 分別是觀測和動作 (見下圖)。

這些預測的形式源于「預測」與「控制」之間的根本區別。例如，價值函數通常被分為狀態函數 v (s) (用于預測) 和動作函數 q (s,a) (用于控制)。強化學習中的許多其他概念，例如獎勵和后繼特征，也同樣具有一個基于觀測的版本 s??^m 和一個基于動作的版本 s,a??^m. 因此，這對預測 (y,z) 的函數形式足夠通用，可以用來表示 RL 中的許多現有基本概念，但又不僅限于此。

除了這些有待發現的預測之外，在我們的大多數實驗中，智能體還會做出具有預定義語義的預測。具體來說，智能體會產生一個動作價值函數 q (s,a) 和一個基于動作的輔助策略預測 p (s,a)。這樣做是為了鼓勵發現過程能更專注于通過 y 和 z 來發現新概念。

元網絡

很大一部分現代強化學習規則采用了 RL 的「前向視圖」。在這種視圖下，RL 規則接收一個從時間步 t 到 t+n 的軌跡，并利用這些信息來更新智能體的預測或策略。它們通常會將預測或策略朝著「引導目標」更新，即朝著未來的預測值更新。

相應地，該團隊的 RL 規則使用一個元網絡（圖 1c）作為函數，來決定智能體應將其預測和策略更新至的目標。為了在時間步 t 產生目標，該元網絡會接收從時間步 t 到 t+n 的一段軌跡作為輸入，這段軌跡包含了智能體的預測、策略、獎勵以及回合是否終止的信息。它使用一個標準的 LSTM 來處理這些輸入，當然也可以使用其他架構。

元網絡的輸入和輸出選擇保留了手工設計的 RL 規則所具備的一些理想特性：

首先，元網絡可以處理任何觀測信息，以及任何大小的離散動作空間。這是因為它不直接接收觀測作為輸入，而是通過智能體的預測間接獲取信息。此外，它通過在不同動作維度間共享權重來處理特定于動作的輸入和輸出。因此，它可以泛化到截然不同的環境中。

其次，元網絡與智能體網絡的設計無關，因為它只接收智能體網絡的輸出。只要智能體網絡能產生所需形式的輸出 (π, y, z)，被發現的 RL 規則就可以泛化到任意的智能體架構或規模。

第三，由元網絡定義的搜索空間包含了「引導」這一重要的算法思想

第四，由于元網絡同時處理策略和預測，它不僅可以元學習輔助任務，還可以直接使用預測來更新策略（例如，為減少方差) 提供一個基線

最后，輸出目標這種方式比輸出一個標量損失函數具有更強的表達能力，因為它將 Q 學習這樣的半梯度方法也納入了搜索空間

在繼承標準 RL 算法這些特性的基礎上，這個參數豐富的神經網絡使得被發現的規則能夠以可能高得多的效率和更精細的上下文感知方式來實現算法。

智能體優化

智能體的參數 (θ) 會被更新，以最小化其預測和策略與來自元網絡的目標之間的距離。智能體的損失函數可以表示為：

其中 D (p,q) 是 p 和 q 之間的一種距離函數。團隊選擇 KL 散度作為距離函數，因為它足夠通用，并且先前已被發現在元優化中有助于簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網絡的輸出，而 ?π, ?y,? 是元網絡的輸出，每個向量都應用了 softmax 函數進行歸一化。

輔助損失 L_aux 用于那些具有預定義語義的預測，即動作價值 (q) 和輔助策略預測 (p) ，具體如下：

其中 ?q 是來自 Retrace 算法的動作價值目標，并被投影到一個 two-hot 向量 2；而 p?=π_θ(s′) 是下一步的策略。為了與其他損失保持一致，團隊同樣使用 KL 散度作為距離函數 D。

元優化

實驗結果

該團隊在一套復雜的環境中，通過一個大型智能體集群實現了新發現方法。

該團隊將發現的 RL 規則稱為 DiscoRL。在評估中，該團隊使用歸一化分數的四分位均值 (IQM) 來衡量聚合性能，該基準由多個任務組成。IQM 之前已被證明是一種統計上可靠的指標。

Atari

Atari 基準是 RL 歷史上研究最多的基準之一，由 57 款 Atari 2600 游戲組成。它們需要復雜的策略、規劃和長期 credit 分配，這使得 AI 智能體難以精通。在過去的十年中，已有數百種 RL 算法在該基準上進行了評估，其中包括 MuZero 和 Dreamer。

為了觀察直接從該基準中發現的規則能有多強大，該團隊元訓練 (meta-trained) 了一個 RL 規則，命名為 Disco57，并在同樣的 57 款游戲上對其進行了評估（見下圖 a）。

Disco57 的各個實驗基準上的表現

在此評估中，該團隊使用的網絡架構的參數數量與 MuZero 使用的數量相當。這是一個比發現過程中使用的網絡更大的網絡；因此，被發現的 RL 規則必須能泛化到這種設置。Disco57 取得了 13.86 的 IQM 分數，在 Atari 基準上超越了所有現有的 RL 規則，并且其運行效率 (wall-clock efficiency) 遠高于當前最先進的 MuZero（見下圖）。

這表明：該團隊的新方法可以從此類具有挑戰性的環境中自動發現強大的 RL 規則。

泛化能力

該團隊進一步研究了 Disco57 的泛化能力，方法是在一系列其在發現過程中從未接觸過的留存基準上對其進行評估。

這些基準包括未曾見過的觀測和動作空間、多樣化的環境動態、各種獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境（即 Atari）上進行了調整，以防止該規則被隱式地針對保留基準進行優化。

在 ProcGen 基準上的結果顯示，Disco57 優于所有現有的已發表方法，包括 MuZero 和 PPO，盡管它在發現期間從未與 ProcGen 環境交互過。ProcGen 由 16 個程序生成的 2D 游戲組成。

此外，Disco57 也在 Crafter 上取得了有競爭力的表現，在 Crafter 中智能體需要學習廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰賽的排行榜上獲得了第 3 名，該比賽有 40 多個團隊參加。

與比賽中排名靠前的提交智能體不同，Disco57 沒有使用任何領域特定知識來定義子任務或進行獎勵塑造 (reward shaping)。為了進行公平比較，該團隊使用與 Disco57 相同的設置，通過 IMPALA 算法訓練了一個智能體。IMPALA 的表現要弱得多，這表明 Disco57 發現了一種比標準方法更高效的 RL 規則。

除了環境之外，Disco57 在評估中還對一系列智能體特定設置（如網絡大小、重放比例 (replay ratio) 和超參數）表現出了魯棒性。

復雜多樣的環境

為了理解復雜多樣的環境對于發現過程的重要性，該團隊使用額外的環境進一步擴大了元學習的規模。

具體來說，該團隊使用了由 Atari、ProcGen 和 DMLab-30 基準組成的 103 個更具多樣性的環境，發現了另一個規則 Disco103。該規則在 Atari 基準上表現相似，同時之前所示的每一個已見和未見的基準上都提高了分數。特別是，Disco103 在 Crafter 上達到了人類水平的表現，并在 Sokoban 上接近了 MuZero 的 SOTA 性能。

這些結果表明，用于發現的環境集越復雜、越多樣化，發現的規則就越強大、越通用，即使在發現期間未曾見過的保留環境上也是如此。與 Disco57 相比，發現 Disco103 除了環境集不同之外，不需要對發現方法進行任何更改。這表明發現過程本身是穩健的、可擴展的和通用的。

為了進一步研究使用復雜環境的重要性，該團隊在 57 個從先前工作 9 擴展而來的網格世界 (grid-world) 任務上運行了該團隊的發現過程，使用了與 Disco57 相同的元學習設置。新規則在 Atari 基準上的表現明顯更差（見下圖 c）。

這驗證了該團隊關于直接從復雜且具有挑戰性的環境中進行元學習的重要性的假設。雖然使用這樣的環境至關重要，但并不需要精心策劃正確的環境組合；該團隊只是簡單地使用了文獻中流行的基準。

效率與可擴展性

為了進一步了解該團隊方法的可擴展性和效率，該團隊在發現過程中評估了多個 Disco57（見上圖 a）。最佳規則是在每個 Atari 游戲約 6 億步 (內發現的，這相當于在 57 個 Atari 游戲上僅進行了 3 次實驗。這可以說比手動發現 RL 規則更有效率，后者通常需要執行更多的實驗，此外還要花費人類研究員的時間。

此外，隨著用于發現的 Atari 游戲數量的增加，DiscoRL 在未見過的 ProcGen 基準上表現得更好（見上圖 b），這表明最終得到的 RL 規則隨著用于發現的環境數量和多樣性的增加而表現出良好的擴展性。換句話說，被發現規則的性能是數據（即環境）和計算量的函數。

發現新預測的效果

為了研究被發現的預測 (圖 1b 中的 y, z) 其語義的效果，該團隊通過改變智能體的輸出（包含或不包含某些類型的預測）來比較不同的規則。上圖 c 中的結果表明，使用價值函數可極大地改善發現過程，這突顯了 RL 這一基本概念的重要性。

另一方面，上圖 c 的結果也表明，在預定義預測之外發現新預測語義（ y 和 z ）的重要性。總的來說，與先前的工作相比，擴大發現的范圍是至關重要的。在下一節中，該團隊將提供進一步的分析，以揭示發現了哪些語義。

分析

定性分析

該團隊以 Disco57 為案例，分析了被發現規則的性質（見下圖）。

從定性上看，被發現的預測在諸如收到獎勵或策略熵發生變化等顯著事件之前會出現峰值（圖 a）。

該團隊還通過測量與觀測的每個部分相關的梯度范數，研究了觀測中的哪些特征會導致元學習的預測產生強烈反應。圖 b 的結果顯示，元學習的預測傾向于關注未來可能相關的物體，這與策略和價值函數所關注的地方不同。這些結果表明，DiscoRL 已經學會了在一個適度的范圍內識別和預測顯著事件，從而補充了諸如策略和價值函數等現有概念。

信息分析

為了證實定性分析的發現，該團隊進一步研究了預測中包含哪些信息。該團隊首先在 10 款 Atari 游戲上從 DiscoRL 智能體收集數據，并訓練一個神經網絡，使其從被發現的預測、策略或價值函數中預測該團隊感興趣的量。

圖 c 中的結果顯示，與策略和價值相比，被發現的預測包含更多關于即將到來的高額獎勵和未來策略熵的信息。這表明，被發現的預測可能捕獲了策略和價值未能很好捕獲的、與任務相關的獨特信息。

引導機制的涌現

該團隊還發現了 DiscoRL 使用引導 (bootstrapping) 機制的證據。當元網絡在未來時間步的預測輸入受到擾動時，它會強烈影響當前的目標圖 d）。這意味著未來的預測被用來構建當前預測的目標。

事實證明，這種引導機制和被發現的預測對于性能至關重要（圖 e）。如果在計算 y 和 z 的目標時，將輸入到元網絡的 y 和 z 設置為零（從而阻止引導），性能會大幅下降。如果將 y 和 z 的輸入設置為零以計算包括策略目標在內的所有目標，性能會進一步下降。這表明，被發現的預測被大量用于為策略更新提供信息，而不僅僅是作為輔助任務。

總結

讓機器能夠自己發現學習算法是人工智能中最有前途的想法之一，因為它具有開放式自我改進的潛力。

這項工作朝著機器設計的強化學習算法邁出了重要一步，這些算法在具有挑戰性的環境中可以與一些最佳的人工設計算法相媲美，甚至超越它們。

該團隊還表明，隨著發現的規則接觸到更多樣化的環境，它會變得更強、更通用。這表明，未來高級人工智能的 RL 算法設計，可能會由那些能夠隨數據和計算資源有效擴展的機器來主導。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.