網易首頁 > 網易號 > 正文申請入駐

Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

2025-11-05 13:58:14　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

一直以來，關于人工生命（Artificial Life, ALife）的研究致力于回答這樣一個問題：生命的復雜性能否在計算系統中自然涌現？

這一探索的核心目標，被稱為開放式復雜化（open-ended complexification）—— 讓人工系統能夠像生物世界一樣，在持續的適應與演化中自發產生新的結構與功能。

近年來，NCA（Neural Cellular Automata，神經細胞自動機）為這種探索提供了新的思路。它們能夠在局部規則下展現分布式生長與自組織能力。然而，大多數 NCA 模型仍基于單一、固定的結構，難以突破演化的封閉邊界。

在這樣的背景下，來自Sakana AI的研究者提出了一種新的 ALife 模擬系統 ——PD-NCA（ Petri Dish Neural Cellular Automata）。在該系統中，多個 NCA 智能體在同一環境中競爭，它們的唯一目標是實現自我復制（self-replication）。

PD-NCA 與傳統的 NCA 框架有著顯著不同：

傳統的 NCA 通常由單一、固定的模型在網格上運行，其參數在訓練完成后保持不變；
而在 PD-NCA 中，Sakana AI 引入了一個由多個獨立且持續學習的 NCA 構成的種群。

每個 NCA 都擁有自己獨立的神經網絡參數，并在模擬過程中通過基于梯度的持續優化不斷更新與適應。

這些智能體共享一個共同的空間基質 —— 即所謂的培養皿（Petri Dish）。

在這個培養皿中，不同 NCA 之間通過可微分的攻擊與防御通道進行交互，表現出既競爭又合作的動態關系。

與傳統 NCA 不同，后者的形態發生過程通常是根據預訓練規則以確定性方式展開的；PD-NCA 則通過 learning-in-the-loop 的機制，讓學習過程本身參與到模擬之中，從而實現開放式的適應與復雜性涌現。

換言之，在一個可微的、動態學習的環境中，生命體樣的結構不再被預先設定，而是能在交互、進化與競爭中自行演化出豐富的行為與形態。

論文標題：Petri Dish Neural Cellular Automata
論文地址：https://pub.sakana.ai/pdnca/
項目地址：https://github.com/SakanaAI/petri-dish-nca

在 PD-NCA 中，每一個個體都在努力擴張自身，同時學習如何適應環境并超越鄰近的競爭者。

結果顯示，PD-NCA 能夠產生多種復雜的涌現行為，例如周期性動態（cyclic dynamics）、領地防御（territorial defense）以及自發協作（spontaneous cooperation）。

下方的視頻展示了多次模擬過程中不斷演化出的豐富變化與復雜性 —— 每一種顏色代表不同的 NCA 個體。

方法介紹

模擬在一個離散的空間網格上運行。你可以把它想象成一個棋盤，它有特定的寬度（W）和高度（H）。

在棋盤的每一個格子上，都存儲著一組信息，稱為通道（C）。

在任何一個時間點（t）和網格位置（x,y），該格子的狀態（s）都由一個特征向量來定義。這個向量包含了三個關鍵部分：攻擊通道（a）、防御通道（d）、隱藏狀態（h）。

在模擬的每一個時間步，都會依次經歷以下四個階段：處理（Processing）、競爭（Competition）、歸一化（Normalization）、狀態更新（State Update）。

處理階段

每個 NCA 智能體（可以理解為模擬中的「玩家」）本身都是通過一個卷積函數來定義的。

這個函數會「觀察」某個位置（x,y）及其鄰近區域（N）的狀態，然后生成一個「狀態更新提議（Δs）」，也就是它「希望」這個格子在下一刻變成什么樣。

智能體能否提出這個「提議」，受到一個「存活掩碼（A）」的控制。簡單來說，智能體只能在它自己存活的格子或緊鄰的格子里提出更新建議。

背景環境（一個恒定的對手）

為了確保模擬始終充滿活力，尤其是在某個區域只有一個智能體「活著」的情況下研究人員引入了一個靜態的「背景環境（E）」

它就像一個恒定的背景競爭者，在模擬開始時隨機初始化一次，然后就固定不變。

這個「背景環境」也會像智能體一樣，在每個格子上提出它自己的「更新提議」。這確保了所有智能體必須時刻保持積極的攻擊和防御，以對抗這種持續的背景壓力，從而防止「躺平」或停滯

競爭階段

計算式中的「溫度參數（τ）」用來控制競爭的「尖銳程度」。溫度越低，競爭越激烈，第一名的優勢就越大。

狀態更新階段

這帶來一個有趣的結果：它允許最多 2 個智能體在同一個格子里共存（因為 0.4 + 0.4 < 1.0）。研究者發現，如果閾值高于 0.5（導致贏家通吃，只留 1 個），模擬會變得很無聊。

研究者這樣設置的靈感來源于混合專家（MoE）模型（它們通常會選擇 Top-2 專家），這能確保模擬保持一定的探索性。

因此，雖然模擬的真實狀態是連續的（一個格子可能是多個智能體更新提議的混合體），但在可視化視頻中，為了清晰起見，只顯示了每個格子上「貢獻權重」最高的那個智能體，并用不同顏色來區分。

優化目標（智能體的「動機」）

那么，智能體是如何「學習」的呢？

每個智能體 i 的優化目標（L）都是為了最大化其領土，即最大化它在整個網格上的「總存活度」。

在實際計算中，作者通過最小化「負對數存活度」來實現這個目標。

這個目標設定非常巧妙，它會自然地「涌現」出復雜的行為：智能體必須學會在「進攻擴張」（優化其攻擊通道）和「防守領地」（優化其防御通道）之間找到精妙的平衡，以便在與其他智能體和持續的背景環境壓力對抗時，盡可能多地「活下去」。

實驗

該研究開展了多項實驗來探索 PD-NCA。

動態特性

在探索 PD-NCA 的過程中，他們發現當網格規模（grid size）與 NCA 個體數量同時增加時，系統的群體行為會變得更加豐富與復雜。

這表明未來的研究方向之一是進一步在更大尺度的網格上運行 PD-NCA，支持更多數量的 NCA 個體，并可能同時在多塊 GPU 上并行計算。

下面是網格大小的影響。網格大小從 16 x 16 到 196 x 196 的結果：

下圖展示了從 16×16 網格擴展到 196×196 網格時 NCA 行為的變化。

學習的影響

下方的視頻展示了學習機制對 PD-NCA 模擬結果的影響。

在沒有學習的情況下，系統最終會進入一種穩定狀態，僅呈現出微小的波動；而引入學習之后，可以觀察到有趣的周期性行為，以及系統在不同交互狀態之間的持續變化與演化。

這些現象表明：NCA 的數量、網格規模以及學習過程，是產生 PD-NCA 中復雜動態與多樣行為的關鍵因素。

接下來作者探索了反向傳播的重要性。左側視頻展示的是未啟用反向傳播的模擬，右側視頻則展示了正常啟用反向傳播的運行結果。對比結果表明：反向傳播顯著提升了系統中復雜涌現行為的豐富度與持續性。

超參數搜索

下面視頻中，左上、中間下方和右下角的模擬都先運行了很多步沒有提前進行學習，然后運行了幾步，又進行了學習。這反映在它們的行為上：在反向傳播改變平衡之前，它們都呈現出穩定的石頭剪刀布動態。中間上方的模擬展示了穩定的循環是如何出現和競爭的，暗示了共生起源的存在。

超循環

在包含 3 到 6 個 NCA 的實驗中，作者測試了是否可以鼓勵形成更長長度的超循環結構（hypercycles）。

結果顯示，盡管修改了損失函數，但觀察到完整長度的超循環很少能夠穩定存在。相反，NCA 循環坍縮為較短的 2–3 NCA 循環，或者出現寄生行為與叛逃級聯現象。

在圖中最右側的 N=6N=6N=6 實驗中，黃色智能體因綠色智能體的擴張而獲得獎勵，但綠色智能體卻反過來侵占了黃色智能體的領地。同時，我們還觀察到一個由黃色與藍色智能體組成的截斷的二元循環（2-cycle），其中藍色智能體在對抗寄生性的綠色智能體時扮演防御者角色。

了解更多內容，請參考原文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.