網易首頁 > 網易號 > 正文申請入駐

從物競天擇到智能進化，首篇自進化智能體綜述的ASI之路

2025-08-12 20:24:05　來源: 機器之心Pro

內蒙古舉報

分享至

近年來，大語言模型（LLM）已展現出卓越的通用能力，但其核心仍是靜態的。面對日新月異的任務、知識領域和交互環境，模型無法實時調整其內部參數，這一根本性瓶頸日益凸顯。

當我們將視野從提升靜態模型的規模，轉向構建能夠實時學習和適應的動態智能體時，一個全新的范式——自進化智能體（Self-evolving Agents）——正引領著人工智能領域的變革。

然而，盡管學術界與工業界對自進化智能體的興趣與日俱增，但整個領域仍缺乏一個系統性的梳理與頂層設計。多數研究將「演化」作為智能體整體框架的一個子集，未能深入回答該領域三個最根本的問題：智能體的哪些部分應該演化（What）？演化何時發生（When）？以及，演化如何實現（How）？

為應對上述挑戰，普林斯頓大學聯合多所頂尖機構的研究者們聯合發布了首個全面且系統的自進化智能體綜述。該綜述旨在為這一新興領域建立一個統一的理論框架和清晰的路線圖，最終為實現通用人工智能（AGI）乃至人工超級智能（ASI）鋪平道路。

論文標題：A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
論文地址：
https://arxiv.org/pdf/2507.21046
GitHub：
https://github.com/CharlesQ9/Self-Evolving-Agents
X (Twitter)：
https://x.com/JiahaoQiu99/status/1950093150003089823

自進化智能體的形式化定義

為確保研究的嚴謹性，該綜述首先為「自進化智能體」提供了一套形式化的定義，為整個領域的研究和討論奠定了數學基礎。

環境（Environment）：智能體所處的環境被定義為一個部分可觀察馬爾可夫決策過程（POMDP）。這個環境包含了智能體需要實現的潛在目標（Goals）、環境的內部狀態（States）、智能體可以執行的動作（Actions，如文本推理、工具調用）、狀態轉移概率，以及用于評估的反饋/獎勵函數（Reward Function）。智能體無法完全觀測到環境的全部狀態，只能接收到觀測（Observations）。

智能體系統（Agent System）：一個智能體系統（Π）被解構為四個核心組成部分：

架構（Γ）：決定了系統的控制流程或多智能體間的協作結構。
模型（{ψi}）：底層的語言模型或多模態模型。
上下文（{Ci}）：包含提示（Prompts）和記憶（Memory）等信息。
工具集（{Wi}）：智能體可用的工具或 API 集合。

自進化策略（Self-evolving Strategy）：這是定義的核心。一個自進化策略被形式化為一個轉換函數。該函數接收當前智能體系統（Π）、其在任務中生成的軌跡（τ）以及獲得的反饋（r）作為輸入，然后輸出一個全新的、經過演化的智能體系統（Π'）。這個過程精確地描述了「進化」這一行為。
f
Π' = f(Π, τ, r)

終極目標（Objective）：自進化智能體的設計目標，是構建一個最優的自進化策略，使得智能體在一系列連續任務上的累積效用（Cumulative Utility）最大化。這為所有演化方法提供了一個統一的優化方向。
f

核心框架：四大維度定義智能體演化

該綜述的核心貢獻是圍繞「What、When、How、Where」四個維度，構建了一個用于分析和設計自進化智能體的完整框架，并系統梳理了相關的前沿技術。

What to Evolve?（演化什么？）

此維度明確了智能體系統中可以進行自我提升的四大核心支柱：

模型（Models）：這是智能體認知能力的核心。演化可以發生在兩個層面：一是決策策略（Policy）的優化，例如通過自我生成挑戰性任務（如 SCA）或利用自然語言反饋進行在線微調（如 SELF、TextGrad），直接更新模型參數；二是經驗（Experience）的積累與學習，智能體通過與環境交互（如 Reflexion 的自我反思機制、RAGEN 的強化學習框架）將成功或失敗的經驗轉化為學習信號，驅動迭代改進。

上下文（Context）：這是塑造智能體行為的動態信息流。演化體現在兩個方面：一是記憶（Memory）的演化，智能體需要學會動態管理其長期記憶，例如通過 Mem0 框架中的 ADD/MERGE/DELETE 機制來保持記憶的一致性，或像 Expel 一樣從經驗中提煉出可泛化的規則和見解；二是指令提示（Prompt）的自動化優化，從簡單的候選提示生成（如 APE），到將整個工作流視為可微分程序進行聯合優化的復雜框架（如 DSPy），再到面向多智能體系統的通信模式優化（如 MASS）。

工具（Tools）：這是智能體與外部世界交互的橋梁，也是能力拓展的關鍵。其演化路徑可分為三步：首先是新工具的自主創造（Creation），智能體或通過探索式學習（如 Voyager），或通過響應式代碼生成（如 Alita）來彌補能力短板；其次是已有工具的精通（Mastery），通過自我糾錯循環（如 LearnAct）來修復和完善工具的功能與文檔；最后是管理與選擇（Management & Selection），當工具庫變得龐大時，智能體需要高效地檢索和組合工具，例如 ToolGen 將工具調用轉化為生成問題，而 AgentSquare 則通過元學習自動尋找最優的組件配置。

架構（Architecture）：這是智能體系統的頂層設計。演化既可以針對單智能體，例如優化其內部固定的工作流節點（如 TextGrad），甚至賦予其重寫自身源代碼的能力（如 Darwin G?del Machine）；也可以針對多智能體系統，例如通過蒙特卡洛樹搜索等方法自動發現最優的協作流程（如 AFlow），或利用多智能體強化學習（如ReMA）來共同演化出高效的協同策略。

When to Evolve?（何時演化？）

演化的時機決定了學習與任務執行的關系，主要分為兩大模式，每種模式下都可以運用上下文學習（ICL）、監督微調（SFT）和強化學習（RL）等范式。

測試時自進化（Intra-test-time Self-evolution）：這指的是在任務執行期間發生的實時適應。當智能體在解決某個特定問題時遇到障礙，它會即時啟動學習機制。例如，AdaPlanner 通過 ICL 在執行中動態修正計劃；一些前沿工作探索了利用「self-edits」指令觸發即時 SFT 來更新模型權重；而 LADDER 框架則通過 RL 機制實現了「即時技能獲取」，在遇到難題時當場進行針對性訓練。

測試間自進化（Inter-test-time Self-evolution）：這是在任務執行之后發生的、更主流的演化模式。智能體利用已完成任務的經驗積累，對自身能力進行迭代更新，為未來任務做準備。例如，STaR 和 SiriuS 等方法通過 SFT 范式，讓模型從自己成功或失敗的推理鏈中生成新的訓練數據，實現「自舉式」提升；而 RAGEN 和WebRL等框架則利用 RL，在任務間歇期通過大量與環境的交互來優化策略。

How to Evolve?（如何演化？）

實現演化的具體方法論，即智能體如何將經驗和反饋轉化為能力提升，主要分為三大范式。

基于獎勵的演化（Reward-based Evolution）：這是最核心的演化驅動力，通過設計不同形式的獎勵信號來引導智能體。獎勵信號可以是非常豐富的：

文本反饋（Textual Feedback）：利用自然語言提供詳細、可解釋的改進建議，比單一的標量獎勵更具指導性（如 Reflexion）。
內部獎勵（Internal Rewards）：利用模型自身的置信度或不確定性作為獎勵，實現無外部監督的自我評估與校準（如 CISC）。
外部獎勵（External Rewards）：來自環境的直接反饋（如工具執行成功/失敗）、多數投票或顯式規則。
隱式獎勵（Implicit Rewards）：從沒有明確標記為「獎勵」的信號中學習，例如直接從模型 logits 中提取內生的獎勵函數。

模仿與演示學習（Imitation & Demonstration Learning）：智能體通過學習高質量的范例來提升能力，尤其適用于有充足專家數據或可以自生成高質量軌跡的場景。學習來源可以是自我生成的演示（如 STaR）、跨智能體的演示（如從共享的經驗庫中學習），或是兩者的混合。

基于種群的演化方法（Population-based & Evolutionary Methods）：這種方法借鑒生物進化思想，同時維護多個智能體變體或團隊，通過選擇、變異、競爭等機制并行探索廣闊的解空間，從而發現傳統優化方法難以觸及的新穎策略與架構。其演化對象可以是單個智能體（如 Darwin G?del Machine 的開放式代碼進化），也可以是多智能體系統（如EvoMAC的「文本反向傳播」機制）。

Where to Evolve?（在何處演化？）

此維度明確了自進化智能體的應用場域，展示了其在不同類型任務中的演化路徑。

通用領域演化（General Domain Evolution）：這類智能體旨在成為多才多藝的數字助手，其演化目標是拓展在廣泛任務上的通用能力。實現這一目標的機制包括：

記憶機制：智能體通過總結歷史成敗經驗，形成可復用的知識（如 Tips、Shortcuts），以應對未來的新任務。
模型-智能體協同進化：智能體與其輔助模型（如獎勵模型、世界模型）共同進化，通過相互促進來提升整體性能和泛化能力。
課程驅動訓練：系統能夠根據智能體的表現自動生成難度適宜的任務，形成一個自適應的「課程表」（如 WebRL），引導智能體由易到難地擴展能力。

特定領域演化（Specialized Domain Evolution）：這類智能體則專注于在某一垂直領域內「深耕」，通過演化成為該領域的專家。論文展示了其在多個領域的應用潛力：

編碼（Coding）：智能體可以自主修改代碼庫（如 SICA），或通過多智能體協作進行代碼生成、測試和優化。
圖形用戶界面（GUI）：智能體通過與桌面、網頁和移動應用的真實交互來學習，從失敗軌跡中反思，或自動從界面中挖掘功能，實現對圖形界面的精準操控。
金融（Financial）：智能體通過在模擬和真實環境中進行交易，不斷迭代和優化其量化策略與領域知識庫（如QuantAgent）。
醫療（Medical）：智能體在模擬醫院中「行醫」以提升診斷能力（如 Agent Hospital），或作為虛擬生物學家進行藥物靶點發現（如 OriGene）。
教育（Education）：智能體可以作為個性化導師，根據學生的反應調整教學策略（如 PACE），或作為教師助手，通過多智能體對抗來優化課程計劃。

評估、挑戰與未來展望

除了構建核心理論框架，該綜述還詳細探討了自進化智能體的評估范式。評估自進化智能體不能再局限于靜態的準確率，而必須考察其動態能力。

論文提出了五大評估目標：適應性（Adaptivity）、知識保留（Retention）、泛化性（Generalization）、效率（Efficiency）和安全性（Safety），并將其評估模式分為靜態評估、短時程自適應評估和長時程終身學習評估，為衡量這一新物種的能力提供了標尺。

最后，該綜述為領域的未來發展指明了方向，包括個性化 AI 智能體、提升泛化與跨域適應能力、構建安全可控的智能體、以及探索多智能體生態系統等關鍵挑戰。

通過這份全面的綜述，研究者和開發者可以獲得一個結構化的視角，來理解、比較并設計下一代更強大、更魯棒的自適應智能體系統。正如文中所指出的，自進化智能體的發展是通往人工超級智能（ASI）的關鍵基石，而解決好其在演化過程中的安全性、泛化性與可控性等挑戰，將是未來研究的重中之重。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.