<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      從物競天擇到智能進化,首篇自進化智能體綜述的ASI之路

      0
      分享至



      近年來,大語言模型(LLM)已展現出卓越的通用能力,但其核心仍是靜態的。面對日新月異的任務、知識領域和交互環境,模型無法實時調整其內部參數,這一根本性瓶頸日益凸顯。

      當我們將視野從提升靜態模型的規模,轉向構建能夠實時學習和適應的動態智能體時,一個全新的范式——自進化智能體(Self-evolving Agents)——正引領著人工智能領域的變革。

      然而,盡管學術界與工業界對自進化智能體的興趣與日俱增,但整個領域仍缺乏一個系統性的梳理與頂層設計。多數研究將「演化」作為智能體整體框架的一個子集,未能深入回答該領域三個最根本的問題:智能體的哪些部分應該演化(What)?演化何時發生(When)?以及,演化如何實現(How)?

      為應對上述挑戰,普林斯頓大學聯合多所頂尖機構的研究者們聯合發布了首個全面且系統的自進化智能體綜述。該綜述旨在為這一新興領域建立一個統一的理論框架和清晰的路線圖,最終為實現通用人工智能(AGI)乃至人工超級智能(ASI)鋪平道路。



      • 論文標題:A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence
      • 論文地址:
      • https://arxiv.org/pdf/2507.21046
      • GitHub:
      • https://github.com/CharlesQ9/Self-Evolving-Agents
      • X (Twitter):
      • https://x.com/JiahaoQiu99/status/1950093150003089823

      自進化智能體的形式化定義

      為確保研究的嚴謹性,該綜述首先為「自進化智能體」提供了一套形式化的定義,為整個領域的研究和討論奠定了數學基礎。

      • 環境(Environment):智能體所處的環境被定義為一個部分可觀察馬爾可夫決策過程(POMDP)。這個環境包含了智能體需要實現的潛在目標(Goals)、環境的內部狀態(States)、智能體可以執行的動作(Actions,如文本推理、工具調用)、狀態轉移概率,以及用于評估的反饋/獎勵函數(Reward Function)。智能體無法完全觀測到環境的全部狀態,只能接收到觀測(Observations)。

      • 智能體系統(Agent System):一個智能體系統(Π)被解構為四個核心組成部分:

      • 架構(Γ):決定了系統的控制流程或多智能體間的協作結構。
      • 模型({ψi}):底層的語言模型或多模態模型。
      • 上下文({Ci}):包含提示(Prompts)和記憶(Memory)等信息。
      • 工具集({Wi}):智能體可用的工具或 API 集合。

      • 自進化策略(Self-evolving Strategy):這是定義的核心。一個自進化策略被形式化為一個轉換函數。該函數接收當前智能體系統(Π)、其在任務中生成的軌跡(τ)以及獲得的反饋(r)作為輸入,然后輸出一個全新的、經過演化的智能體系統(Π')。這個過程精確地描述了「進化」這一行為。
      • f
      • Π' = f(Π, τ, r)

      • 終極目標(Objective):自進化智能體的設計目標,是構建一個最優的自進化策略,使得智能體在一系列連續任務上的累積效用(Cumulative Utility)最大化。這為所有演化方法提供了一個統一的優化方向。
      • f



      核心框架:四大維度定義智能體演化



      該綜述的核心貢獻是圍繞「What、When、How、Where」四個維度,構建了一個用于分析和設計自進化智能體的完整框架,并系統梳理了相關的前沿技術。



      What to Evolve?(演化什么?)

      此維度明確了智能體系統中可以進行自我提升的四大核心支柱:

      • 模型(Models):這是智能體認知能力的核心。演化可以發生在兩個層面:一是決策策略(Policy)的優化,例如通過自我生成挑戰性任務(如 SCA)或利用自然語言反饋進行在線微調(如 SELF、TextGrad),直接更新模型參數;二是經驗(Experience)的積累與學習,智能體通過與環境交互(如 Reflexion 的自我反思機制、RAGEN 的強化學習框架)將成功或失敗的經驗轉化為學習信號,驅動迭代改進。

      • 上下文(Context):這是塑造智能體行為的動態信息流。演化體現在兩個方面:一是記憶(Memory)的演化,智能體需要學會動態管理其長期記憶,例如通過 Mem0 框架中的 ADD/MERGE/DELETE 機制來保持記憶的一致性,或像 Expel 一樣從經驗中提煉出可泛化的規則和見解;二是指令提示(Prompt)的自動化優化,從簡單的候選提示生成(如 APE),到將整個工作流視為可微分程序進行聯合優化的復雜框架(如 DSPy),再到面向多智能體系統的通信模式優化(如 MASS)。

      • 工具(Tools):這是智能體與外部世界交互的橋梁,也是能力拓展的關鍵。其演化路徑可分為三步:首先是新工具的自主創造(Creation),智能體或通過探索式學習(如 Voyager),或通過響應式代碼生成(如 Alita)來彌補能力短板;其次是已有工具的精通(Mastery),通過自我糾錯循環(如 LearnAct)來修復和完善工具的功能與文檔;最后是管理與選擇(Management & Selection),當工具庫變得龐大時,智能體需要高效地檢索和組合工具,例如 ToolGen 將工具調用轉化為生成問題,而 AgentSquare 則通過元學習自動尋找最優的組件配置。

      • 架構(Architecture):這是智能體系統的頂層設計。演化既可以針對單智能體,例如優化其內部固定的工作流節點(如 TextGrad),甚至賦予其重寫自身源代碼的能力(如 Darwin G?del Machine);也可以針對多智能體系統,例如通過蒙特卡洛樹搜索等方法自動發現最優的協作流程(如 AFlow),或利用多智能體強化學習(如ReMA)來共同演化出高效的協同策略。



      When to Evolve?(何時演化?)

      演化的時機決定了學習與任務執行的關系,主要分為兩大模式,每種模式下都可以運用上下文學習(ICL)、監督微調(SFT)和強化學習(RL)等范式。

      • 測試時自進化(Intra-test-time Self-evolution):這指的是在任務執行期間發生的實時適應。當智能體在解決某個特定問題時遇到障礙,它會即時啟動學習機制。例如,AdaPlanner 通過 ICL 在執行中動態修正計劃;一些前沿工作探索了利用「self-edits」指令觸發即時 SFT 來更新模型權重;而 LADDER 框架則通過 RL 機制實現了「即時技能獲取」,在遇到難題時當場進行針對性訓練。

      • 測試間自進化(Inter-test-time Self-evolution):這是在任務執行之后發生的、更主流的演化模式。智能體利用已完成任務的經驗積累,對自身能力進行迭代更新,為未來任務做準備。例如,STaR 和 SiriuS 等方法通過 SFT 范式,讓模型從自己成功或失敗的推理鏈中生成新的訓練數據,實現「自舉式」提升;而 RAGEN 和WebRL等框架則利用 RL,在任務間歇期通過大量與環境的交互來優化策略。



      How to Evolve?(如何演化?)

      實現演化的具體方法論,即智能體如何將經驗和反饋轉化為能力提升,主要分為三大范式。

      • 基于獎勵的演化(Reward-based Evolution):這是最核心的演化驅動力,通過設計不同形式的獎勵信號來引導智能體。獎勵信號可以是非常豐富的:

      • 文本反饋(Textual Feedback):利用自然語言提供詳細、可解釋的改進建議,比單一的標量獎勵更具指導性(如 Reflexion)。
      • 內部獎勵(Internal Rewards):利用模型自身的置信度或不確定性作為獎勵,實現無外部監督的自我評估與校準(如 CISC)。
      • 外部獎勵(External Rewards):來自環境的直接反饋(如工具執行成功/失敗)、多數投票或顯式規則。
      • 隱式獎勵(Implicit Rewards):從沒有明確標記為「獎勵」的信號中學習,例如直接從模型 logits 中提取內生的獎勵函數。

      • 模仿與演示學習(Imitation & Demonstration Learning):智能體通過學習高質量的范例來提升能力,尤其適用于有充足專家數據或可以自生成高質量軌跡的場景。學習來源可以是自我生成的演示(如 STaR)、跨智能體的演示(如從共享的經驗庫中學習),或是兩者的混合。

      • 基于種群的演化方法(Population-based & Evolutionary Methods):這種方法借鑒生物進化思想,同時維護多個智能體變體或團隊,通過選擇、變異、競爭等機制并行探索廣闊的解空間,從而發現傳統優化方法難以觸及的新穎策略與架構。其演化對象可以是單個智能體(如 Darwin G?del Machine 的開放式代碼進化),也可以是多智能體系統(如EvoMAC的「文本反向傳播」機制)。



      Where to Evolve?(在何處演化?)

      此維度明確了自進化智能體的應用場域,展示了其在不同類型任務中的演化路徑。

      • 通用領域演化(General Domain Evolution):這類智能體旨在成為多才多藝的數字助手,其演化目標是拓展在廣泛任務上的通用能力。實現這一目標的機制包括:

      • 記憶機制:智能體通過總結歷史成敗經驗,形成可復用的知識(如 Tips、Shortcuts),以應對未來的新任務。
      • 模型-智能體協同進化:智能體與其輔助模型(如獎勵模型、世界模型)共同進化,通過相互促進來提升整體性能和泛化能力。
      • 課程驅動訓練:系統能夠根據智能體的表現自動生成難度適宜的任務,形成一個自適應的「課程表」(如 WebRL),引導智能體由易到難地擴展能力。

      • 特定領域演化(Specialized Domain Evolution):這類智能體則專注于在某一垂直領域內「深耕」,通過演化成為該領域的專家。論文展示了其在多個領域的應用潛力:

      • 編碼(Coding):智能體可以自主修改代碼庫(如 SICA),或通過多智能體協作進行代碼生成、測試和優化。
      • 圖形用戶界面(GUI):智能體通過與桌面、網頁和移動應用的真實交互來學習,從失敗軌跡中反思,或自動從界面中挖掘功能,實現對圖形界面的精準操控。
      • 金融(Financial):智能體通過在模擬和真實環境中進行交易,不斷迭代和優化其量化策略與領域知識庫(如QuantAgent)。
      • 醫療(Medical):智能體在模擬醫院中「行醫」以提升診斷能力(如 Agent Hospital),或作為虛擬生物學家進行藥物靶點發現(如 OriGene)。
      • 教育(Education):智能體可以作為個性化導師,根據學生的反應調整教學策略(如 PACE),或作為教師助手,通過多智能體對抗來優化課程計劃。



      評估、挑戰與未來展望

      除了構建核心理論框架,該綜述還詳細探討了自進化智能體的評估范式。評估自進化智能體不能再局限于靜態的準確率,而必須考察其動態能力。

      論文提出了五大評估目標:適應性(Adaptivity)、知識保留(Retention)、泛化性(Generalization)、效率(Efficiency)和安全性(Safety),并將其評估模式分為靜態評估、短時程自適應評估和長時程終身學習評估,為衡量這一新物種的能力提供了標尺。





      最后,該綜述為領域的未來發展指明了方向,包括個性化 AI 智能體、提升泛化與跨域適應能力、構建安全可控的智能體、以及探索多智能體生態系統等關鍵挑戰。

      通過這份全面的綜述,研究者和開發者可以獲得一個結構化的視角,來理解、比較并設計下一代更強大、更魯棒的自適應智能體系統。正如文中所指出的,自進化智能體的發展是通往人工超級智能(ASI)的關鍵基石,而解決好其在演化過程中的安全性、泛化性與可控性等挑戰,將是未來研究的重中之重。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      手機中國
      2025-11-05 11:53:09
      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      爆角追蹤
      2025-11-05 19:18:19
      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      洲洲影視娛評
      2025-11-04 13:46:08
      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      大衛聊科技
      2025-11-05 13:47:37
      女子申請改名多次被拒,“我的名字”誰說了算?

      女子申請改名多次被拒,“我的名字”誰說了算?

      環球網資訊
      2025-11-05 10:51:03
      辣眼睛!湖南某醫院副院長和主任不雅視頻流出,沙發上藍布引關注

      辣眼睛!湖南某醫院副院長和主任不雅視頻流出,沙發上藍布引關注

      火山詩話
      2025-11-06 05:07:04
      中央紀委國家監委網站最新通報,5人被查

      中央紀委國家監委網站最新通報,5人被查

      魯中晨報
      2025-11-06 08:43:03
      杭州網紅“大逃亡”,網紅之都跌落神壇!

      杭州網紅“大逃亡”,網紅之都跌落神壇!

      財經三分鐘pro
      2025-11-05 13:58:59
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      科普大世界
      2025-11-05 11:06:27
      董秘翁鑫怡(女,1995年12月出生),被警告+罰款90萬元

      董秘翁鑫怡(女,1995年12月出生),被警告+罰款90萬元

      大風新聞
      2025-11-06 08:28:12
      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      兵國大事
      2025-11-04 17:30:59
      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      小喬古裝漢服
      2025-09-29 07:55:03
      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新京報
      2025-11-05 18:11:09
      新賽季最大牌外援!NBA超級中鋒第一次來CBA,能否改變爭冠格局?

      新賽季最大牌外援!NBA超級中鋒第一次來CBA,能否改變爭冠格局?

      籃球大陸
      2025-11-06 09:37:58
      翁帆女士受聘頂尖985大學

      翁帆女士受聘頂尖985大學

      雙一流高校
      2025-11-05 18:22:29
      退休多年后才發現:晚年幸不幸福,要看子女有無穩定的工作和婚姻

      退休多年后才發現:晚年幸不幸福,要看子女有無穩定的工作和婚姻

      小馬達情感故事
      2025-11-05 18:00:03
      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      金錯刀
      2025-11-05 12:08:15
      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      百態人間
      2025-11-06 05:50:03
      藏不住了!斷供率3.7%引恐慌,中國銀行緊急改報告刪數據

      藏不住了!斷供率3.7%引恐慌,中國銀行緊急改報告刪數據

      麥小柒
      2025-11-05 20:41:11
      2025-11-06 09:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      手機
      房產
      本地
      健康
      公開課

      手機要聞

      vivo S30系列成基數,OPPO Reno14系列最牛

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      超聲探頭會加重受傷情況嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产激情电影综合在线看| 亚洲av无码专区在线亚| 国产美女久久久亚洲综合| 四虎影视库国产精品一区| 亚洲精品日韩久久精品| 公天天吃我奶躁我的在线观看| 怀来县| 国产360激情盗摄全集| av色蜜桃一区二区三区| 亚洲av精选一区二区| 亚洲欧美综合中文| 婷婷丁香五月六月综合激情啪| 国产一区二区三区精美视频| 免费乱理伦片在线观看| a级免费视频| 在线高清免费不卡全码| 凸凹人妻人人澡人人添| 精品人妻蜜臀一区二区三区| 风流少妇树林打野战视频| 国产午夜福利视频合集| 热久在线免费观看视频| 忘忧草影视| 久热这里只有精品12| 欧美裸体xxxx极品| 国产精品爽爽va在线观看网站| 国产亚洲精品成人aa片新蒲金| 久久综合色一综合色88| 亚洲欧美日韩尤物AⅤ一区| 真人无码作爱免费视频| 无人去码一码二码三码区| 亚洲色成人网站www永久四虎| 国产h视频在线观看| 亚洲欧美日韩愉拍自拍美利坚| 女高中生自慰污污网站| 国产老熟女一区二区三区| 欧美成本人视频免费播放| 人妻一区二区三区三区| 99久久精品国产一区色| 成人国产乱对白在线观看| 在线精品视频一区二区| 午夜毛片不卡免费观看视频|