<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      LSTM之父Jürgen再突破,「赫胥黎-哥德爾機」讓AI學會自己進化

      0
      分享至




      機器之心報道

      編輯:冷貓、陳陳

      實現通用人工智能的一大終極目標就是創建能夠自我學習,自我改進的人工智能體。

      這個目標已經是老生常談了。其實在 2003 年,能夠自我改進的智能體的理論模型就已經由著名的「現代 AI 之父」Jürgen Schmidhuber 提出,稱為哥德爾機。

      哥德爾機是一種自我改進型通用智能系統理論模型,設計靈感來自于哥德爾(Kurt G?del)的不完備性定理。它的核心思想是:機器能夠像數學家一樣,通過形式證明自身程序的改進在長期內將帶來更高收益,然后安全地修改自己。

      通俗來說,就是一個「能改寫自己」的自我進化的智能體。

      而在最近,Jürgen Schmidhuber 對當年提出的理論哥德爾模型進行了一次全新的嘗試,構建了赫胥黎 - 哥德爾機,能夠在 SWE-Bench Lite 上與官方驗證的最佳人類設計的智能體相媲美。



      Jürgen Schmidhuber 是一名德國計算機科學家,以人工智能、深度學習和人工神經網絡領域的成就而知名,現任達勒?莫爾人工智能研究所(IDSIA)聯合主任,阿卜杜拉國王科技大學人工智能研究院院長。

      1997 年,Jürgen Schmidhuber 發表了長短期記憶網絡(LSTM)論文。2011 年,Jürgen Schmidhuber 在 IDSIA 的團隊 GPU 上實現了卷積神經網絡(CNN)的顯著加速,這種方法基于楊立昆等人早期提出的 CNN 設計 ,已成為計算機視覺領域的核心。



      • 論文標題:Huxley-G?del Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
      • 論文鏈接:https://arxiv.org/abs/2510.21614
      • Github 鏈接:https://github.com/metauto-ai/HGM

      該研究基于如下發現:編碼智能體通過編輯自身代碼來實現自我改進,通常采用一種樹形結構來記錄修改過程,其擴展策略傾向于選擇在軟件工程基準測試中得分更高的智能體,并假設高分意味著其后繼的自我修改也更有可能成功。

      然而,研究者發現,一個智能體真正的自我改進潛力與其當前的基準測試性能之間存在著脫節。他們將這個現象命名為「元生產力 - 性能不匹配」。

      受赫胥黎譜系( clade)概念啟發,Jürgen 等人提出了 CMP(clade-level metaproductivity,譜系元生產力)。該指標通過聚合一個智能體所有后代的性能來衡量其潛力,而非只看其自身分數。

      本文證明了在自我改進編程智能體的開發環境中,只要能夠獲取真實的 CMP,就足以模擬哥德爾機在特定假設下的行為方式。

      進一步的,本文提出的赫胥黎 - 哥德爾機(HGM)通過估計 CMP 并以其為指導,可以在自我修改的樹結構中進行搜索。

      在 SWE-bench Verified 和 Polyglot 基準測試中,HGM 不僅超越了先前的自我改進編程智能體方法,同時消耗的實際運行時間更少。

      更重要的是,HGM 展現出向其他編碼數據集和大語言模型的強大遷移能力。使用 GPT-5-mini 在 SWE-bench Verified 上通過 HGM 優化的智能體,在 SWE-bench Lite 上使用 GPT-5 進行評估時,達到了人類水平的表現,與經過官方驗證的最佳人工設計編程智能體的結果相當。



      赫胥黎 - 哥德爾機器

      研究團隊構建了赫胥黎–哥德爾機(Huxley–G?del Machine,HGM)—— 一種利用譜系層級(clade-level)統計特性來近似哥德爾機的自我改進型機器。

      HGM 的核心思想是元生產力(metaproductivity)—— 即衡量一個智能體提升自身「自我改進能力」的能力,這種能力的增強會在長期上帶來更優的后代智能體性能。

      原始哥德爾機

      原始的哥德爾機是一種通用任務求解器,它在理論上能夠在任意可計算的環境中,針對給定目標函數,最優地執行所有可證明的自我改進。

      它的實現方式是運行一個「證明搜索器(proof searcher)」,持續尋找能夠形式化證明某種自我修改會帶來更高期望效用(expected utility)的證明。一旦找到這樣的證明,系統便會執行相應修改,并永久性地改變自身代碼。

      哥德爾機的理論分析明確考慮了兩個現實約束:

      1. 智能體只有一次生命(即沒有可重復的試驗);

      2. 證明一個自我改進會消耗實際時間和資源,而這些資源本可以用于直接獲取獎勵。

      元生產力的指標

      研究團隊提出了兩種衡量元生產力的指標:

      1. 全局元生產力(Global Metaproductivity,GMP):衡量進化一個給定智能體后,對整個智能體譜系(agent tree)的總體元生產力提升程度。此指標較為通用,但難以操作化或精確估計。

      給定一個策略 π,為了量化某個智能體的自我修改對系統性能的影響,定義:



      其中: 是智能體樹;a ∈ 為當前節點;Score_π 是對智能體進行最終選擇評分的函數; 策略 π 從當前樹出發展開完整的搜索軌跡,生成最終的智能體存檔 _B;軌跡的分布由 p_π 給出。

      GMP 因此反映了整個系統的長期自我改進潛力,包括「改進自我改進能力本身」的元層次改進。

      2. 譜系元生產力(Clade Metaproductivity,CMP):衡量從某個特定智能體出發(即其譜系)展開進化的潛在前景。

      然而,盡管 GMP 能捕捉策略的全局潛力,但其范圍過于廣泛,難以在實踐中具體化。理論上,一個智能體的自我修改甚至可能通過引入新信息影響其祖先節點的期望效用。

      原始哥德爾機的全局最優性來自其對「是否接受自我修改」的判定,只關注那些在形式上可證明會帶來進一步自我改進潛力的修改。

      基于這一觀察,研究團隊定義了 GMP 的局部變體 —— 譜系元生產力(CMP),它聚焦于以某個智能體為根的子樹(即其譜系,clade):



      其中 C (_B, a) 表示在樹 _B 中以節點 a 為根的子樹(即譜系)。

      CMP 含有關于未來自我進化過程的非貪婪信息(non-greedy information),因此能指導那些不僅旨在提升直接性能、還旨在改進「自我改進能力」的策略。

      赫胥黎–哥德爾機(HGM)

      該模型通過基于 CMP 估計值的 Thompson 采樣 策略來引導自我改進搜索,從而在實踐中實現了「近似哥德爾機」的自演化學習過程。

      現有方法通常以編程任務的基準性能作為指導指標,將任務成功視為自我改進潛力的體現。然而,這種假設過于貪婪(greedy):它只評估一次修改的即時效用,而忽略了這種修改對未來自我改進能力的長期影響。

      研究團隊將這種差距稱為 「元生產力 — 性能不匹配」,即短期任務表現與長期自我改進能力(以 CMP 衡量)之間的偏離,核心目標是通過推導 CMP 的估計量來建模這種長期的全局依賴關系。

      具體而言,通過定義 HGM 的三個子策略來描述整個框架。

      擴展策略

      HGM 算法的核心是其「擴展選擇準則」。研究團隊使用譜系中智能體經驗性能的加權平均值來估計 CMP。HGM 的設計會為效用更高的智能體分配更大的權重。

      形式化地,設當前固定的智能體存檔為 ?,n_success (a) 為智能體 a 通過的測試數,而 n_failure (a) 是智能體 a 未通過的測試數。定義譜系統計量:



      由此定義 CMP 估計量:



      在譜系層面而非個體層面評估生產力有若干優勢:

      • 它更符合自我改進目標 —— 即使祖先性能一般,只要后代持續改進,它仍具有高價值;停滯的譜系則自然被降權。
      • 聚合整個譜系的數據可顯著提高統計穩定性,相比單節點結果更穩健,尤其適用于評估成本高、基準數據稀缺的情境。



      選擇策略

      最后,智能體需要在「擴展」與「評估」之間進行選擇。HGM 將評估與擴展解耦,并將其視為獨立步驟。

      為了確定何時進行評估或擴展,研究者們借鑒了「無限臂賭博機(infinite-armed bandit)」的思想。該問題刻畫了在探索新臂與重復采樣已知臂之間的平衡:

      • 「評估」對應于采樣現有臂(已有智能體);
      • 「擴展」對應于引入新臂(創建新智能體)。

      最終,研究者采用 UCB-Air 策略,當 N?? ≥ |?| 時,在時刻 t 添加新智能體。

      實驗結果

      元生產力 - 性能失準

      本節中的實驗旨在實現兩個目的:(i) 提供 MPM(Metaproductivity-Performance Misalignment,元生產力 - 性能失準)問題的證據;(ii) 評估 HGM 的估計量是否比 DGM 和 SICA 采用的效用指標更可靠。

      表 1 總結了三種估計量與 CMP(目標值)之間的相關性。SICA 和 DGM 的估計量獲得了正皮爾遜相關系數:在 SWE-Verified-60 上分別為 0.444 和 0.285,在 Polyglot 上分別為 0.274 和 0.383,這表明它們與目標值僅存在弱對齊,即存在 MPM 問題。





      評估 HGM 的自我改進能力

      在這一實驗中,本文將 HGM 與兩種最先進的自我改進編程方法(DGM 和 SICA)進行了比較。

      結果如表 2 所示,HGM 在性能與效率兩個關鍵維度上,均顯著超越了現有的自改進方法(DGM 和 SICA),確立了其優越性。

      • 在 SWE-Verified-60 基準測試中,HGM 發現的智能體取得了 56.7% 的最高準確率。
      • 在 Polyglot 基準測試中,HGM 同樣以 30.5% 的準確率領先。

      在效率上:

      • HGM 在完成 800 次評估所消耗的 CPU 時間遠少于基線方法,顯示出極高的計算效率。
      • 在 Polyglot 上,HGM 比 DGM 快 6.86 倍,比 SICA 快 1.65 倍。
      • 在 SWE-Verified-60 上,HGM 比 DGM 快 2.38 倍。

      綜上所述,HGM 配備了更好的效用估計器和異步擴展 - 評估迭代,與 DGM 和 SICA 相比,它是一種更有效的自我改進機制。



      HGM VS 人類

      經過 8000 次評估后,HGM 發現了一個能解決 61.4% 任務的優化智能體,超越了 SWE-Verified 排行榜上基于 GPT-5-mini 的最佳人工設計智能體。這些結果證明了 HGM 在相同模型約束條件下與成熟人工設計基線競爭的巨大潛力。

      表 3 展示了 HGM 的 「best-belief」 SWE-Verified 智能體在 SWE-Lite 基準測試上的泛化結果。該在 SWE-Verified 上得到的最佳 HGM 智能體,在 filtered(完全未見數據)設置下取得了 40.1% 的成績,在標準設置下取得了 49.0%。與其初始版本(分別為 34.8% 和 44.0%)相比,這一提升證明了 HGM 的自我進化機制確實能夠提升通用編程能力,而不僅僅是對優化集的過擬合。



      HGM 發現的智能體展現出卓越的跨模型泛化能力:當將其骨干模型從 GPT-5-mini 替換為更強大的 GPT-5 時,其強勁性能得以保持。在 SWE-Bench Lite 基準測試中,該智能體的表現與排行榜上最先進的人工設計智能體相當。

      • 在官方 SWE-Bench Lite 排行榜上,其性能超越了所有其他經過官方結果驗證的智能體。
      • 在精心篩選的 SWE-bench Filtered 測試集上,僅比最佳模型少解決一個任務。

      這一遷移實驗的成功,強有力地證明了:HGM 自我進化出的智能體設計原則是普適的,其改進并非依賴于某個特定模型。此外,本文還發現性能提升源于智能體自身能力的真實、本質的增強,而非對特定數據集或大語言模型的過擬合。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      A股:兩個信息落地,明天,重要時刻來了!

      A股:兩個信息落地,明天,重要時刻來了!

      風風順
      2025-11-06 03:30:03
      關于2025年美國州與地方選舉、國會補選的情況介紹

      關于2025年美國州與地方選舉、國會補選的情況介紹

      寰宇大觀察
      2025-11-05 16:01:24
      南非大選驚天逆轉:腐敗總統“王者歸來”,30年執政神話破滅

      南非大選驚天逆轉:腐敗總統“王者歸來”,30年執政神話破滅

      云上烏托邦
      2025-11-04 17:15:48
      跳水界再出黑馬!王偉瑩勇奪單人冠,采訪意外透露全紅嬋真實狀態

      跳水界再出黑馬!王偉瑩勇奪單人冠,采訪意外透露全紅嬋真實狀態

      東方不敗然多多
      2025-11-06 12:34:27
      泡泡瑪特新品出低級錯,“MART”印成“MAET”,客服:是正品,已在核實處理

      泡泡瑪特新品出低級錯,“MART”印成“MAET”,客服:是正品,已在核實處理

      界面新聞
      2025-11-06 13:14:22
      這是什么邪修?新勢力零跑月銷7萬輛

      這是什么邪修?新勢力零跑月銷7萬輛

      電動汽車觀察家
      2025-11-05 11:03:38
      被罵了25年“爛片鼻祖”,憑啥現在封神?

      被罵了25年“爛片鼻祖”,憑啥現在封神?

      陳天宇
      2025-11-06 00:59:26
      港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

      港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

      木子愛娛樂大號
      2025-07-05 09:37:33
      德國經濟部對抗中國的稀土管制政策,“你無權過問我們怎么用”,遭本國企業打臉

      德國經濟部對抗中國的稀土管制政策,“你無權過問我們怎么用”,遭本國企業打臉

      流年拾光
      2025-11-01 16:49:14
      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      美國稱:中國不可怕,可怕的是,中國淘汰4000年的東西他們還在用

      南宮一二
      2025-11-04 16:14:07
      國民黨新人事公布“柱系”班師回朝,郝龍斌的美女智囊掌管國際部

      國民黨新人事公布“柱系”班師回朝,郝龍斌的美女智囊掌管國際部

      海峽導報社
      2025-11-06 16:39:06
      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      不裝了?面對解放軍武力奪臺,鄭麗文語出驚人,喊出“武力保臺”

      趙釔是個熱血青年
      2025-11-05 17:29:23
      圓明園“馬首”被賭王捐給祖國后,專家拍了X光,有了意外發現

      圓明園“馬首”被賭王捐給祖國后,專家拍了X光,有了意外發現

      孔孔說體育
      2025-11-05 07:00:53
      故事:云南黑老大調戲一對蜜月夫妻,不料踢到鐵板,結局大快人心

      故事:云南黑老大調戲一對蜜月夫妻,不料踢到鐵板,結局大快人心

      二十一號故事鋪
      2024-09-28 12:40:03
      叛逃臺灣最高將領張清榮:蔣介石親自迎接,為何不到一年被槍決

      叛逃臺灣最高將領張清榮:蔣介石親自迎接,為何不到一年被槍決

      顧史
      2025-11-05 04:57:32
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      小豫講故事
      2025-11-05 06:00:03
      門當戶對!河南濮陽一對新人住同一小區單元“門對門”,新郎騎搖搖車接親,雙方雖然是鄰居但此前20多年不相識

      門當戶對!河南濮陽一對新人住同一小區單元“門對門”,新郎騎搖搖車接親,雙方雖然是鄰居但此前20多年不相識

      極目新聞
      2025-11-06 17:25:10
      172cmD杯女孩,撩走肌肉猛男,網友:沒X生活的我哭暈了…

      172cmD杯女孩,撩走肌肉猛男,網友:沒X生活的我哭暈了…

      健身迷
      2025-10-16 10:10:40
      印尼采購殲10板上釘釘,國防部就差明說了,態度和之前截然不同

      印尼采購殲10板上釘釘,國防部就差明說了,態度和之前截然不同

      boss外傳
      2025-11-05 20:00:03
      女子申請改名多次被拒,“我的名字”誰說了算?

      女子申請改名多次被拒,“我的名字”誰說了算?

      環球網資訊
      2025-11-05 10:51:03
      2025-11-06 22:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      男子到堰塘釣魚時觸碰高壓線身亡 供電公司被判賠37萬

      頭條要聞

      男子到堰塘釣魚時觸碰高壓線身亡 供電公司被判賠37萬

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      藝術
      本地
      親子
      教育
      公開課

      藝術要聞

      預定年度十佳!49歲的舒淇,殺瘋了

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      親子要聞

      卵泡不破裂怎么調理最好?卵子質量非常差有補救的辦法嗎?

      教育要聞

      最后機會!多地允許考研補報名!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久热天堂在线视频精品伊人| 亚洲国产综合精品 在线 一区| 看免费真人视频网站| 精品久久久久无码| 成人啪啪高潮不断观看| 久久无码专区国产精品| 久久综合97丁香色香蕉| 国产乱码一区二区三区| 婷婷色香五月综合缴缴情香蕉| 亚洲美女厕所偷拍美女尿尿| 天堂av在线一区二区| 狠狠色综合久久狠狠色综合| 国产成人免费ā片在线观看| 九九热视频在线免费观看| 亚洲国产成人久久77| 久久中文字幕日韩无码视频 | 99精品热在线在线观看视| 砚山县| 摸丰满大乳奶水www免费| 粗大挺进朋友人妻淑娟| 国产成AV人片久青草影院| 99在线 | 亚洲| 久久精品国产福利一区二区| 看全色黄大色黄大片 视频| 天天干天天干| 成人午夜在线观看日韩| 免费VA国产高清大片在线| 元氏县| 亚洲一本大道在线| 不卡在线一区二区三区视频| 国产95在线 | 欧美| 国产成人亚洲精品在线看| 亚洲伊人成无码综合网| 亚洲综合天堂一区二区三区| av高清无码 在线播放| 亚洲国产一区二区在线| 无码粉嫩虎白一线天在线观看| 色猫咪av在线观看| 国产精品伦人一久二久三久| 欧美三级中文字幕在线观看 | av在线播放无码线|