<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌AlphaEvolve太香了,陶哲軒甚至發了篇論文,啟發數學新構造

      0
      分享至



      機器之心報道

      機器之心編輯部

      著名數學家陶哲軒發論文了,除了陶大神,論文作者還包括 Google DeepMind 高級研究工程師 BOGDAN GEORGIEV 等人。

      論文展示了 AlphaEvolve 如何作為一種工具,自主發現新的數學構造,并推動人們對長期未解數學難題的理解。

      AlphaEvolve 是谷歌在今年 5 月發布的一項研究,一個由 LLMs 驅動的革命性進化編碼智能體。它可以發現極其復雜的算法,甚至跨越數百行代碼,遠超簡單函數的范疇。

      此前,陶哲軒多次表示,他一直在和 Google DeepMind 合作,探索 AlphaEvolve 的潛在數學應用。



      如今,與此相關的論文也已經發表。



      論文地址:https://arxiv.org/pdf/2511.02864v1

      接下來我們看論文內容。

      計算工具的出現,正在從根本上重塑數學發現的格局,它們能夠自主地探索數學空間并生成新的結構。

      AlphaEvolve 是這一演化過程中的重要一步,該系統展示了當大語言模型(LLM) 與進化計算和嚴格的自動化評估機制相結合時,它們能夠在大規模上發現顯式構造,其結果可以達到甚至超越許多長期數學問題中當前已知的最佳界限。

      為了展示 AlphaEvolve 廣度,研究團隊選擇了覆蓋數學分析、組合數學、幾何學與數論的 67 個問題。

      在多數任務中,AlphaEvolve 重新發現了已知最佳解,并在若干問題上取得了改進結果。

      在部分情況下,AlphaEvolve 甚至能夠將針對有限輸入值得到的結果泛化為適用于所有輸入值的通式。

      此外,該研究還將這一方法與 Deep Think 和 AlphaProof 結合,構建了一個更廣泛的框架,其中的證明助手與推理系統可以進一步實現自動化證明生成和更深入的數學洞察。

      這些結果表明,由大語言模型引導的進化搜索可以自主發現數學構造,補充人類直覺,在某些情況下甚至能匹配或超越現有最佳成果,展示了 AI 系統與數學家之間全新互動方式的潛力。

      本文還發現,在許多情況下,除了計算規模之外,為了讓 AlphaEvolve 輸出與已有文獻相當的結果,與傳統的數學研究方式相比,它幾乎不需要額外開銷:平均而言,使用 AlphaEvolve 搭建并準備一個問題的時間通常只需數小時。

      本文預計,在沒有任何先驗知識、信息或代碼的情況下,采用傳統方法完成同等規模的研究通常會耗費更長的時間。因此,他們將這一研究范式稱為大規模建構性數學(constructive mathematics at scale)。

      論文還提到,支撐 AlphaEvolve 高效性的一個關鍵數學洞見在于:它具備同時在多個抽象層面上運行與優化的能力。

      該系統不僅能夠優化某個數學構造的具體參數,還能進一步優化發現這些構造的算法策略本身。 這種元層級進化(meta-level evolution)代表了一種全新的遞歸形式:優化過程本身,成為了被優化的對象。

      舉例來說,AlphaEvolve 可能會進化出一個程序,這個程序會使用:

      • 一組啟發式規則(heuristics),
      • 一個 SAT 求解器,
      • 一個無收斂保證的二階優化方法,
      • 或者這些方法的任意組合。

      這種分層式的優化方法在 AlphaEvolve 處理復雜數學問題時尤為明顯(這些問題通常由用戶提出)。系統往往能夠為優化過程的不同階段,自動發現專門化的搜索啟發式策略。這種自發形成的階段性分工與策略優化,與人類數學家在研究與探索中的直覺性思維方式驚人地相似。

      值得一提的是,由于篇幅限制,本文沒有對每個問題的研究歷史進行全面回顧,而是為每個問題提供了相應的參考文獻,供讀者查閱已有的研究成果。

      人工智能與數學發現

      人工智能在數學發現領域的崛起,標志著人類在應對數學中最具挑戰性問題的方式上迎來了范式轉變。近年來的一系列突破性成果展示了 AI 在協助數學家方面的強大能力。例如:

      • AlphaGeometry 在標準時間限制內解出了 30 道奧賽幾何題中的 25 道;
      • AlphaProof 與 AlphaGeometry 2 在 2024 年國際數學奧林匹克(IMO)中取得銀牌成績,而改進版 Gemini Deep Think 框架在 2025 年 IMO 中更是獲得了金牌;
      • OpenAI 的模型也在同年取得了金牌表現。

      除了競賽表現,AI 也開始在真正意義上實現數學發現。例如:

      • FunSearch 在 cap set 問題中找到了新解,并提出了更高效的裝箱算法;
      • PatternBoost 推翻了一項存在 30 年的數學猜想;
      • 早期系統如 Graffiti 則以自動生成猜想著稱。

      此外,還有諸多工作聚焦于輔助數學家尋找數學命題的形式化或非形式化證明。

      與這些系統不同,AlphaEvolve 更側重于探索與發現,使其不僅能夠進行數學空間的探索,還能將發現結果結合形式化證明與嚴謹的數學驗證,實現從直覺發現到可驗證證明的完整閉環。

      進化算法尋找數學構造

      從本質上講,AlphaEvolve 是一種高度復雜的搜索算法。為了理解它的設計理念,我們可以從一個熟悉的概念開始。舉個例子:假設我們要解決這樣一個問題:在 50 個頂點的圖中,找到一個既沒有三角形、又沒有長度為 4 的環,并且邊數盡可能多的圖。

      一種經典做法是:從一個隨機生成的圖開始;然后反復進行微小的調整(例如,添加或刪除一條邊),以提升其得分,在這個例子中,得分可以定義為邊的數量,但若圖中出現三角形或 4 環則會被懲罰;如此繼續,直到無法再進一步改進為止。

      這種不斷優化、逐步逼近最優解的思想,正是 AlphaEvolve 復雜進化機制的基礎。



      第一個關鍵思想來自 AlphaEvolve 的前身 FunSearch 及其重實現版本:該思想的核心在于 —— 不在圖的空間中進行局部搜索,而是在生成這些圖的 Python 程序空間中進行搜索。

      具體來說,本文從一個簡單的程序出發,然后使用 LLM 生成許多與之相似但略有差異的程序(即突變體)。

      接著,運行每個程序,并對其生成的圖進行評估打分。

      一個自然的問題是:這種做法為什么會有效?畢竟,一次 LLM 調用的計算代價通常要遠高于簡單地添加一條邊或評估一個圖。這意味著,這種方法在探索候選解的數量上往往比傳統局部搜索少成千上萬倍。

      然而,這種在程序空間中搜索恰恰能帶來強大的優勢。許多優美的數學對象,都可以用簡短而優雅的程序來生成。即便某個問題只有一個唯一的最優構造,也可能存在多種自然的程序實現方式來生成它。相反,那些數量龐大、形態雜亂的局部最優圖,通常并不對應任何簡單的程序描述。

      因此,在程序空間中搜索相當于引入了一種簡潔性與結構性先驗,幫助算法避開復雜的局部最優點,朝著優雅且往往是最優的解前進。

      當然,在某些情況下,如果一個問題的最優解無法用簡單的程序描述,而必須依靠啟發式方法才能找到,AlphaEvolve 在這類任務中同樣表現出色。

      盡管如此,對于那些評分函數計算代價極低的問題,傳統方法憑借其純粹的暴力計算優勢依然難以被超越。為了解決這一問題,本文提出了一個新的思路:

      與其讓 AlphaEvolve 直接進化出生成構造的程序,不如讓它進化出搜索構造的程序。

      這就是本文所稱的 AlphaEvolve 的搜索模式。在所有以找到高質量構造為目標、而不太關注其可解釋性和泛化性的任務中,本文都采用了這種模式。

      在這種設定下,AlphaEvolve 種群中的每個程序都是一種搜索啟發式算法。每個程序都會被分配一個固定的時間預算(例如 100 秒),并被要求在這段時間內找到盡可能好的構造。該啟發式算法的得分,即為它在限定時間內所找到的最佳對象的得分。

      這種機制有效地解決了計算速度的不平衡問題:雖然生成一個新的搜索啟發式算法需要一次昂貴的 LLM 調用,但這次調用可以觸發一場極為廉價的大規模計算 —— 因為這個新生成的啟發式程序能夠在自身的運行過程中,獨立地探索數百萬個候選構造。

      研究人員強調,搜索過程不必每次都從零開始。相反,評估一種新啟發式算法的標準,是看它能否改進迄今為止找到的最佳構造。因此,該方法實際上是在進化一個由「改進器」函數組成的群體,從而創造了一個動態的、自適應的搜索過程。

      在初始階段,執行廣泛探索性搜索的啟發式算法可能更受青睞;而當接近一個好的解決方案時,執行巧妙的、針對特定問題進行優化的啟發式算法則可能占據主導。最終的結果通常是一個由專門的啟發式算法組成的序列,當它們串聯起來時,便能產生一個達到頂尖水平的構造。

      這種方法的缺點是搜索過程可能會損失可解釋性,但它所發現的最終對象仍然是一個定義明確的數學實體,可供后續研究。事實證明,這種新增機制似乎對更困難的問題特別有用,因為在這些問題上,單一的搜索函數可能無法自行發現一個好的解決方案。

      從實例到公式的泛化:泛化器模式

      上述搜索模式擅長為固定規模的問題(例如, = 11 的堆疊問題)尋找構造。除此之外,研究人員還試驗了一種更具挑戰性的「泛化器模式」。

      在這種模式下,系統被要求 AlphaEvolve 編寫一個能解決任意給定 值的程序。該程序的評估基于其在一系列 值上的表現。其目標是讓 AlphaEvolve 能夠通過觀察其(通常是)為較小的 找到的最優解,來發現一種模式,并將其泛化為適用于所有 的構造。

      這種模式更具挑戰性,但它也產生了一些最令人興奮的成果。在一個案例中,AlphaEvolve 為尼科迪姆問題(Nikodym problem)(見問題 6.1)提出的構造啟發了第三作者撰寫一篇新論文。

      另一方面,當使用搜索模式時,進化出的程序不容易被解釋。盡管如此,最終的構造本身是可以被分析的。在算術掛谷問題(arithmetic Kakeya problem)(問題 6.30)的案例中,這些構造啟發了第三作者的另一篇論文。

      構建由多種 AI 工具組成的流水線

      更引人注目的是,對于有限域掛谷問題(參見問題 6.1),AlphaEvolve 發現了一種有趣的通用構造。當這個程序化解決方案被輸入給名為 Deep Think 的智能體時,該智能體成功推導出了其正確性證明及其規模的閉式公式。

      隨后,這個證明在 Lean 證明助手中使用另一個 AI 工具 AlphaProof 進行了完全的形式化。

      這個結合了模式發現(AlphaEvolve)、符號證明生成(Deep Think)和形式化驗證(AlphaProof)的工作流,展示了專業化 AI 系統如何集成的具體范例。它揭示了一種未來潛在的方法論:通過結合使用多種 AI 工具(全自動或半自動),協助完成從模型建議的經驗觀察模式到經過形式化驗證的數學結果的整個過程。

      局限性

      研究人員還指出,盡管 AlphaEvolve 擅長解決那些可以清晰表述為優化一個適合「爬山」的平滑評分函數的問題,但在其他情況下它有時會遇到困難。特別是,研究中遇到了幾個 AlphaEvolve 未能達到最優或接近最優結果的實例,這些案例也會在下文報告。

      總體而言,作者發現 AlphaEvolve 在大規模應用于一系列廣泛且松散相關的問題(例如,堆疊問題或森多夫猜想及其變體)時最為有效。

      論文第 6 節詳細介紹了使用這種方法發現的新數學結果,以及研究中發現的 AlphaEvolve 未能找到先前已知最佳構造的所有示例。作者希望這項工作不僅能為這些特定問題提供新的見解,還能激勵其他科學家探索如何將這些工具應用于他們自己的研究領域。

      關鍵見解

      陶哲軒等人在探索 AlphaEvolve 的過程產出了幾項關鍵見解。

      關鍵的系統設計與交互組件

      驗證器的設計至關重要:它顯著影響系統的性能和所發現結果的質量。例如,優化器有時會更傾向于那些希望避免的、更穩定(平凡)的解。因此,設計一個巧妙的驗證器來避免這種行為,是發現新結果的關鍵。

      連續損失函數的優勢: 在某些情況下,采用連續(而非離散)損失函數被證明是指導進化搜索過程的更有效策略。以問題 6.54 為例,評分函數本可以被設計為計算配置中接觸圓柱體的數量(非法配置則為 -∞)。然而,通過觀察一個依賴于距離的連續評分函數,研究團隊實現了一個更成功、更快速的優化過程。

      提示與人類專家的決定性作用: 提示中給出的建議以及提示者的經驗是另一個重要組成部分。研究人員發現,隨著嘗試次數的增多,他們越發懂得如何向 AlphaEvolve 提問。例如,與直接嘗試尋找構造相比,在「搜索模式」下進行提示,能產生更高效的程序和更好的結果。

      此外,在作為特定問題領域專家的用戶手中,AlphaEvolve 的表現總是遠勝于非領域專家的用戶。提示中給予 AlphaEvolve 的專家建議對最終構造的質量有著重大影響,因為 AlphaEvolve 總是會試圖充分利用這些建議,同時保留其要點。研究強調,人類的專業知識與 AlphaEvolve 的計算能力相結合,才能共同帶來最佳的整體結果。

      實驗過程中的重要觀察

      在實驗過程中,研究團隊還觀察到了一些值得注意的現象,這些現象揭示了系統的行為模式和潛力。

      欺騙現象:系統有時會尋找問題設置中的漏洞或利用人為因素,而不是找到真正的解決方案。例如,當用離散版本逼近全局約束(如正性)時,會出現有漏洞的驗證器 (leaky verifier),或者系統會利用對廉價模型的不可靠 LLM 查詢。這凸顯了設計精心且穩健的評估環境的必要性。

      少即是多的泛化模式:當系統被提供一套約束更嚴格的輸入或特征時,算法的泛化能力反而得到了提高,這有助于促進發現廣泛適用的算法。擁有大量數據并不必然意味著更好的泛化性能。相反,當尋找能夠在廣泛參數范圍內泛化的可解釋程序時(如問題 6.29, 6.65, 6.1),研究人員通過僅向 AlphaEvolve 展示 n 值較小時的先前最佳解,限制了它能訪問的數據量。這種方法似乎更能鼓勵基本思想的涌現。

      跨問題訓練可顯著改善結果:當系統在相關問題或一系列相關問題實例上進行單次訓練時,效果會更好。例如,在探索幾何問題時,同時處理具有不同點數 n 和維度 d 的配置被證明是非常有效的。一個在特定 (n,d) 對上表現良好的搜索啟發式很可能成為其他配對的堅實基礎,引導系統走向更普適的原則。

      系統能力邊界與未來展望

      研究發現,AlphaEvolve 擅長發現那些已在當前數學能力范圍之內、但尚未被發現的構造。這些構造之所以未被發現,通常是因為需要大量時間和精力來尋找適用于特定問題的標準思想的正確組合。

      另一方面,對于那些需要真正新穎、深刻見解才能取得進展的問題,AlphaEvolve 可能不是合適的工具。

      展望未來,實現系統更大自主性(例如使 AlphaEvolve 能夠選擇自己的超參數 以動態調整其搜索策略)是重要的一步。

      AlphaEvolve 這樣的工具未來可用于系統性地評估大類數學界限或猜想的難度。這可能會帶來一種新的分類法,允許研究人員半自動地將某些不等式標記為 「AlphaEvolve-hard」 (AlphaEvolve 難題),表明它們對基于 AlphaEvolve 的方法具有抵抗性。

      反過來,其他問題則可能被標記為適合通過理論和計算機輔助技術進行進一步攻堅,從而更有效地指導未來的研究工作。

      更多細節請參看原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陜西省人社廳黨組書記、廳長蔡釗利赴西安市調研失業人員再就業幫扶工作

      陜西省人社廳黨組書記、廳長蔡釗利赴西安市調研失業人員再就業幫扶工作

      時尚的弄潮
      2025-11-07 12:56:14
      他是臥底、學霸、總理帶的兵

      他是臥底、學霸、總理帶的兵

      傳達室
      2025-11-06 15:39:26
      TA:阿隆索世俱杯期間曾進行釣魚測試,發現更衣室有人泄密

      TA:阿隆索世俱杯期間曾進行釣魚測試,發現更衣室有人泄密

      懂球帝
      2025-11-07 15:37:07
      涉嫌嚴重違紀違法!蘇州市委常委唐曉東,任上被查

      涉嫌嚴重違紀違法!蘇州市委常委唐曉東,任上被查

      政知新媒體
      2025-11-07 10:44:30
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      書雁飛史oh
      2025-11-06 19:05:31
      趙鴻剛決定手術!醫生表示傷勢嚴重不可能完全康復,眼睛存在風險

      趙鴻剛決定手術!醫生表示傷勢嚴重不可能完全康復,眼睛存在風險

      楊華評論
      2025-11-07 15:49:28
      211院校降為普通本科!

      211院校降為普通本科!

      老呂教你考MBA
      2025-11-06 09:55:53
      東方小孫離職,最郁悶的是明明,留下還是離開?

      東方小孫離職,最郁悶的是明明,留下還是離開?

      手工制作阿殲
      2025-11-07 12:33:20
      中檢鑒定師駐倉全檢,電商“雙十一”卷向“硬信任”

      中檢鑒定師駐倉全檢,電商“雙十一”卷向“硬信任”

      澎湃新聞
      2025-11-06 16:12:28
      國務院免去他原職!此前已空降地方,任省委常委

      國務院免去他原職!此前已空降地方,任省委常委

      上觀新聞
      2025-11-06 19:29:08
      4-4!趙心童兩連鞭戰平吳宜澤,國錦賽決賽席位爭奪存懸念!

      4-4!趙心童兩連鞭戰平吳宜澤,國錦賽決賽席位爭奪存懸念!

      世界體壇觀察家
      2025-11-07 16:50:13
      花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

      花掉三億人民幣,打撈一艘800年沉船,打開船艙后,所有人都懵了

      通鑒史智
      2025-11-01 07:24:00
      生死迷局!男子自駕青海失聯后續:行車記錄儀曝光,四疑點細思極恐

      生死迷局!男子自駕青海失聯后續:行車記錄儀曝光,四疑點細思極恐

      熱風追逐者
      2025-11-07 13:12:15
      莫斯科大面積停電:海王星導彈讓俄民眾嘗戰爭苦果

      莫斯科大面積停電:海王星導彈讓俄民眾嘗戰爭苦果

      世界探索者探索
      2025-11-06 21:28:25
      她是高鑫夫婦的女兒,不拍廣告不進娛樂圈,讀上海重點高中是學霸

      她是高鑫夫婦的女兒,不拍廣告不進娛樂圈,讀上海重點高中是學霸

      仙味少女心
      2025-11-05 06:29:43
      重慶談判記者問毛主席能否打敗老蔣,主席:你把蔣毛二字拆開看

      重慶談判記者問毛主席能否打敗老蔣,主席:你把蔣毛二字拆開看

      芊芊子吟
      2025-11-04 17:07:46
      老話說“柿子樹上一把刀,棗子樹上一根棍”,是啥意思?老祖宗的忠告該聽

      老話說“柿子樹上一把刀,棗子樹上一根棍”,是啥意思?老祖宗的忠告該聽

      農夫也瘋狂
      2025-10-17 21:22:31
      冠軍賽爆大冷!日本2大主力出局,世界冠軍被絕殺,悍將0-3慘敗

      冠軍賽爆大冷!日本2大主力出局,世界冠軍被絕殺,悍將0-3慘敗

      知軒體育
      2025-11-07 12:26:19
      白宮宣布大勝,中方后退4步,話音剛落,美政府簽下14億稀土大單

      白宮宣布大勝,中方后退4步,話音剛落,美政府簽下14億稀土大單

      絕對軍評
      2025-11-07 15:35:15
      為何說兩岸統一迫在眉睫?再晚了臺灣就“新加坡化”,等不及了!

      為何說兩岸統一迫在眉睫?再晚了臺灣就“新加坡化”,等不及了!

      顧史
      2025-11-06 21:21:48
      2025-11-07 18:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11672文章數 142500關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      白百何回應東京電影節爭議

      財經要聞

      荷蘭政府:安世中國將很快恢復芯片供應

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態度原創

      手機
      親子
      游戲
      藝術
      旅游

      手機要聞

      折疊屏手機哪家好?2025年五款主流旗艦全面對比與選購指南

      親子要聞

      開屏叭啦吧 | 記者要具備哪些技能?聽聽小朋友們怎么說

      《GTA6》PC配置疑似泄露!你覺得有幾分可靠?

      藝術要聞

      Donna Young:美國當代藝術家

      旅游要聞

      紅葉季上演“先抑后揚”,濟南紅葉谷賞秋本周末仍處于高峰期

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇被粗大的猛进69视频| 不卡免费一区二区日韩av| 亚洲不卡一区二区在线看| 精品国产福利久久久| 色欲国产精品一区成人精品| 亚洲精品成人综合色在线| 在线国产毛片| 亚洲综合天堂一区二区三区| 久久亚洲精品成人av秋霞| 艳妇臀荡乳欲伦交换在线播放| 亚洲精品日韩中文字幕| 中文字幕有码在线第十页| 天堂www在线中文| 亚洲AV无码破坏版在线观看| 日韩国产中文字幕精品| 蜜桃av色偷偷av老熟女| 亚洲国产v高清在线观看| 国产精品中文一区二区| 中日韩黄色基地一二三区| 亚洲欧美综合在线天堂| 亚洲中文精品一区二区| 久久久av男人的天堂| 国产精品久久久久久久专区 | 人妻伦理在线一二三区| av在线网站手机播放| 国产精品制服丝袜白丝| 绯色蜜臀av一区二区不卡| 国产精品护士| 国产精品人妻久久ai换脸| 国产睡熟迷奷系列网站| 久久天天躁狠狠躁夜夜av不卡| 无码人妻丰满熟妇啪啪欧美| 亚洲高清国产拍精品5G| 国产高清自产拍av在线| 中文字幕人妻中出制服诱惑| 日日躁夜夜躁狠狠躁超碰97| 永久免费av网站可以直接看的| 老司机精品成人无码AV| 在线国产毛片| 亚洲国产精品毛片av不卡在线| 广水市|