清華AIR團隊 投稿
量子位 | 公眾號 QbitAI
當AI不再只是解題機器,而能與人類并肩完成嚴謹的科研證明,這意味著什么?
清華大學科研團隊以自主研發的AI數學家系統(AIM)為協作伙伴,通過人機交互的模式成功解決了一項均勻化理論研究問題,形成約17頁數學證明。
該成果系統性驗證了AI從“數學解題工具”升級為“科研協作伙伴”的可行性,為復雜數學問題的突破提供了新路徑。
這一突破,也讓AI真正踏入了“原創科研”的核心地帶,為未來數學發現的方式打開了新的想象空間。
![]()
數學研究的“AI困境”
近年來,AI在數學領域的表現屢獲突破:
- Gemini憑借Deep Think技術達到國際數學奧林匹克(IMO 2025)金牌水平;
- o4-mini模型在專家級數學基準測試FrontierMath中超越人類平均團隊表現;
- GPT-5-Thinking協助研究者解決了量子計算領域的難題。
然而,這些成果多集中在“短時間、標準化”的競賽類任務中,與真實數學研究的需求存在巨大鴻溝。
當前主流AI系統在數學研究中存在明顯局限:FunSearch、AlphaEvolve等依賴問題的程序化表述,僅適用于部分數學領域;AlphaGeometry系列則聚焦幾何推理,難以覆蓋更廣泛的數學分支。
即便部分AI能提供碎片化見解,完整證明的構建與驗證仍需依賴人類,難以真正融入研究全流程。
該研究的核心目標正是打破這一困境,通過構建“人類分析+AI推導”的協同范式,讓AI的推理能力與人類的邏輯分析能力、知識經驗儲備形成互補,共同攻克單一主體難以突破的復雜數學難題。
五大模式為AI輔助數學研究提供“操作指南”
均勻化理論是連接材料科學、流體力學與數學的核心橋梁,其核心是分析異質材料微觀結構變化對宏觀力學行為的影響。
本研究聚焦的具體問題為:當周期性分布的流體夾雜尺度趨近于零(ε→0)時,如何推導耦合Stokes-Lamé系統的極限均勻化方程,并嚴格證明原解與極限解的誤差估計。
該問題來源于真實數學研究,具有顯著挑戰性。
最終,團隊通過人機協同不僅得出極限方程,更精確證明了誤差階數 α=1/2,形成約17頁數學證明。
![]()
△Stokes-Lamé系統
具體來看,團隊在人機協同模式下,通過對實驗結果的迭代分析,將原問題拆解為六個子問題(見下圖),通過系統性的人機協同工作對六個子問題進行各個擊破,最終在此基礎上獲得原問題的完整證明。
AIM系統在幾個最困難子問題的證明過程中作出非平凡貢獻。
![]()
△子問題拆解及人機分工
在研究過程中,團隊并非簡單“使用AI”,而是系統性總結出了五大高效人機交互模式,為數學家運用AI開展研究提供了可復用、可推廣的實踐框架:
1、直接提示(Direct Prompting)
通過“定理提示”(提供關鍵定理及適用條件)、“概念引導”(明確證明框架與策略方向)、“細節優化”(校準符號定義與局部推導錯誤),引導AIM聚焦核心推理路徑,減少無效探索。
例如,在“Cell Problem”的分析中,人類專家向AIM提供了相關理論方法的輔助引理,使其推理錨定在嚴謹的數學基礎上,避免邏輯偏離。
2、理論協同應用(Theory-Coordinated Application)
將某一數學分支的完整理論體系(定義、引理、推理規則)打包為“知識包”提供給AIM,使其在預設理論框架內開展多步驟連貫推導。
在證明“Cell Problem”的正則性時,人類專家提供了“Schauder Theory”的全套核心引理,AIM據此逐步推導,最終得出符合預期的結論,展現出對復雜理論體系的應用能力。
3、交互式迭代優化(Interactive Iterative Refinement)
遵循“AI輸出→人類診斷→反饋修正→AI再推理→…”的循環,逐步完善證明鏈條。
在誤差估計階段,人類專家發現AIM的證明存在邏輯缺口后,通過對問題本身和實驗結果的分析,拆分了多個中間問題,最終讓AIM自主修正證明結論,形成完整推理鏈。
4、明確運用邊界(Applicability Boundary and Exclusive Domain)
針對AIM當前難以勝任的任務(如復雜幾何構型構建、多尺度符號推理),由人類主導完成,避免資源浪費。
例如,“雙尺度展開”需精準處理x、y雙尺度變量的導數分解,AIM易出現符號混淆,人類專家通過手動推導確保這一基礎環節的正確性,為后續AI推導掃清障礙。
5、輔助優化策略(Auxiliary Optimization)
通過多輪嘗試篩選最優證明(如利用LLM的輸出隨機性)、提供目標結論約束推理方向(如明確誤差估計的預期形式)、根據任務類型選擇適配模型(如o4-mini擅長框架構建,DeepSeek-R1擅長細節推導),進一步提升AI輸出的可靠性與效率。
舉例來看,在“Regularity of Cell Problem”這一子問題的證明過程中,人類專家明確引入了來自Schauder Theory的輔助引理,并將這些引理作為提示信息提供給AIM。
![]()
△人類專家將Schauder Theory的輔助引理提供給AIM
通過這種方式,人類專家引導AIM在推導后續結論時運用這些引理,從而有效構建并約束其推理過程,使其朝著得出有效且完整的論證方向推進。
在該提示的引導下,AIM的輸出結果表明,其能主動且恰當地整合提示中包含的信息,并執行正確的推導流程。
![]()
△AIM輸出結果
17頁證明背后的三重突破
本研究并非局限于單一問題的解決,更在理論范式、實踐驗證與方法指導三方面取得突破,為數學研究與AI的深度融合提供基礎。
價值一:驗證人機協同數學研究范式
團隊深度驗證“人類引導+AI推理”的協同研究模式,將AI的推理能力與人類數學工作者的知識經驗和邏輯推理系統性融合。
這種協作模式,拓寬了數學工作者的能力邊界,也進一步提高了AI證明數學理論的實驗表現。
價值二:攻克均勻化理論難題
團隊給出了這項均勻化問題的長達17頁的完整證明。
該證明的很大一部分內容由AI生成,其在整個證明過程中做出了非平凡貢獻,充分體現了人機協同范式在解決復雜、研究級數學問題方面的潛力。
價值三:系統梳理交互模式
團隊對人機交互模式進行了系統化梳理,并提煉出具有實證價值的見解。
這些見解可為未來人工智能輔助數學研究框架的設計提供參考,同時也能為希望在自身研究中利用AI的數學家提供實際參考意見,幫助數學工作者快速掌握與AI的協作研究,加速AI與數學科研的融合落地。
從協同到自主:AI數學研究的下一階段目標
AI在數學研究中的比較優勢體現在基于現有理論的分析、搜索與適配方面,例如自動拆解問題、梳理文獻、優化已知方法等。
與之相對,數學理論的核心突破當前仍依賴于人類的原始直覺與抽象思維能力,如提出新概念、構建新框架、設計新的證明范式等,以解決長期懸而未決的難題。
由于這類突破對嚴謹性要求極高,而當前AI存在幻覺輸出(生成看似合理卻錯誤的內容)與置信度誤判(對錯誤結論過度自信)等問題,因此完全自主的AI證明目前仍無法實現,分步的人工驗證仍是必不可少的環節。
基于現有研究發現,團隊提出了未來研究的兩個重要方向:
深化并系統化人機交互模式
團隊已提煉出一套能顯著加速數學理論進展、拓展研究者能力邊界的交互模式。
下一步,團隊將研究這些模式能否遷移到其他數學領域,以及能否針對特定領域需求設計更豐富、更高效的交互模式。
同時,團隊將從多個維度對人機交互框架進行系統化構建,包括但不限于問題拆解、過程監督、誤差修正、定理引用及依賴管理。
這需要基于大量實驗分析制定嚴格的分類標準,并明確交互模式效果等信息,以確保所構建系統的嚴謹性。
基于交互反饋優化AIM系統
團隊的長期研究目標是實現數學定理證明的自動化,因此AIM系統架構的迭代優化既關鍵又具內在挑戰性。
通過人機協同的定理證明實驗,團隊已明確智能體擅長的任務類型與存在困難的任務類型。這些積累的見解為系統設計的后續迭代提供了依據。
團隊將以這些不足為出發點,嘗試提出訓練方法以提升模型的推理能力,進而改善實驗表現,從而增強大型語言模型在數學理論研究領域的能力。
論文鏈接:
https://arxiv.org/abs/2510.26380
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.