網易首頁 > 網易號 > 正文申請入駐

AI首勝人類博士，頂會論文秒變代碼！港大90后開源刷爆8k星

2025-11-01 17:50:35　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇好困

【新智元導讀】香港大學黃超團隊開源的DeepCode在「論文復現代碼」方面，首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學習博士，并領先Claude Code、Cursor等先進的商用代碼智能體。

在AI領域，學術論文往往承載了算法、模型架構等方面的最前沿突破。

但想要真正理解論文的核心知識，并成功復現其中的算法和實驗結果，卻經常面臨巨大挑戰。

問題的主要癥結，在于「關鍵實現細節」上的缺失！

現實中論文作者通常將復雜的算法邏輯高度抽象化為幾行數學公式，省略了真正影響成敗的核心細節，比如：

超參數的具體取值范圍、訓練過程中的技巧性調整、數據預處理的細節步驟、網絡初始化策略等。

然而正是關鍵實現要點上的缺失，導致了理論與實踐之間的巨大鴻溝。

就連資深研究員也經常對此束手無策。

怎么破？

近日，香港大學黃超教授團隊開源的DeepCode，為這一難題的解決提供了超強的AI利器。

它不僅能夠分析論文內容，理解算法邏輯，還可以自動生成可運行的代碼。

DeepCode演示

DeepCode視覺交互界面

在基準測試中，DeepCode在復現成功率和代碼質量方面表現出眾，在多項指標上超過了頂級大學的機器學習博士。

DeepCode自今年7月發布首個版本——DeepCode v1.0.0以來便備受關注，并登上 GitHub Trending榜首，斬獲近8千星標（截至11月1日數據）。

開源鏈接: https://github.com/HKUDS/DeepCode

四大基準測試全面領先

研究人員將DeepCode放在以下四大基準測試中進行比較：

人類專家；
最先進的商業代碼智能體；
科學代碼智能體；
基于大模型的智能體。

結果顯示，DeepCode均拿到了最高分。

首超人類專家：75.9% vs 72.4%

在OpenAI發布的PaperBench基準測試中，DeepCode的總體準確率為75.9%，超過參與評測的人類專家組72.4%的成績。

PaperBench的基準測試規格如下：

數據集來源：OpenAI官方發布的標準化評測基準；
任務規模：20篇ICML2024會議論文的完整復現；
評估維度：8316個獨立可評分組件；
評分機制：SimpleJudge分層加權評估系統；
任務復雜度：要求從論文文本到可執行代碼的端到端實現。

為確保實驗的科學嚴謹性，研究團隊還建立了高質量的人類專家基線。

首先是嚴格的人類專家資質標準。

這些專家均來自8所頂尖研究型大學的機器學習博士（在讀/已畢業博士學位）。

8所大學分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

此外，研究團隊還采用了嚴格的人類專家篩選流程：

首先，進行簡歷預篩選和學術背景驗證；

接著，實施機器學習理論知識的標準化測試；

然后，評估Git版本控制和軟件工程實踐能力；

最后，驗證候選人在論文復現任務中的完整技能鏈。

以上篩選流程確保所有參與者都具備從理論理解到代碼實現的全流程能力。

實驗環境配置如下：

計算資源：NVIDIA A10 GPU標準配置，部分使用A100；
開發時間：4周彈性開發周期；
工具權限：無限制使用ChatGPT、GitHub Copilot等商業AI助手；
嘗試機制：每論文3次獨立復現機會，采用best@3評分策略。

以上實驗結果充分證明：

面對需要深度理解和長期開發的復雜任務，即使人類專家可以充分利用各種AI輔助工具，DeepCode仍能在代碼質量和準確性方面達到更高的水平。

這表明DeepCode不僅達到而且超越了專家級的代碼復現能力，也意味著自主科學軟件工程領域的一個重要里程碑。

優于現有AI Coding：84.8% vs 58.7%

在同一基準上，研究人員從20篇論文中隨機抽取5篇，將DeepCode與當前主流商用代碼智能體進行了系統性的性能對比。

在評測中DeepCode展現出明顯領先優勢：

DeepCode得分84.8% ，領先Claude Code（58.7%）約26.1個百分點。

為確保測試的公平性和權威性，所有參與評測的商業代碼智能體均配備了當前最先進的基礎模型：Claude 4.5 Sonnet-think和GPT 5 codex-high。

結果提示性能差距主要來自多智能體架構設計，而非單純的基礎模型差異。

此外，在科學代碼智能體、基于大模型的智能體兩項評測中，DeepCode同樣保持領先：

與目前最先進的科學代碼復現框架PaperCoder（51.1%）相比，DeepCode的復現率達到了73.5% ，提升了22.4個百分點。

這一顯著的提升驗證了研究團隊結合規劃、分層任務分解、代碼生成和迭代調試的多模塊架構優于更簡單的基于流水線的方法。

與性能最佳的大模型智能體（43.3%）相比，DeepCode（73.5%）提升了30.2個百分點。

這表明，對于復雜的代碼復現任務而言，復雜的代理支架（而不是延長推理時間或更大的模型）至關重要。

DeepCode三大核心能力

Paper2Code（論文→代碼）

輸入：學術論文PDF文檔；
輸出：生產級代碼實現+完整測試套件+詳細技術文檔。

DeepCode的核心優勢在于自動解析復雜數學公式、理解算法邏輯、生成可運行的高質量代碼，可以幫助科研人員快速復現SOTA算法、驗證理論創新、加速研究進展等。

Paper2Code

Text2Web：（想法→網頁）

輸入：自然語言描述的界面需求和功能期望；
輸出：響應式前端頁面+現代化UI設計+完整交互邏輯。

DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設計規范的界面，適用于快速原型驗證、MVP產品開發、創業想法落地等場景。

前端實現

Text2Backend：（需求→服務）

輸入：后端功能需求和業務邏輯描述；
輸出：高性能API接口 + 優化數據庫設計 + 可擴展系統架構。

DeepCode可以自動選擇最佳技術棧、考慮性能和安全性、支持云原生部署，適用于微服務快速開發、遺留系統重構、企業數字化轉型等場景。

DeepCode的核心技術框架

DeepCode采用系統化的三階段框架，將復雜的代碼生成任務分解為架構藍圖構建、代碼實現和自動驗證三個步驟，通過多智能體協作實現從文檔到可執行代碼的自動轉換。

階段一：架構藍圖構建

該階段將冗長的文檔規范轉化為結構化的架構藍圖，通過層次化內容分割、多智能體深度分析、架構藍圖融合三個關鍵步驟解決長文檔理解的挑戰。

在多智能體深度分析環節，采用概念智能體、算法智能體兩個專業智能體并行深度分析文檔的不同維度，確保了既有全局視野又有具體實現細節。

代碼規劃智能體融合以上兩個分析智能體的深度輸出，協調高層架構與底層規范，解決潛在的不一致性。

通過智能化的融合過程，最終生成完整的架構藍圖，為后續代碼生成提供了詳細的指導。

階段二：自動化代碼構建

該階段基于構建完成的架構藍圖進行代碼倉庫的系統化構建，通過雙重機制設計解決大規模代碼庫中的跨文件一致性維護和領域知識缺失的核心挑戰。

階段三：動態驗證與優化

該階段構建了一個多層次的質量保障體系，通過靜態分析和動態執行的雙重驗證機制，實現代碼從結構完整性到功能正確性的全面保障，形成了自我完善的閉環反饋系統。

AI Coding的挑戰與思考

目前AI編程工具在代碼補全和簡單任務上表現良好，但在需要深層理解的復雜任務中仍有不足。

科學論文復現就是一個典型例子——它需要AI理解數學原理，將抽象概念轉化為代碼實現，并處理各種技術細節。

DeepCode在這個領域的進展表明，通過專門的架構設計，AI可以在特定領域取得較好效果，但通用的深度理解能力仍然存在局限。

如何讓AI更好地理解復雜的業務邏輯和技術需求，仍是一個開放性問題。

· 從輔助工具到開發伙伴

AI編程工具正在從簡單的代碼補全向更全面的開發支持演進。

DeepCode展示的從需求分析到代碼生成再到質量驗證的完整流程，代表了這種發展趨勢。

然而，這也帶來了新的問題：

如何在AI系統提供更多自主能力的同時，保持開發者對項目的有效控制？

如何確保生成的代碼符合團隊的編碼規范和架構要求？

這些問題需要在技術進步和工程實踐中逐步解決。

· Vibe Coding的實用性考量

Vibe Coding的興起降低了編程門檻，讓更多人能夠參與軟件開發。

但這種模式也帶來了一系列挑戰：

生成代碼的質量和一致性如何保證？
當開發者減少對底層細節的關注時，如何維護代碼的長期可維護性？
如何在提高開發效率的同時確保代碼的安全性和穩定性？

DeepCode的驗證機制提供了一種思路，但更完善的工程實踐和質量標準還需要行業的進一步探索和完善。

作者介紹

李宗蔚

李宗蔚

李宗蔚（1999年生），現為香港大學博士生，師從黃超老師，專注于大模型智能體前沿技術研究。其學術成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者，該項目在GitHub上獲得約8,000星標。

李中行

李中行

李中行（1998年生），香港大學訪問博士，研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者，其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者，獲得約8,000 GitHub星標。

郭子睿

郭子睿

郭子睿（2000年生），香港大學博士學生，專注于RAG與智能體技術研究。作為LightRAG和RAG-Anything開源項目的第一作者，其項目在GitHub上累計獲得超過32,000星標，已成為圖RAG系統領域的主流技術框架之一。

黃超

黃超，香港大學博士生導師，專注于大語言模型、智能體與圖機器學習研究，Google Scholar引用超過13,000次。其團隊開發的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標，50次登上GitHub Trending（趨勢榜）。

參考資料：

https://github.com/HKUDS/DeepCode

https://sites.google.com/view/chaoh

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.