<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      AI首勝人類博士,頂會論文秒變代碼!港大90后開源刷爆8k星

      0
      分享至


      新智元報道

      編輯:元宇 好困

      【新智元導讀】香港大學黃超團隊開源的DeepCode在「論文復現代碼」方面,首次在PaperBench測試中超過來自劍橋、伯克利等8所頂尖高校的機器學習博士,并領先Claude Code、Cursor等先進的商用代碼智能體。

      在AI領域,學術論文往往承載了算法、模型架構等方面的最前沿突破。

      但想要真正理解論文的核心知識,并成功復現其中的算法和實驗結果,卻經常面臨巨大挑戰。

      問題的主要癥結,在于「關鍵實現細節」上的缺失!

      現實中論文作者通常將復雜的算法邏輯高度抽象化為幾行數學公式,省略了真正影響成敗的核心細節,比如:

      超參數的具體取值范圍、訓練過程中的技巧性調整、數據預處理的細節步驟、網絡初始化策略等。

      然而正是關鍵實現要點上的缺失,導致了理論與實踐之間的巨大鴻溝。

      就連資深研究員也經常對此束手無策。

      怎么破?

      近日,香港大學黃超教授團隊開源的DeepCode,為這一難題的解決提供了超強的AI利器。

      它不僅能夠分析論文內容,理解算法邏輯,還可以自動生成可運行的代碼。

      DeepCode演示

      DeepCode視覺交互界面

      在基準測試中,DeepCode在復現成功率和代碼質量方面表現出眾,在多項指標上超過了頂級大學的機器學習博士。

      DeepCode自今年7月發布首個版本——DeepCode v1.0.0以來便備受關注,并登上 GitHub Trending榜首,斬獲近8千星標(截至11月1日數據)。



      開源鏈接: https://github.com/HKUDS/DeepCode

      四大基準測試全面領先

      研究人員將DeepCode放在以下四大基準測試中進行比較:

      • 人類專家;

      • 最先進的商業代碼智能體;

      • 科學代碼智能體;

      • 基于大模型的智能體。

      結果顯示,DeepCode均拿到了最高分。


      首超人類專家:75.9% vs 72.4%

      在OpenAI發布的PaperBench基準測試中,DeepCode的總體準確率為75.9%,超過參與評測的人類專家組72.4%的成績。


      PaperBench的基準測試規格如下:

      • 數據集來源:OpenAI官方發布的標準化評測基準;

      • 任務規模:20篇ICML2024會議論文的完整復現;

      • 評估維度:8316個獨立可評分組件;

      • 評分機制:SimpleJudge分層加權評估系統;

      • 任務復雜度:要求從論文文本到可執行代碼的端到端實現。

      為確保實驗的科學嚴謹性,研究團隊還建立了高質量的人類專家基線。

      首先是嚴格的人類專家資質標準。

      這些專家均來自8所頂尖研究型大學的機器學習博士(在讀/已畢業博士學位)。

      8所大學分別為UC Berkeley、Cambridge、CMU、Columbia、Cornell、Purdue、TU Wien、UMass Amherst。

      此外,研究團隊還采用了嚴格的人類專家篩選流程:

      首先,進行簡歷預篩選和學術背景驗證;

      接著,實施機器學習理論知識的標準化測試;

      然后,評估Git版本控制和軟件工程實踐能力;

      最后,驗證候選人在論文復現任務中的完整技能鏈。

      以上篩選流程確保所有參與者都具備從理論理解到代碼實現的全流程能力。

      實驗環境配置如下:

      • 計算資源:NVIDIA A10 GPU標準配置,部分使用A100;

      • 開發時間:4周彈性開發周期;

      • 工具權限:無限制使用ChatGPT、GitHub Copilot等商業AI助手;

      • 嘗試機制:每論文3次獨立復現機會,采用best@3評分策略。

      以上實驗結果充分證明:

      面對需要深度理解和長期開發的復雜任務,即使人類專家可以充分利用各種AI輔助工具,DeepCode仍能在代碼質量和準確性方面達到更高的水平。

      這表明DeepCode不僅達到而且超越了專家級的代碼復現能力,也意味著自主科學軟件工程領域的一個重要里程碑。

      優于現有AI Coding:84.8% vs 58.7%

      在同一基準上,研究人員從20篇論文中隨機抽取5篇,將DeepCode與當前主流商用代碼智能體進行了系統性的性能對比。


      在評測中DeepCode展現出明顯領先優勢:

      DeepCode得分84.8% ,領先Claude Code(58.7%)約26.1個百分點。

      為確保測試的公平性和權威性,所有參與評測的商業代碼智能體均配備了當前最先進的基礎模型:Claude 4.5 Sonnet-think和GPT 5 codex-high。

      結果提示性能差距主要來自多智能體架構設計,而非單純的基礎模型差異。

      此外,在科學代碼智能體、基于大模型的智能體兩項評測中,DeepCode同樣保持領先:

      與目前最先進的科學代碼復現框架PaperCoder(51.1%)相比,DeepCode的復現率達到了73.5% ,提升了22.4個百分點。


      這一顯著的提升驗證了研究團隊結合規劃、分層任務分解、代碼生成和迭代調試的多模塊架構優于更簡單的基于流水線的方法。


      與性能最佳的大模型智能體(43.3%)相比,DeepCode(73.5%)提升了30.2個百分點。

      這表明,對于復雜的代碼復現任務而言,復雜的代理支架(而不是延長推理時間或更大的模型)至關重要。

      DeepCode三大核心能力

      Paper2Code(論文→代碼)


      • 輸入:學術論文PDF文檔;

      • 輸出:生產級代碼實現+完整測試套件+詳細技術文檔。


      DeepCode的核心優勢在于自動解析復雜數學公式、理解算法邏輯、生成可運行的高質量代碼,可以幫助科研人員快速復現SOTA算法、驗證理論創新、加速研究進展等。

      Paper2Code

      Text2Web:(想法→網頁)


      • 輸入:自然語言描述的界面需求和功能期望;

      • 輸出:響應式前端頁面+現代化UI設計+完整交互邏輯。


      DeepCode可以智能理解用戶意圖、自動適配移動端、生成符合設計規范的界面,適用于快速原型驗證、MVP產品開發、創業想法落地等場景。

      前端實現

      Text2Backend:(需求→服務)


      • 輸入:后端功能需求和業務邏輯描述;

      • 輸出:高性能API接口 + 優化數據庫設計 + 可擴展系統架構。

      DeepCode可以自動選擇最佳技術棧、考慮性能和安全性、支持云原生部署,適用于微服務快速開發、遺留系統重構、企業數字化轉型等場景。

      DeepCode的核心技術框架

      DeepCode采用系統化的三階段框架,將復雜的代碼生成任務分解為架構藍圖構建、代碼實現和自動驗證三個步驟,通過多智能體協作實現從文檔到可執行代碼的自動轉換。

      階段一:架構藍圖構建

      該階段將冗長的文檔規范轉化為結構化的架構藍圖,通過層次化內容分割、多智能體深度分析、架構藍圖融合三個關鍵步驟解決長文檔理解的挑戰。

      在多智能體深度分析環節,采用概念智能體、算法智能體兩個專業智能體并行深度分析文檔的不同維度,確保了既有全局視野又有具體實現細節。

      代碼規劃智能體融合以上兩個分析智能體的深度輸出,協調高層架構與底層規范,解決潛在的不一致性。

      通過智能化的融合過程,最終生成完整的架構藍圖,為后續代碼生成提供了詳細的指導。

      階段二:自動化代碼構建

      該階段基于構建完成的架構藍圖進行代碼倉庫的系統化構建,通過雙重機制設計解決大規模代碼庫中的跨文件一致性維護和領域知識缺失的核心挑戰。

      階段三:動態驗證與優化

      該階段構建了一個多層次的質量保障體系,通過靜態分析和動態執行的雙重驗證機制,實現代碼從結構完整性到功能正確性的全面保障,形成了自我完善的閉環反饋系統。

      AI Coding的挑戰與思考

      目前AI編程工具在代碼補全和簡單任務上表現良好,但在需要深層理解的復雜任務中仍有不足。

      科學論文復現就是一個典型例子——它需要AI理解數學原理,將抽象概念轉化為代碼實現,并處理各種技術細節。

      DeepCode在這個領域的進展表明,通過專門的架構設計,AI可以在特定領域取得較好效果,但通用的深度理解能力仍然存在局限。

      如何讓AI更好地理解復雜的業務邏輯和技術需求,仍是一個開放性問題。

      · 從輔助工具到開發伙伴

      AI編程工具正在從簡單的代碼補全向更全面的開發支持演進。

      DeepCode展示的從需求分析到代碼生成再到質量驗證的完整流程,代表了這種發展趨勢。

      然而,這也帶來了新的問題:

      如何在AI系統提供更多自主能力的同時,保持開發者對項目的有效控制?

      如何確保生成的代碼符合團隊的編碼規范和架構要求?

      這些問題需要在技術進步和工程實踐中逐步解決。

      · Vibe Coding的實用性考量

      Vibe Coding的興起降低了編程門檻,讓更多人能夠參與軟件開發。

      但這種模式也帶來了一系列挑戰:

      • 生成代碼的質量和一致性如何保證?

      • 當開發者減少對底層細節的關注時,如何維護代碼的長期可維護性?

      • 如何在提高開發效率的同時確保代碼的安全性和穩定性?

      DeepCode的驗證機制提供了一種思路,但更完善的工程實踐和質量標準還需要行業的進一步探索和完善。

      作者介紹

      李宗蔚


      李宗蔚

      李宗蔚(1999年生),現為香港大學博士生,師從黃超老師,專注于大模型智能體前沿技術研究。其學術成果入選CIKM 2024最具影響力論文榜單。作為開源項目DeepCode的核心貢獻者,該項目在GitHub上獲得約8,000星標。

      李中行


      李中行

      李中行(1998年生),香港大學訪問博士,研究方向為大模型智能體與智慧城市。作為智慧城市大模型UrbanGPT第一作者,其研究成果入選KDD 2024及ICDE 2022最具影響力論文榜單。同時為開源項目DeepCode核心貢獻者,獲得約8,000 GitHub星標。

      郭子睿


      郭子睿

      郭子睿(2000年生),香港大學博士學生,專注于RAG與智能體技術研究。作為LightRAG和RAG-Anything開源項目的第一作者,其項目在GitHub上累計獲得超過32,000星標,已成為圖RAG系統領域的主流技術框架之一。

      黃超


      黃超

      黃超,香港大學博士生導師,專注于大語言模型、智能體與圖機器學習研究,Google Scholar引用超過13,000次。其團隊開發的LightRAG、RAG-Anything、DeepCode、AutoAgent、AI-Researcher、AI-Trader、MiniRAG、VideoRAG等開源項目累計獲得超過70,000 GitHub星標,50次登上GitHub Trending(趨勢榜)。

      參考資料:

      https://github.com/HKUDS/DeepCode

      https://sites.google.com/view/chaoh

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WC!錫安!鵜鶘最快速度交易

      WC!錫安!鵜鶘最快速度交易

      技巧君侃球
      2025-11-05 15:41:31
      全運會乒乓球男單簽表:王楚欽、樊振東位列上半區

      全運會乒乓球男單簽表:王楚欽、樊振東位列上半區

      懂球帝
      2025-11-05 16:29:10
      唐嫣也沒想到,一個漸凍癥患者的爆料,讓她維持許久的體面被撕碎

      唐嫣也沒想到,一個漸凍癥患者的爆料,讓她維持許久的體面被撕碎

      一娛三分地
      2025-11-05 14:02:01
      從年薪30萬到月薪低保:北京央企設計院降薪潮下的生存困境

      從年薪30萬到月薪低保:北京央企設計院降薪潮下的生存困境

      悟話八門
      2025-11-03 23:28:21
      黃芪和它是“絕配”!連著喝了2天,氣血通了,渾身都是勁兒!

      黃芪和它是“絕配”!連著喝了2天,氣血通了,渾身都是勁兒!

      江江食研社
      2025-11-04 18:30:02
      分享解剖學知識,破除多年來的G點謠傳

      分享解剖學知識,破除多年來的G點謠傳

      遠方青木
      2025-10-25 00:06:11
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      成都派出所副所長被控徇私枉法案開庭,證據調取成最大焦點

      成都派出所副所長被控徇私枉法案開庭,證據調取成最大焦點

      極目新聞
      2025-11-05 08:54:09
      感覺挺心酸!廣西博白一群大齡剩男聚會,網友:都娶不到老婆的

      感覺挺心酸!廣西博白一群大齡剩男聚會,網友:都娶不到老婆的

      唐小糖說情感
      2025-11-05 09:04:37
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      鐵錘簡科
      2025-11-05 15:19:29
      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      開開森森
      2025-11-05 11:27:09
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      戚薇睡衣定妝照,性感與優雅的碰撞?

      戚薇睡衣定妝照,性感與優雅的碰撞?

      娛樂領航家
      2025-11-03 23:00:03
      潛伏在我國高層的四大間諜,被安插在軍政兩界,導致我國損失慘重

      潛伏在我國高層的四大間諜,被安插在軍政兩界,導致我國損失慘重

      閱識
      2025-10-28 15:23:15
      合砍74+22+15!火箭隊三巨頭成型,1老帶2新,攻防兩端已無短板

      合砍74+22+15!火箭隊三巨頭成型,1老帶2新,攻防兩端已無短板

      熊哥愛籃球
      2025-11-05 17:23:09
      到了到了!官方確認:已抵達浙江!

      到了到了!官方確認:已抵達浙江!

      FM93浙江交通之聲
      2025-11-04 17:29:52
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      文雅筆墨
      2025-11-04 09:18:55
      “土皇帝”許家印的“恒大歌舞團”服務了那些“蛀蟲”

      “土皇帝”許家印的“恒大歌舞團”服務了那些“蛀蟲”

      創作者_IE2295
      2025-10-27 18:24:27
      重回土帥時代!45歲名宿邵佳一官宣出任國足新帥,獨立執教僅1年

      重回土帥時代!45歲名宿邵佳一官宣出任國足新帥,獨立執教僅1年

      我愛英超
      2025-11-05 17:42:02
      2025-11-05 18:19:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13791文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      本地
      藝術
      親子
      時尚
      公開課

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      藝術要聞

      院士親自下場“把關”!溫州園博園山水中國館,預計年底建成!

      親子要聞

      重度自閉癥孩子幸不幸福,要看帶養人費不費勁

      壞了,看到劇本殺鼻祖了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色综合天天综合网中文伊| 成人无码午夜在线观看| 免费高潮了好湿h视频| 色偷偷www.8888在线观看| 国产成人精品亚洲日本片| 欧美亚洲另类制服卡通动漫| 免费午夜无码片在线观看影院| 天堂a无码a无线孕交| 伊人久久综合无码成人网| 国产一区二区日韩在线| 精品在免费线中文字幕久久| 少妇夜夜春夜夜爽试看视频| 激情综合五月| 精品国产熟女一区二区三区| 人人爽人人爽人人片a免费| 久久国产成人精品av| 中文字幕日韩精品亚洲一区| 国产性生大片免费观看性| 中文字幕日韩精品人妻| 欧美老少配性行为| 午夜在线不卡| 亚洲无人区一码二码三码| 中文字幕亚洲人妻一区| 无码人妻精品一区二区三区夜夜嗨| 国日韩精品一区二区三区| 人妻中文字幕精品系列| 会昌县| 黄色三级亚洲男人的天堂| 蜜桃视频一区二区在线观看| 尚义县| 韩国三级+mp4| 永久免费无码av在线网站| 丁香花成人电影| 欧美寡妇xxxx黑人猛交| 国产精品毛片在线完整版| 国产乱人伦无无码视频试看| 精品国产亚洲av麻豆特色| 亚洲成av人片在www鸭子| 亚洲爆乳WWW无码专区| 久久精品国产亚洲成人av| 成人性生交片无码免费看|