人大、清華DeepAnalyze，讓LLM化身數(shù)據(jù)科學家

2025-10-30 19:47:49　來源: 機器之心Pro

北京舉報

分享至

來自人大和清華的研究團隊發(fā)布了DeepAnalyze，首個面向自主數(shù)據(jù)科學的 agentic LLM。DeepAnalyze引起了社區(qū)內(nèi)廣泛討論，一周內(nèi)收獲1000多個GitHub星標、20w余次社交媒體瀏覽量。

DeepAnalyze正在不斷完善中，誠邀大家交流合作！歡迎研究者和從業(yè)者在GitHub提交pull request，成為contributor，共建DeepAnalyze！

DeepAnalyze-8B 能夠模擬數(shù)據(jù)科學家的行為，在真實環(huán)境中主動編排、優(yōu)化操作，最終完成復雜的數(shù)據(jù)科學任務。支持各種以數(shù)據(jù)為核心的任務：

數(shù)據(jù)任務：自動化數(shù)據(jù)準備、數(shù)據(jù)分析、數(shù)據(jù)建模、數(shù)據(jù)可視化、數(shù)據(jù)洞察、報告生成；
數(shù)據(jù)研究：可在任意數(shù)量的結構化數(shù)據(jù)（數(shù)據(jù)庫、CSV、Excel）、半結構化數(shù)據(jù)（JSON、XML、YAML）、非結構化數(shù)據(jù)（TXT、Markdown）中進行開放式深度研究，生成分析師級別的研究報告；

DeepAnalyze 是一個 agentic LLM，無需任何啟發(fā)式 workflow，即可自主完成復雜數(shù)據(jù)科學任務

論文鏈接：https://arxiv.org/pdf/2510.16872
代碼、Demo鏈接：https://github.com/ruc-datalab/DeepAnalyze
模型鏈接：https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數(shù)據(jù)鏈接：https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K

DeepAnalyze 的論文、代碼、模型、數(shù)據(jù)均已開源，歡迎大家體驗！

DeepAnalyze: 自主完成數(shù)據(jù)科學全流程

DeepAnalyze 可本地部署，作為您的私有數(shù)據(jù)科學助手！

DeepAnalyze 是什么？

現(xiàn)有將 LLMs 應用于自主數(shù)據(jù)科學的方法，可以分為兩類：

領域特定的 LLM：面向數(shù)據(jù)科學的代碼生成 LLM、結構化數(shù)據(jù)理解 LLM...
基于 workflow 的智能體：人為設計 workflow，通過 prompt 調(diào)用閉源 LLM 完成任務

現(xiàn)有工作面臨兩方面局限性：

僅支持單點任務（例如數(shù)據(jù)分析、數(shù)據(jù)建模），無法端到端完成數(shù)據(jù)科學全流程。
閉源模型未在真實環(huán)境中的數(shù)據(jù)科學任務上訓練過，難以編排和優(yōu)化各種復雜操作。

DeepAnalyze 希望推動基于 LLM 的數(shù)據(jù)科學系統(tǒng)從 workflow-based agent 范式轉(zhuǎn)變到可訓練的 agentic LLM 范式。

數(shù)據(jù)科學的復雜性為訓練 agentic LLM 提出了新的挑戰(zhàn)，包括：

獎勵稀疏：數(shù)據(jù)科學的復雜性使得 LLMs 在訓練的早期階段基本無法成功完成任務，難以獲得正向獎勵信號，從而導致 agentic LLM 訓練過程崩潰。
路徑稀缺：數(shù)據(jù)科學的解決過程通常依賴長鏈推理，求解軌跡的稀缺使得 LLMs 缺少足夠的指導，導致其在龐大的搜索空間中進行低效且盲目的試錯式探索。

針對這兩個問題，DeepAnalyze 引入了：

Curriculum-based Agentic Training：在真實環(huán)境中從單一任務到符合任務漸進式訓練 LLM，讓大模型逐步提升能力，避免在復雜任務上獎勵信號為 0 導致的強化學習失效
Data-grounded Trajectory Synthesis：自動化合成 500K 數(shù)據(jù)科學的推理、環(huán)境交互數(shù)據(jù)，在龐大的搜索空間中提供正確路徑的指導

通過在真實環(huán)境中的 agentic 訓練，DeepAnalyze 具備了自動編排和自適應優(yōu)化操作的能力，能端到端地完成數(shù)據(jù)科學全流程，包括具體的數(shù)據(jù)任務和開放式的數(shù)據(jù)研究。

DeepAnalyze 在數(shù)據(jù)科學 Benchmarks 上表現(xiàn)優(yōu)異

1. DeepAnalyze-8B 在 DataSciBench（端到端數(shù)據(jù)科學 Benchmark）優(yōu)于所有開源模型，和 GPT-4o 相媲美

2. DeepAnalyze 在 DSBench 數(shù)據(jù)分析和數(shù)據(jù)建模任務上由于基于 workflow 的智能體

3. DeepAnalyze 在面向數(shù)據(jù)的深度研究中取得最佳表現(xiàn)，能生成分析師級別的分析報告

例如：

更多實驗結果請參見 DeepAnalyze 論文。

總結

DeepAnalyze 是首個面向自主數(shù)據(jù)科學的 agentic LLM，具備兩項關鍵能力：自主編排（autonomous orchestration）和自適應優(yōu)化（adaptive optimization）。
DeepAnalyze 作為一個基礎模型，可以直接應用，或通過提示（prompting）或監(jiān)督微調(diào)（supervised fine-tuning）進一步定制以適應特定場景。
提出的Curriculum-based Agentic Training 訓練范式和 data-grounded trajectory synthesis 數(shù)據(jù)合成方法，解決了復雜場景下的獎勵稀疏（reward sparsity）和軌跡稀缺（trajectory scarcity）問題，實現(xiàn)對需要多種能力的高復雜度任務的有效學習。

附 DeepAnalyze 交流討論群：https://mmbiz.qpic.cn/sz_mmbiz_jpg/KmXPKA19gWic6zf3dIibVR9xawZv04VjicAI9yx40Al0AcA4sv5MDErrLrloTbEKUDiah5vc0K5jpgKibrfJwrXT6hg/640?wx_fmt=jpeg&from=appmsg&tp=wxpic&wxfrom=5&wx_lazy=1#imgIndex=7

作者介紹：

張紹磊，中國人民大學信息學院助理教授，位于中國人民大學講席教授范舉教授團隊。他博士畢業(yè)于中國科學院計算技術研究所，導師為馮洋研究員。他的研究方向涵蓋大語言模型、多模態(tài)大模型、AI for Data Science。相關研究成果在 NeurIPS、ACL、ICLR 等國際人工智能與自然語言處理會議發(fā)表論文 30 余篇，開源的多語言大模型、多模態(tài)大模型、數(shù)據(jù)科學大模型在 GitHub 社區(qū)累計獲得 5000 + 星標。他長期擔任 CCF-A 類國際會議 ACL ARR 的領域主席和責任編輯。個人主頁：zhangshaolei1998@github.io。

范舉，中國人民大學教授、博士生導師，國家級青年人才，中國計算機學會數(shù)據(jù)庫專委會、大數(shù)據(jù)專委會執(zhí)行委員。研究方向包括：數(shù)據(jù)治理技術與系統(tǒng)、智能數(shù)據(jù)庫系統(tǒng)等。相關研究成果在計算機領域國際頂級期刊 / 會議發(fā)表論文 60 余篇。作為負責人先后主持國家自然科學基金優(yōu)秀青年基金項目、重點項目、面上項目，以及多項產(chǎn)學研合作項目。先后獲得 ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優(yōu)秀教師等獎勵。

RUC-DataLab是中國人民大學信息學院、數(shù)據(jù)工程與知識工程教育部重點實驗室設立的科研團隊，負責人是范舉教授，團隊專注于數(shù)據(jù)系統(tǒng)+人工智能（Data+AI）交叉領域，致力于將數(shù)據(jù)技術與人工智能技術深度融合，從而打造更加智能、高效的新型數(shù)據(jù)系統(tǒng)。主要研究方向包括：（1）數(shù)據(jù)庫系統(tǒng)智能化（AI4DB）：利用人工智能技術提升數(shù)據(jù)庫系統(tǒng)的查詢性能、自治能力等；（2）數(shù)據(jù)庫技術賦能AI系統(tǒng)（DB4AI）：利用數(shù)據(jù)管理技術支撐大模型訓練的數(shù)據(jù)準備、大模型推理的低延遲、高吞吐優(yōu)化；（3）數(shù)智融合的新型數(shù)據(jù)科學系統(tǒng)（AI4DS）：利用推理大模型、多模態(tài)語義理解與智能體等技術，提升數(shù)據(jù)科學系統(tǒng)的智能化水平與執(zhí)行性能，有效釋放數(shù)據(jù)價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.