網易首頁 > 網易號 > 正文申請入駐

LLM能替代數據科學家了？DeepAnalyze幫你告別手動分析數據

2025-11-01 12:24:39　來源: 量子位

北京舉報

分享至

DeepAnalyze團隊投稿
量子位 | 公眾號 QbitAI

你是否還在為復雜的文件和海量數據而苦惱？是否希望能夠自動從數據中挖掘出真正有價值的信息？

最近，來自人大與清華的研究團隊推出DeepAnalyze —— 你的專屬「數據科學家」。只需一個指令，它便能自動化分析你的數據、自主完成各類數據科學任務：

數據任務：支持自動化數據準備、數據分析、數據建模、數據可視化、數據洞察
數據研究：可在非結構化數據、半結構化數據、結構化數據中進行開放式深度研究，生成研究報告

DeepAnalyze是首個面向數據科學的Agentic LLM，無需任何workflow，僅憑一個LLM即可像數據科學家一樣，自主完成多種復雜的數據任務。

DeepAnalyze的論文、代碼、模型、數據均已開源，收獲1.1K+GitHub星標，歡迎大家體驗！

DeepAnalyze —— 你的專屬「數據科學家」

DeepAnalyze在環境中自主編排和優化各種操作，完成復雜的數據科學任務。

DeepAnalyze在真實環境中學習復雜任務

數據無處不在，而數據科學一直被視為人類智能的重要體現。從Kaggle比賽到日常的數據分析實踐，大量評測都在考察數據科學家在數據準備、分析、建模、可視化與洞察等方面的綜合能力。

當前的數據智能體（Data Agent）通常依賴人工設計的workflow，來驅動大模型完成特定的數據分析與可視化任務。雖然在各類單點任務上已取得了令人矚目的成果，但由于LLM的自主性仍然有限，它們距離理想的“全能自主數據科學家”依然存在明顯差距。

隨著大型語言模型智能水平的不斷提升，一個關鍵問題也愈發突出：如何讓LLM真正具備自主完成復雜數據科學任務的能力？

DeepAnalyze通過在真實環境中訓練，學會自主編排、自適應優化操作，最終完成復雜的數據科學任務。為實現此，DeepAnalyze提出課程學習式Agentic訓練范式（Curriculum-based Agentic Training ofDeepAnalyze）和面向數據的軌跡合成框架（Data-grounded Trajectory Synthesis）。

課程學習式Agentic訓練

數據科學任務本身具有高度復雜性，這讓基礎LLM在早期訓練階段往往難以順利完成任務。任務復雜性導致模型幾乎得不到正向獎勵信號（即“獎勵稀疏”問題），強化學習過程容易停滯，甚至出現訓練崩潰的情況。

為了解決這一難題，DeepAnalyze提出了「課程學習式 Agentic 訓練」。其模擬人類數據科學家的學習路徑，讓LLM在真實環境中從簡單到復雜、從單一任務到綜合任務逐步進階。通過這種漸進式訓練，模型的能力得以穩步提升，避免在復雜任務中因為“獎勵信號為零”而導致學習失敗。

訓練過程包括兩大階段：

單能力微調：
訓練LLM在代碼生成、結構化數據理解、邏輯推理等方面的基礎能力；
多能力Agentic訓練：
在真實任務環境中，讓LLM學會運用多種能力，像數據科學家一樣自主完成復雜任務。

面向數據的軌跡合成

在數據科學領域，缺乏完整的長鏈問題求解軌跡，這讓LLM在探索解題空間時缺乏有效指導，只能進行低效、盲目的“試錯式”探索，難以獲得有意義的中間監督信號。

為了解決這一難題，DeepAnalyze提出了「面向數據的軌跡合成」方法。其能夠自動合成50萬條數據科學推理與環境交互數據，為大模型在龐大的搜索空間中提供正確路徑的示范和引導。

數據合成包含兩個關鍵部分：

推理軌跡合成：
基于現有的 TableQA、結構化知識理解、數據科學代碼生成任務，構建帶有完整推理路徑的訓練數據；
交互軌跡合成：
構建多智能體系統，從結構化數據源（如Spider和BIRD）中自動合成數據科學交互軌跡，提供和真實環境的交互軌跡。

DeepAnalyze支持面向數據的深度研究

DeepAnalyze支持面向數據的深度研究，能夠自動生成具備分析師水準的研究報告。
在數據研究報告生成任務中，無論是內容深度還是報告結構，DeepAnalyze的表現都顯著優于現有的閉源LLM。

分析報告：

作者介紹

張紹磊，中國人民大學信息學院助理教授，位于中國人民大學講席教授范舉教授團隊。

他博士畢業于中國科學院計算技術研究所，導師為馮洋研究員。他的研究方向涵蓋大語言模型、多模態大模型、AI for Data Science。

相關研究成果在NeurIPS、ACL、ICLR等國際人工智能與自然語言處理會議發表論文30余篇，開源的多語言大模型、多模態大模型、數據科學大模型在GitHub社區累計獲得5000+星標。

他長期擔任CCF-A類國際會議ACL ARR的領域主席和責任編輯。個人主頁：zhangshaolei1998@github.io。

范舉，中國人民大學教授、博士生導師，國家級青年人才，中國計算機學會數據庫專委會、大數據專委會執行委員。

研究方向包括：數據治理技術與系統、智能數據庫系統等。

相關研究成果在計算機領域國際頂級期刊/會議發表論文60余篇。作為負責人先后主持國家自然科學基金優秀青年基金項目、重點項目、面上項目，以及多項產學研合作項目。

先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優秀教師等獎勵。

團隊介紹

RUC-DataLab是中國人民大學信息學院、數據工程與知識工程教育部重點實驗室設立的科研團隊，負責人是范舉教授，團隊專注于數據系統+人工智能（Data+AI）交叉領域，致力于將數據技術與人工智能技術深度融合，從而打造更加智能、高效的新型數據系統。

實驗室的研究方向包括：（1）數據庫系統智能化（AI4DB）：利用人工智能技術提升數據庫系統的查詢性能、自治能力等；（2）數據庫技術賦能AI系統（DB4AI）：利用數據管理技術支撐大模型訓練的高效處理、大模型推理的低延遲、高吞吐優化；（3）數智融合的新型數據科學系統（AI4DS）：利用推理大模型、多模態語義理解與智能體等技術，提升數據科學系統的智能化水平與執行性能，有效釋放數據價值。

論文：https://arxiv.org/pdf/2510.16872
代碼：https://github.com/ruc-datalab/DeepAnalyze
模型：https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數據：https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例：https://ruc-deepanalyze.github.io/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.