- DeepAnalyze團隊 投稿
量子位 | 公眾號 QbitAI
你是否還在為復雜的文件和海量數據而苦惱?是否希望能夠自動從數據中挖掘出真正有價值的信息?
最近,來自人大與清華的研究團隊推出DeepAnalyze —— 你的專屬「數據科學家」。只需一個指令,它便能自動化分析你的數據、自主完成各類數據科學任務:
- 數據任務:支持自動化數據準備、數據分析、數據建模、數據可視化、數據洞察
- 數據研究:可在非結構化數據、半結構化數據、結構化數據中進行開放式深度研究,生成研究報告
![]()
DeepAnalyze是首個面向數據科學的Agentic LLM,無需任何workflow,僅憑一個LLM即可像數據科學家一樣,自主完成多種復雜的數據任務。
DeepAnalyze的論文、代碼、模型、數據均已開源,收獲1.1K+GitHub星標,歡迎大家體驗!
DeepAnalyze —— 你的專屬「數據科學家」
DeepAnalyze在環境中自主編排和優化各種操作,完成復雜的數據科學任務。
DeepAnalyze在真實環境中學習復雜任務
數據無處不在,而數據科學一直被視為人類智能的重要體現。從Kaggle比賽到日常的數據分析實踐,大量評測都在考察數據科學家在數據準備、分析、建模、可視化與洞察等方面的綜合能力。
當前的數據智能體(Data Agent)通常依賴人工設計的workflow,來驅動大模型完成特定的數據分析與可視化任務。雖然在各類單點任務上已取得了令人矚目的成果,但由于LLM的自主性仍然有限,它們距離理想的“全能自主數據科學家”依然存在明顯差距。
隨著大型語言模型智能水平的不斷提升,一個關鍵問題也愈發突出:如何讓LLM真正具備自主完成復雜數據科學任務的能力?
![]()
DeepAnalyze通過在真實環境中訓練,學會自主編排、自適應優化操作,最終完成復雜的數據科學任務。為實現此,DeepAnalyze提出課程學習式Agentic訓練范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向數據的軌跡合成框架(Data-grounded Trajectory Synthesis)。
課程學習式Agentic訓練
數據科學任務本身具有高度復雜性,這讓基礎LLM在早期訓練階段往往難以順利完成任務。任務復雜性導致模型幾乎得不到正向獎勵信號(即“獎勵稀疏”問題),強化學習過程容易停滯,甚至出現訓練崩潰的情況。
為了解決這一難題,DeepAnalyze提出了「課程學習式 Agentic 訓練」。其模擬人類數據科學家的學習路徑,讓LLM在真實環境中從簡單到復雜、從單一任務到綜合任務逐步進階。通過這種漸進式訓練,模型的能力得以穩步提升,避免在復雜任務中因為“獎勵信號為零”而導致學習失敗。
訓練過程包括兩大階段:
- 單能力微調:
- 訓練LLM在代碼生成、結構化數據理解、邏輯推理等方面的基礎能力;
- 多能力Agentic訓練:
- 在真實任務環境中,讓LLM學會運用多種能力,像數據科學家一樣自主完成復雜任務。
面向數據的軌跡合成
在數據科學領域,缺乏完整的長鏈問題求解軌跡,這讓LLM在探索解題空間時缺乏有效指導,只能進行低效、盲目的“試錯式”探索,難以獲得有意義的中間監督信號。
為了解決這一難題,DeepAnalyze提出了「面向數據的軌跡合成」方法。其能夠自動合成50萬條數據科學推理與環境交互數據,為大模型在龐大的搜索空間中提供正確路徑的示范和引導。
數據合成包含兩個關鍵部分:
- 推理軌跡合成:
- 基于現有的 TableQA、結構化知識理解、數據科學代碼生成任務,構建帶有完整推理路徑的訓練數據;
- 交互軌跡合成:
- 構建多智能體系統,從結構化數據源(如Spider和BIRD)中自動合成數據科學交互軌跡,提供和真實環境的交互軌跡。
DeepAnalyze支持面向數據的深度研究
DeepAnalyze支持面向數據的深度研究,能夠自動生成具備分析師水準的研究報告。
在數據研究報告生成任務中,無論是內容深度還是報告結構,DeepAnalyze的表現都顯著優于現有的閉源LLM。
![]()
分析報告:
![]()
作者介紹
![]()
張紹磊,中國人民大學信息學院助理教授,位于中國人民大學講席教授范舉教授團隊。
他博士畢業于中國科學院計算技術研究所,導師為馮洋研究員。他的研究方向涵蓋大語言模型、多模態大模型、AI for Data Science。
相關研究成果在NeurIPS、ACL、ICLR等國際人工智能與自然語言處理會議發表論文30余篇,開源的多語言大模型、多模態大模型、數據科學大模型在GitHub社區累計獲得5000+星標。
他長期擔任CCF-A類國際會議ACL ARR的領域主席和責任編輯。個人主頁:zhangshaolei1998@github.io。
![]()
范舉,中國人民大學教授、博士生導師,國家級青年人才,中國計算機學會數據庫專委會、大數據專委會執行委員。
研究方向包括:數據治理技術與系統、智能數據庫系統等。
相關研究成果在計算機領域國際頂級期刊/會議發表論文60余篇。作為負責人先后主持國家自然科學基金優秀青年基金項目、重點項目、面上項目,以及多項產學研合作項目。
先后獲得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、寶鋼優秀教師等獎勵。
團隊介紹
RUC-DataLab是中國人民大學信息學院、數據工程與知識工程教育部重點實驗室設立的科研團隊,負責人是范舉教授,團隊專注于數據系統+人工智能 (Data+AI)交叉領域,致力于將數據技術與人工智能技術深度融合,從而打造更加智能、高效的新型數據系統。
實驗室的研究方向包括:(1)數據庫系統智能化(AI4DB):利用人工智能技術提升數據庫系統的查詢性能、自治能力等;(2)數據庫技術賦能AI系統(DB4AI):利用數據管理技術支撐大模型訓練的高效處理、大模型推理的低延遲、高吞吐優化;(3)數智融合的新型數據科學系統(AI4DS):利用推理大模型、多模態語義理解與智能體等技術,提升數據科學系統的智能化水平與執行性能,有效釋放數據價值。
論文:https://arxiv.org/pdf/2510.16872
代碼:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
數據:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.