![]()
本文第一作者是阿里巴巴達摩院研究實習生孫雨,他的主要研究興趣方向是Medical Reasoning LM。本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士。
在人工智能領域,推理語言模型(RLM)雖然在數學與編程任務中已展現出色性能,但在像醫學這樣高度依賴專業知識的場景中,一個亟待回答的問題是:復雜的多步推理會幫助模型提升醫學問答能力嗎?要回答這個問題,需要構建足夠高質量的醫學推理數據,當前醫學推理數據的構建存在以下挑戰:
數據匱乏:現有醫學領域思維鏈數據規模較少,且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集;
來源單一:現有數據集多依賴單一模型生成,未能結合不同預訓練模型的知識域差異,豐富和探索多樣化的推理路徑;
構建數據成本高:構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證,計算和人力成本都非常高昂,難以支撐百萬級規模的擴展。
缺乏有效性驗證:缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣。
因此,我們亟需探索更科學的方法,為模型注入權威醫學知識、擴展其知識邊界,并生成更嚴謹、高質量的多步推理路徑。針對上述挑戰,ReasonMed 提出一套完整的醫療推理數據生成解決方案:
多源知識的整合:從四個權威醫學問答基準(MedQA、MMLU、PubMedQA、MedMCQA)匯聚約 19.5 萬醫學問題,覆蓋廣泛的專業知識面。
多模型的數據構建:通過引入多個專有模型,共同生成并驗證醫療推理路徑,多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性,更好的構建規模化且高質量的醫學推理數據。
基于多智能體交互的多維驗證和優化:設計「Easy-Medium-Difficult」分層管線,根據驗證通過率動態選擇不同處理策略。通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化,實現高質量與低成本的平衡。
推理路徑注入和精煉:引入推理路徑注入與自動化精煉機制,以提升邏輯連貫性與知識準確度。同時對于每條推理樣本保留完整的多步推理鏈(CoT)與由響應摘要器生成的簡明答案(Response),實現推理過程與最終結論的雙重監督。
基于上述框架,阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed,并開源百萬級高質量數據集 ReasonMed370K。該范式通過多智能體協作、多溫度采樣與逐步校驗,動態調用不同參數模型,既保證推理質量與知識注入,又顯著提升數據多樣性。
基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上(PubMedQA 上性能:82.0%)超越更大規模模型(LLaMA3.1-70B:77.4%),充分驗證了「小模型 + 高質量數據」的潛力。同時 ReasonMed 也在 EMNLP 2025 上以高分(9 分)被接收。
![]()
- 論文鏈接:
- https://arxiv.org/abs/2506.09513
- Hugging Face:
- https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
- Code:
- https://github.com/alibaba-damo-academy/ReasonMed
基于多智能體協作的醫療推理數據的構建
ReasonMed 多智能體系統介紹
![]()
ReasonMed 的多智能體體系由多個專門角色(Agents)組成,每個 Agent 負責不同階段的推理生成、驗證與優化,共同構建高質量醫學推理數據集。下面是 ReasonMed 中各個組件的功能介紹:
- CoT Generator(推理生成 Agent):包含多種不同大語言模型(Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B),通過在不同溫度配置下生成多條推理路徑,形成多樣化的推理語料。這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異,既豐富推理模式,也增強數據的邏輯多樣性。
- Verifier(驗證 Agent):評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性。輸出結構化結果(Correct/Error + 原因),為后續篩選與修正提供依據。
- Response Summarizer(摘要 Agent):將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答,使數據同時具備推理深度與可讀性。
- Quality Ranker(質量排序 Agent):對通過驗證的多條正確 CoT 進行評分與排序,選出前兩條質量最高的推理路徑(Top-2),確保訓練數據的代表性與多樣性。
- Error Refiner(錯誤修正 Agent):聚焦難樣本,基于驗證反饋識別邏輯或事實錯誤,并調用更強模型進行針對性修正,以保持推理鏈邏輯完整性和事實準確性。
- Score Evaluator(評分評估 Agent):量化不同階段推理優化的效果,評估修正后樣本的整體提升幅度與數據集質量,形成閉環反饋。 ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程,將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系。
數據生成流程
![]()
基于以上的多智能體系統,ReasonMed 整個醫療推理數據生成過程分為以下三個步驟:
- 數據收集(Data Collection)
ReasonMed 首先從四個權威醫學問答數據集(MedQA、MedMCQA、PubMedQA、MMLU)收集 19.5 萬個醫學問題,構建初始問題庫。這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域,為多模型協同生成提供廣泛知識基礎。
- 多智能體推理生成與驗證(Multi-Agent CoT Generation & Validation)
在該階段,CoT Generator 針對每個問題以不同溫度參數進行采樣,共生成 9 條多步推理鏈,覆蓋從直接推斷到深度分析的多層邏輯,隨后由 Verifier 智能體協同完成驗證。 這一流程實現了從多模型輸出到結構化、多維驗證的知識融合,確保了生成數據在多樣性與正確性上的平衡,為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎。
- 分層優化與推理精煉(CoT Pipeline Refinement)
根據 Verifier 驗證后統計到的推理鏈錯誤數量,ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline:
- Easy Pipeline(9 條推理鏈中有 0–4 個錯誤):對于驗證通過率高的問題,直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本;
- Medium Pipeline(9 條推理鏈中有 5–7 個錯誤):存在部分邏輯或事實性錯誤的問題,調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充,強化邏輯完整性;
- Difficult Pipeline(9 條推理鏈中有 8–9 個錯誤):錯誤率極高,則調用更強模型(GPT-o1)重新生成完整推理鏈,相當于由專家重新診斷并開具「二次報告」。 該分層機制顯著提升了數據一致性與可靠性。通過在不同難度層面引入差異化處理,ReasonMed 成功在保持高精度的同時,將整體數據構建成本降低約 73%,實現高質量與低成本的統一。
質量評估與數據匯總
我們通過Score Evaluator,基于邏輯連貫性(coherence)、醫學事實一致性(factual fidelity)、選項分析完整性(option analysis)等方面對樣本進行 0–10 分量化評分,驗證各階段精煉帶來的質量提升。
經過這一全流程篩選與優化后,最終形成 37 萬條高質量醫學推理樣本(ReasonMed370K),用于后續模型訓練與評估。基于同樣的評分邏輯,我們也對比了生成的數據和當前公開醫學推理數據的質量:
![]()
結果表明,ReasonMed 在評分均值上顯著優于現有公開數據集,驗證了 ReasonMed 框架的有效性。
為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻,我們從同一數據源中抽取并拆分出三個變體:
- CoTMed370K保留原始的詳細推理軌跡,重點訓練模型復現多步推理過程與思維邏輯,使模型學習復雜醫學推理的鏈式結構;
- ResponseMed370K僅保留由 Response Summarizer 生成的精煉結論部分,用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答。
- ReasonMed370K包含完整的多步推理鏈以及由多智能體生成的簡明答案(Response)
![]()
ReasonMed-7B / 14B 模型效果評估
![]()
為了驗證生成數據對于模型構建的貢獻,我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B,ResponseMed-7B 和 CoTMed-7B/14B。我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比。得到以下結論:
- 基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型
在多個權威醫學問答基準(包括 PubMedQA、MedMCQA、MMLU-Med)上,ReasonMed-7B 展現了顯著優勢。
其中,在 PubMedQA 上達到 82.0% 的準確率,超過了 LLaMA3.1-70B 的 77.4%;在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升。
進一步擴展至 14B 參數規模后,ReasonMed-14B 的整體準確率達到 72.8%,相較于 Qwen2.5-14B 提升 3.8%(72.8% vs 69.0%),并在總體性能上超越 Qwen2.5-32B(72.6%),與 LLaMA3.1-70B(72.9%)幾乎持平。
這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型,也能在醫學推理任務中實現與超大模型相當的表現。
- 融合推理路徑與總結答案的訓練策略效果最佳
為了分析不同數據類型對模型推理能力的影響,團隊基于同一底座(Qwen2.5-7B)訓練了三個版本:
CoTMed-7B:學習完整推理路徑,強調邏輯鏈條復現;
ResponseMed-7B:僅學習簡明答案,注重輸出的準確性與簡潔性;
ReasonMed-7B:結合推理路徑與總結式答案的混合訓練策略。
結果顯示,ReasonMed-7B 的融合策略效果最佳,在綜合準確率上達 69.6%,分別超越 CoTMed-7B(69.1%)和 ResponseMed-7B(67.0%)。同時,其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡,既具可解釋性,又具實用性。
這驗證了 ReasonMed 的核心理念:顯式推理鏈的學習能顯著增強模型的泛化推理能力,而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑。
- 基于多智能體的分層處理策略顯著降低思維鏈路生成成本,兼顧質量與效率
![]()
同時我們也驗證了,ReasonMed 的分層優化機制(Easy / Medium / Difficult Pipeline)在確保數據質量的同時顯著降低了數據構建成本。
若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈,成本預計在 16,631 美元;而在 ReasonMed 的實際設計中,僅約 2.56% 的樣本進入最高難度流程,需調用更強模型,其余問題均由中等規模模型完成。 在這一策略下,項目總成本約 4,552 美元(o1 API 推理花費 3,595 美元),實現了 70% 以上的成本節省。
這種「難題精修、易題高效」的分層機制,在保證推理鏈質量與一致性的前提下,實現了高性價比的數據構建,為大規模推理數據的可持續生產提供了可復制模板。
項目意義和展望
ReasonMed 項目的推出,為醫學 AI 研究提供了新的范式,其核心價值主要體現在以下幾個方面:
填補醫學推理數據空白:ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集,極大緩解了醫學領域數據匱乏的問題,為后續研究和應用提供了堅實可靠的基礎。
驗證了顯式多步推理在醫療模型的訓練的關鍵作用:通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用,ReasonMed 明確了知識密集型 AI 的訓練方法論,為未來 AI 模型的研發提供了清晰的實踐指南。
推動「小模型 + 高質量數據」路線:在特定專業領域,小模型搭配高質量數據可顯著超越更大規模模型的性能,可以有效降低了醫療 AI 工具研發的成本門檻。
低成本,標準化的可擴展思維鏈生成框架:ReasonMed 框架可以遷移至其他知識密集領域(如生命科學,材料科學等),為構建特定領域的數據集提供了參考,具有跨領域應用的潛力。
同時,ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1] 的構建中。接下來,我們計劃進一步擴展數據覆蓋的深度與廣度,探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景。同時,我們也希望通過開放協作,讓更多研究者參與數據完善與模型優化,共同建立一個持續演化、可信可復用的醫學推理生態。
社區反饋
ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式,并在 Hugging Face 與社區獲得了廣泛關注。論文發布當天即登上 Hugging Face「Paper of the Day」榜首,并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦,引發了業內研究者與開發者的熱烈討論。
![]()
![]()
[1]https://huggingface.co/lingshu-medical-mllm
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.