<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      達摩院推出多智能體框架ReasonMed,打造醫學推理數據生成新范式

      0
      分享至



      本文第一作者是阿里巴巴達摩院研究實習生孫雨,他的主要研究興趣方向是Medical Reasoning LM。本文通訊作者是阿里巴巴達摩院資深專家徐挺洋博士。

      在人工智能領域,推理語言模型(RLM)雖然在數學與編程任務中已展現出色性能,但在像醫學這樣高度依賴專業知識的場景中,一個亟待回答的問題是:復雜的多步推理會幫助模型提升醫學問答能力嗎?要回答這個問題,需要構建足夠高質量的醫學推理數據,當前醫學推理數據的構建存在以下挑戰:

      數據匱乏:現有醫學領域思維鏈數據規模較少,且缺乏一個流水線來批量構建一個高質量大規模醫學推理數據集;

      來源單一:現有數據集多依賴單一模型生成,未能結合不同預訓練模型的知識域差異,豐富和探索多樣化的推理路徑;

      構建數據成本高:構建高質量、大規模醫學推理數據集往往需要調用大模型生成和人工參與驗證,計算和人力成本都非常高昂,難以支撐百萬級規模的擴展。

      缺乏有效性驗證:缺乏系統性實驗來對比「詳細解說診斷思維」與「直接給出結論」兩種訓練策略的優劣。

      因此,我們亟需探索更科學的方法,為模型注入權威醫學知識、擴展其知識邊界,并生成更嚴謹、高質量的多步推理路徑。針對上述挑戰,ReasonMed 提出一套完整的醫療推理數據生成解決方案:

      多源知識的整合:從四個權威醫學問答基準(MedQA、MMLU、PubMedQA、MedMCQA)匯聚約 19.5 萬醫學問題,覆蓋廣泛的專業知識面。

      多模型的數據構建:通過引入多個專有模型,共同生成并驗證醫療推理路徑,多模型互補與交叉驗證提升了知識覆蓋與邏輯一致性,更好的構建規模化且高質量的醫學推理數據。

      基于多智能體交互的多維驗證和優化:設計「Easy-Medium-Difficult」分層管線,根據驗證通過率動態選擇不同處理策略。通過多智能體交互的方式來對醫學推理數據的邏輯一致性、答案正確性和醫學事實性多維度進行驗證優化,實現高質量與低成本的平衡。

      推理路徑注入和精煉:引入推理路徑注入與自動化精煉機制,以提升邏輯連貫性與知識準確度。同時對于每條推理樣本保留完整的多步推理鏈(CoT)與由響應摘要器生成的簡明答案(Response),實現推理過程與最終結論的雙重監督。

      基于上述框架,阿里巴巴達摩院聯合多家機構提出醫學推理數據生成新范式 ReasonMed,并開源百萬級高質量數據集 ReasonMed370K。該范式通過多智能體協作、多溫度采樣與逐步校驗,動態調用不同參數模型,既保證推理質量與知識注入,又顯著提升數據多樣性。

      基于此數據集訓練微調的 ReasonMed-7B/14B 在多項權威醫學問答基準上(PubMedQA 上性能:82.0%)超越更大規模模型(LLaMA3.1-70B:77.4%),充分驗證了「小模型 + 高質量數據」的潛力。同時 ReasonMed 也在 EMNLP 2025 上以高分(9 分)被接收。



      • 論文鏈接:
      • https://arxiv.org/abs/2506.09513
      • Hugging Face:
      • https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed
      • Code:
      • https://github.com/alibaba-damo-academy/ReasonMed

      基于多智能體協作的醫療推理數據的構建

      ReasonMed 多智能體系統介紹



      ReasonMed 的多智能體體系由多個專門角色(Agents)組成,每個 Agent 負責不同階段的推理生成、驗證與優化,共同構建高質量醫學推理數據集。下面是 ReasonMed 中各個組件的功能介紹:

      • CoT Generator(推理生成 Agent):包含多種不同大語言模型(Qwen2.5-72B、HuatuoGPT-o1-70B、DeepSeek-R1-Distill-LLaMA-70B),通過在不同溫度配置下生成多條推理路徑,形成多樣化的推理語料。這種多模型、跨溫度的設計使 ReasonMed 能充分結合不同模型的知識優勢與風格差異,既豐富推理模式,也增強數據的邏輯多樣性。

      • Verifier(驗證 Agent):評估每條推理鏈的正確性、臨床要點識別、邏輯一致性與醫學事實準確性。輸出結構化結果(Correct/Error + 原因),為后續篩選與修正提供依據。

      • Response Summarizer(摘要 Agent):將復雜的 CoT 推理提煉為簡潔、符合醫學問答風格的總結回答,使數據同時具備推理深度與可讀性。

      • Quality Ranker(質量排序 Agent):對通過驗證的多條正確 CoT 進行評分與排序,選出前兩條質量最高的推理路徑(Top-2),確保訓練數據的代表性與多樣性。

      • Error Refiner(錯誤修正 Agent):聚焦難樣本,基于驗證反饋識別邏輯或事實錯誤,并調用更強模型進行針對性修正,以保持推理鏈邏輯完整性和事實準確性。

      • Score Evaluator(評分評估 Agent):量化不同階段推理優化的效果,評估修正后樣本的整體提升幅度與數據集質量,形成閉環反饋。 ReasonMed 的多智能體系統通過「生成-驗證-排序-修正-評估」的閉環流程,將多個模型的專長整合為一個高可靠、可擴展的醫學推理數據構建體系。

      數據生成流程



      基于以上的多智能體系統,ReasonMed 整個醫療推理數據生成過程分為以下三個步驟:

      • 數據收集(Data Collection)

      ReasonMed 首先從四個權威醫學問答數據集(MedQA、MedMCQA、PubMedQA、MMLU)收集 19.5 萬個醫學問題,構建初始問題庫。這些問題覆蓋解剖學、臨床知識、遺傳學等多個子領域,為多模型協同生成提供廣泛知識基礎。

      • 多智能體推理生成與驗證(Multi-Agent CoT Generation & Validation)

      在該階段,CoT Generator 針對每個問題以不同溫度參數進行采樣,共生成 9 條多步推理鏈,覆蓋從直接推斷到深度分析的多層邏輯,隨后由 Verifier 智能體協同完成驗證。 這一流程實現了從多模型輸出到結構化、多維驗證的知識融合,確保了生成數據在多樣性與正確性上的平衡,為后續分層精煉與高質量醫學推理數據集的構建奠定了基礎。

      • 分層優化與推理精煉(CoT Pipeline Refinement)

      根據 Verifier 驗證后統計到的推理鏈錯誤數量,ReasonMed 設計了 Easy / Medium / Difficult 三條 Pipeline:

      • Easy Pipeline(9 條推理鏈中有 0–4 個錯誤):對于驗證通過率高的問題,直接由 Quality Ranker 選出 Top-2 優質 CoT 作為最終樣本;

      • Medium Pipeline(9 條推理鏈中有 5–7 個錯誤):存在部分邏輯或事實性錯誤的問題,調用 Error Refiner 基于 Verifier 的反饋進行針對性修正與細粒度補充,強化邏輯完整性;

      • Difficult Pipeline(9 條推理鏈中有 8–9 個錯誤):錯誤率極高,則調用更強模型(GPT-o1)重新生成完整推理鏈,相當于由專家重新診斷并開具「二次報告」。 該分層機制顯著提升了數據一致性與可靠性。通過在不同難度層面引入差異化處理,ReasonMed 成功在保持高精度的同時,將整體數據構建成本降低約 73%,實現高質量與低成本的統一。

      質量評估與數據匯總

      我們通過Score Evaluator,基于邏輯連貫性(coherence)、醫學事實一致性(factual fidelity)、選項分析完整性(option analysis)等方面對樣本進行 0–10 分量化評分,驗證各階段精煉帶來的質量提升。

      經過這一全流程篩選與優化后,最終形成 37 萬條高質量醫學推理樣本(ReasonMed370K),用于后續模型訓練與評估。基于同樣的評分邏輯,我們也對比了生成的數據和當前公開醫學推理數據的質量:



      結果表明,ReasonMed 在評分均值上顯著優于現有公開數據集,驗證了 ReasonMed 框架的有效性。

      為了進一步分析「顯式推理」與「總結式回答」等不同的思維模式在醫學大模型訓練中的貢獻,我們從同一數據源中抽取并拆分出三個變體:

      • CoTMed370K保留原始的詳細推理軌跡,重點訓練模型復現多步推理過程與思維邏輯,使模型學習復雜醫學推理的鏈式結構;

      • ResponseMed370K僅保留由 Response Summarizer 生成的精煉結論部分,用于訓練模型在保留關鍵信息的同時生成簡潔、臨床友好的回答。

      • ReasonMed370K包含完整的多步推理鏈以及由多智能體生成的簡明答案(Response)



      ReasonMed-7B / 14B 模型效果評估



      為了驗證生成數據對于模型構建的貢獻,我們基于 ReasonMed370K/ResponseMed370K/CoTMed370K 在 Qwen2.5-7B 進行了微調構建了三族模型 ReasonMed-7/14B,ResponseMed-7B 和 CoTMed-7B/14B。我們和當前的主流醫療/通用模型在 MedQA/MedMCQA/PubMedQA/MMLU 數據集上進行了對比。得到以下結論:

      • 基于 ReasonMed370K 訓練的小模型效果可比甚至超越 70B 級別模型

      在多個權威醫學問答基準(包括 PubMedQA、MedMCQA、MMLU-Med)上,ReasonMed-7B 展現了顯著優勢。

      其中,在 PubMedQA 上達到 82.0% 的準確率,超過了 LLaMA3.1-70B 的 77.4%;在 MedMCQA 與 MMLU 醫學子集上也表現穩定提升。

      進一步擴展至 14B 參數規模后,ReasonMed-14B 的整體準確率達到 72.8%,相較于 Qwen2.5-14B 提升 3.8%(72.8% vs 69.0%),并在總體性能上超越 Qwen2.5-32B(72.6%),與 LLaMA3.1-70B(72.9%)幾乎持平。

      這表明 ReasonMed 的「多智能體生成 + 分層優化」策略具備強大的可擴展性——即便是中小規模模型,也能在醫學推理任務中實現與超大模型相當的表現。

      • 融合推理路徑與總結答案的訓練策略效果最佳

      為了分析不同數據類型對模型推理能力的影響,團隊基于同一底座(Qwen2.5-7B)訓練了三個版本:


      CoTMed-7B:學習完整推理路徑,強調邏輯鏈條復現;


      ResponseMed-7B:僅學習簡明答案,注重輸出的準確性與簡潔性;

      ReasonMed-7B:結合推理路徑與總結式答案的混合訓練策略。

      結果顯示,ReasonMed-7B 的融合策略效果最佳,在綜合準確率上達 69.6%,分別超越 CoTMed-7B(69.1%)和 ResponseMed-7B(67.0%)。同時,其生成輸出在邏輯深度與表達簡潔度之間取得了良好平衡,既具可解釋性,又具實用性。

      這驗證了 ReasonMed 的核心理念:顯式推理鏈的學習能顯著增強模型的泛化推理能力,而「推理 + 總結」融合策略是醫學 QA 領域更優的訓練路徑。

      • 基于多智能體的分層處理策略顯著降低思維鏈路生成成本,兼顧質量與效率



      同時我們也驗證了,ReasonMed 的分層優化機制(Easy / Medium / Difficult Pipeline)在確保數據質量的同時顯著降低了數據構建成本。

      若完全依賴最先進的大模型 API 生成 37 萬條復雜推理鏈,成本預計在 16,631 美元;而在 ReasonMed 的實際設計中,僅約 2.56% 的樣本進入最高難度流程,需調用更強模型,其余問題均由中等規模模型完成。 在這一策略下,項目總成本約 4,552 美元(o1 API 推理花費 3,595 美元),實現了 70% 以上的成本節省。

      這種「難題精修、易題高效」的分層機制,在保證推理鏈質量與一致性的前提下,實現了高性價比的數據構建,為大規模推理數據的可持續生產提供了可復制模板。

      項目意義和展望

      ReasonMed 項目的推出,為醫學 AI 研究提供了新的范式,其核心價值主要體現在以下幾個方面:


      填補醫學推理數據空白:ReasonMed370K 提供了當前業界規模最大、質量最高的開源醫學推理數據集,極大緩解了醫學領域數據匱乏的問題,為后續研究和應用提供了堅實可靠的基礎。


      驗證了顯式多步推理在醫療模型的訓練的關鍵作用:通過系統性地驗證顯式推理路徑對模型性能提升的關鍵作用,ReasonMed 明確了知識密集型 AI 的訓練方法論,為未來 AI 模型的研發提供了清晰的實踐指南。


      推動「小模型 + 高質量數據」路線:在特定專業領域,小模型搭配高質量數據可顯著超越更大規模模型的性能,可以有效降低了醫療 AI 工具研發的成本門檻。


      低成本,標準化的可擴展思維鏈生成框架:ReasonMed 框架可以遷移至其他知識密集領域(如生命科學,材料科學等),為構建特定領域的數據集提供了參考,具有跨領域應用的潛力。

      同時,ReasonMed 相關技術也用到了達摩院多模態醫療大模型 Lingshu[1] 的構建中。接下來,我們計劃進一步擴展數據覆蓋的深度與廣度,探索如影像診斷、多模態理解、醫學工具調用等更復雜的醫學推理場景。同時,我們也希望通過開放協作,讓更多研究者參與數據完善與模型優化,共同建立一個持續演化、可信可復用的醫學推理生態。

      社區反饋

      ReasonMed 發布后在社區內引發了積極反響。研究者普遍認為其「多智能體 × 分層調優」策略為高質量推理數據生成提供了新范式,并在 Hugging Face 與社區獲得了廣泛關注。論文發布當天即登上 Hugging Face「Paper of the Day」榜首,并獲得 Hugging Face CEO 在 X 平臺的轉發與推薦,引發了業內研究者與開發者的熱烈討論。





      [1]https://huggingface.co/lingshu-medical-mllm

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      72歲老人中毒身亡!醫生提醒:吃完降壓藥千萬別碰它,中老年要看

      72歲老人中毒身亡!醫生提醒:吃完降壓藥千萬別碰它,中老年要看

      39健康網
      2025-10-28 19:30:54
      48架F-35!沙特的夢,美國的算盤

      48架F-35!沙特的夢,美國的算盤

      陸棄
      2025-11-06 10:39:29
      暴跌了50%!中國第一睡城成鬼城,十年前上車“燕郊”的人都哭了

      暴跌了50%!中國第一睡城成鬼城,十年前上車“燕郊”的人都哭了

      墨蘭史書
      2025-10-24 13:25:03
      91年出生,紐約新市長馬姆達尼何許人也?

      91年出生,紐約新市長馬姆達尼何許人也?

      風陽生
      2025-11-05 10:50:09
      馬斯克預言:5年后不再有手機和App,AI將在1-2年內大規模取代編程和內容創作類工作【附人工智能行業市場分析】

      馬斯克預言:5年后不再有手機和App,AI將在1-2年內大規模取代編程和內容創作類工作【附人工智能行業市場分析】

      前瞻網
      2025-11-04 15:15:19
      沖上熱搜!小米YU7全網首拆,結果令人太意外……

      沖上熱搜!小米YU7全網首拆,結果令人太意外……

      恪守原則和底線
      2025-11-05 15:55:51
      柬埔寨“太子集團”資產又遭凍結:涉26輛豪車、11處豪華公寓等,總值超35億元

      柬埔寨“太子集團”資產又遭凍結:涉26輛豪車、11處豪華公寓等,總值超35億元

      極目新聞
      2025-11-05 15:06:20
      鄰居藏獒偷肉他不管,我每天喂它血肉,出差半月后警察:你鄰居死了

      鄰居藏獒偷肉他不管,我每天喂它血肉,出差半月后警察:你鄰居死了

      懸案解密檔案
      2025-10-13 10:40:42
      老法警回憶:行刑開槍時犯人回頭質問,自己當場嚇癱休了個月的假

      老法警回憶:行刑開槍時犯人回頭質問,自己當場嚇癱休了個月的假

      老呶侃史
      2025-11-01 15:56:49
      狀元秀弗拉格18中8得20分8板2助3斷2帽,首節獻暴力空接隔扣

      狀元秀弗拉格18中8得20分8板2助3斷2帽,首節獻暴力空接隔扣

      懂球帝
      2025-11-06 12:20:13
      戈登大戰維金斯,約基奇33+15+16,掘金8連斬熱火下場欲復仇勇士

      戈登大戰維金斯,約基奇33+15+16,掘金8連斬熱火下場欲復仇勇士

      釘釘陌上花開
      2025-11-06 12:25:50
      一覺睡醒,估計全國網友都刷到這事兒了!劉亦菲都38歲了

      一覺睡醒,估計全國網友都刷到這事兒了!劉亦菲都38歲了

      小光侃娛樂
      2025-11-05 09:30:03
      移居香港才懂,內地人引以為傲的退體金,是香港老人遙不可及的夢

      移居香港才懂,內地人引以為傲的退體金,是香港老人遙不可及的夢

      阿纂看事
      2025-11-05 13:36:53
      米蘭創17年最少丟球紀錄,阿囧打造銅墻鐵壁,三中衛一高一快一利

      米蘭創17年最少丟球紀錄,阿囧打造銅墻鐵壁,三中衛一高一快一利

      大羽體壇
      2025-11-06 11:14:34
      狼隊救命稻草是滕哈格?荷蘭鐵帥帶 5條曼聯舊規空降,遲到封殺!

      狼隊救命稻草是滕哈格?荷蘭鐵帥帶 5條曼聯舊規空降,遲到封殺!

      瀾歸序
      2025-11-06 11:02:08
      假設一個深圳普通人一生總收入是840萬,最后可能只剩下40萬

      假設一個深圳普通人一生總收入是840萬,最后可能只剩下40萬

      水泥土的搞笑
      2025-11-06 09:07:30
      女子遭鄰居群毆后續:警方介入,博主堅決不和解,打人者身份曝光

      女子遭鄰居群毆后續:警方介入,博主堅決不和解,打人者身份曝光

      娛樂看阿敞
      2025-11-05 17:40:04
      三星 S26 Ultra 外觀曝光,既不方也不圓!

      三星 S26 Ultra 外觀曝光,既不方也不圓!

      劉奔跑
      2025-11-05 17:43:33
      建國初,列強要求中國承認數億兩白銀的欠單,主席大手一揮:不還

      建國初,列強要求中國承認數億兩白銀的欠單,主席大手一揮:不還

      南書房
      2025-10-01 20:17:58
      何穗官宣生子后新造型曝光,身材發福,穿著寬松依然覺得肚子好大

      何穗官宣生子后新造型曝光,身材發福,穿著寬松依然覺得肚子好大

      小娛樂悠悠
      2025-11-05 09:47:39
      2025-11-06 13:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11657文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      時尚
      本地
      數碼
      健康
      教育

      中國色特別策劃 | 故宮技藝與古意新生

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      數碼要聞

      6 熱管直觸,瓦爾基里推出單塔單風扇、雙塔雙風扇風冷散熱器

      超聲探頭會加重受傷情況嗎?

      教育要聞

      2026亞洲QS最新大學排名出爐:新加坡國大、南大并列第3!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人成网站观看在线观看| 亚洲精品国产中文字幕| 人妻性奴波多野结衣无码| 亚洲情综合五月天| 美女一区二区三区亚洲麻豆| 国产成人综合欧美精品久久| 亚洲熟女精品一区二区| 成人麻豆日韩在无码视频 | 国产视频一区二区三区视频| brazzers欧美巨大| 国产色一区二区三区四区| 亚洲av网一区天堂福利| AV人摸人人人澡人人超碰| 国产精品疯狂输出jk草莓视频| 人妻少妇精品视频三区二区| 人妻护士在线波多野结衣| 激情综合网激情国产av| 国产极品美女高潮抽搐免费网站| 欧美国产精品啪啪| 成人无套少萝内射中出| 色欲AV无码一区二区人妻| 日韩乱码人妻无码中文字幕视频| 国产一二三五区不在卡 | 精品人妻系列无码天堂| 97人妻蜜臀中文字幕| 国产精品白丝久久av网站| AV免费网址在线观看| 97精品久久天干天天天按摩| 婷婷成人丁香五月综合激情| 亚洲中文一区二区av| 精品无码av无码专区| 午夜国产福利片在线观看| 国产破外女出血视频| 欧洲精品色在线观看| 人人爽天天碰天天躁夜夜躁| 狠狠色丁香婷婷综合尤物| 成人性无码专区免费视频| 鲁一鲁一鲁一鲁一澡| 国产自拍一区二区三区在线| 内黄县| 人妻少妇精品视频三区二区|