網易首頁 > 網易號 > 正文申請入駐

“醫生版ChatGPT”來了！百川發布最強循證增強大模型M2 Plus，幻覺率遠低于DeepSeek

2025-10-22 16:35:06　來源: 生物世界

上海舉報

分享至

編輯丨王多魚

排版丨水成文

2025 年 10 月 22 日，百川智能發布循證增強醫療大模型——Baichuan-M2 Plus，同步升級配套應用百小應并開放 API。這是百川自 8 月開源 Baichuan-M2 以來的又一次重要動作。

評測顯示，M2 Plus 的醫療幻覺率較通用大模型顯著降低，僅為DeepSeek的約三分之一，優于美國最火的面向醫療專業人員的 AI 臨床決策支持工具OpenEvidence，可信度比肩資深臨床醫生。

通用大模型固有的幻覺問題，導致其在嚴肅醫療場景中難以真實應用。國內眾多醫院雖積極嘗試部署和優化 DeepSeek，但實際效果不盡如人意。而大洋彼岸的現象級醫療大模型產品 OpenEvidence，能給我們重要啟示。該產品因符合醫學認知的循證增強，已有 40% 美國醫生在臨床場景中注冊使用，每月咨詢量達 1650 萬次。兩天前，該公司 C 輪融資 2 億美金，估值達 60 億美元。

百川 M2 Plus 首創六源循證推理（EAR）范式，打造“醫生版ChatGPT”，讓大模型技術在輔助臨床診療場景邁過“敢用、可用”關鍵門檻，不僅適合中國醫療環境，在美、日、英的醫療評測中均超過 OpenEvidence，代表中國在世界大模型擂臺上再下一城。

首創六源循證推理范式，把循證做“全”、檢索做“準”、推理做“對”

六源循證：打造從原始研究到真實世界的完整知識體系

循證醫學（Evidence-Based Medicine，EBM）作為現代醫學知識體系的核心范式，是確保醫療決策可信的關鍵。

通用大模型像一個“博學但不可靠”的專家，即便有搜索增強，也會因為知識來源混雜不符合循證醫學范式。

百川不僅主動屏蔽了互聯網的非專業信息來源，只使用權威來源的醫學證據，還在此基礎上構建了從證據、到實踐、再到真實世界反饋六層證據類型的知識體系：

原始研究層：索引海量醫學期刊論文 4000 余萬篇，超過 PubMed 收錄數量，涵蓋基礎與臨床研究成果，是循證鏈條的起點；
證據綜述層：整合系統評價和 Meta 分析等高等級證據，提供經過匯總的研究結論；
指南規范層：引入國際和國內權威機構發布的臨床指南、專家共識和行業標準，確保回答符合最新規范；
實踐知識層：包含臨床病例報道、一線專家經驗和診療技巧等實用知識，貼近醫療實踐場景；
公共健康教育層：匯集權威科普和公共衛生知識，如疾病預防宣教、健康指導等內容，服務大眾健康教育；
監管與真實世界層：涵蓋藥監部門公告、臨床試驗登記及大規模真實世界研究數據等信息，以反映最新的監管動態與人群研究結果。

這個金字塔形的“六源”，是一層一層演化而來：原始層回答“事實是否存在”、證據層回答“結論是否一致”、指南層回答“行業如何規范”、實踐層回答“醫生應如何決策”、公共層回答“患者應如何理解”、真實世界層回答“是否存在新風險”。這讓模型從“生成答案”走向“據實回答”，實現了從語言可信度到知識可信度的躍升。

循證檢索：從“找得到”躍升到“找得準”

傳統的 RAG 檢索往往追求“找得到”，而循證檢索追求“找得準”。

M2 Plus 采用 PICO 框架（人群 Population、干預 Intervention、對照 Comparison、結局 Outcome）思維，將查詢轉化為結構化醫學問題，并在六源數據庫中進行分層匹配。例如：當輸入“老年 OSA 患者使用 CPAP 能否改善高血壓？”時，系統優先在高等級證據（系統綜述、RCT元分析）中搜索，并自動辨識研究質量、樣本量、置信區間與結局指標。

這種方法克服了通用 RAG 的兩大缺陷：一是缺乏醫學語義理解（無法區分 CPAP 療效與依從性分析）；二是無法辨別文獻可靠性（新聞與指南同權）。在此基礎上，M2 Plus 能夠三步精準鎖定“鐵證”：

第一步，智能提問：自動將用戶問題拆解成多個專業的 PICO 查詢，進行“地毯式”證據搜索，兼顧精度與廣度。

第二步，精準鎖定：通過自研的 Medical Contextual Retrieval 技術，完整保留文獻的臨床因果鏈，避免信息割裂。

第三步，證據排序：內置“審稿人”模型，自動評估證據等級（如 RCT、Meta 分析），將最可信、最相關的“鐵證”優先呈現。

循證推理：讓模型“像醫生一樣思考”

如果說“六源循證”解決了醫療 AI 知識從哪來的問題，“PICO 智能檢索”解決了如何快速找到正確證據的問題，那么最關鍵的一步是如何確保 AI 在手握證據時，不會“自由發揮”、脫離事實胡亂回答。

百川智能在 M2 Plus 中引入“循證增強訓練”機制，為模型的回答過程“上了一道鎖”，從根本上改變了其生成邏輯，讓它學會“引用，而非臆測”。

首先，在訓練中獎勵“引用”，懲罰“臆測”，準確引用權威來源（指南、文獻）時會獲得高分，一旦回答脫離了檢索到的證據就會受到懲罰；

其次，內置“證據評估器”，模型被訓練得能夠自動評估檢索到的證據質量，優先采納高可信度的信息（RCT、Meta分析），并將其無縫嵌入到推理鏈中；

第三，句句有據，可回溯、可驗證：經過訓練，M2-Plus的回答風格發生了根本性改變，在輸出關鍵結論時，會自動附上參考文獻、指南出處等來源，這賦予了 AI 回答更高的可解釋性與可信賴度。

幻覺最低，達到與人類資深臨床專家同等可信度

這種“循證驅動”的生成邏輯，讓 M2 Plus 幾乎杜絕了無中生有的內容。在多場景評測中，其綜合幻覺率在所有大模型當中最低，降為 DeepSeek R1 最新版的三分之一，顯著領先 OpenEvidence。不僅如此，在病史分析、診斷思路、治療方案等真實復雜的核心醫療場景中，達到了與人類資深臨床專家同等的可信度。

例如，提問：目前公認最有效的基因治療藥物靶向足細胞遞送方案有哪些？”很多通用大模型回答這個問題時都產生了明顯幻覺，而 M2 Plus 的回答不僅查到了全球最新研究成果，還能按納米遞送系統/AAV 病毒載體等維度分類。該回答所引用文獻非常具有專業性、且信息源緊貼頂刊 ERA 等最新進展，對足細胞基因治療這一前沿方向，幫助醫生快速了解國際熱點技術路線，少走彎路。

對于 PACAP 在偏頭痛中的研究進展的提問，多數大模型給出的答案都因幻覺問題而不可用。而接入了 M2 Plus 百小應能夠能梳理全球 PACAP 偏頭痛研究，從機制到 3 期臨床試驗自動串聯證據鏈，不僅回答問題，更讓醫生站在未來看科研進展。

無論是專業醫療問題還是常規醫療問答M2 Plus都會引用權威醫學證據

多國醫學考試大幅領先，醫學知識運用能力超越人類醫生

美國執業醫師資格考試（USMLE）是評估臨床知識和推理能力的黃金標準，即便是經驗豐富的臨床專家，要突破 90 分也極具挑戰。在此項考試中，M2-Plus 取得了驚人的97分，不僅遠超人類考生平均水平，更與 GPT-5 的成績持平，穩居全球第一梯隊，展示了其世界級的臨床問題解決能力。

中國執業醫師資格考試（NMLE）及格線為360分，對于廣大醫學生而言，能考到 450 分以上已是高分，超過 500 分則被視為“學神”級別。M2 Plus 取得了568分的“碾壓級”成績，在所有公開測試的主流大模型中位列第一，充分證明其對中國臨床指南和醫療實踐的掌握已爐火純青。

如果說執醫考是“從業門檻”，那么中國碩士研究生招生考試臨床醫學綜合能力（西醫）考試則是頂尖醫學生競爭的“華山論劍”。該考試不僅知識面廣，且題目設計極為復雜，對臨床思維要求高。通常，能考到 280 分以上的考生，都是協和、北醫等頂尖學府的頭部學霸。M2 Plus 在此項考試中取得了282分。同時，在日本、英國、澳大利亞等國高級醫師職稱晉升考試中，準確率 85% 以上，遠超各國及格線。

這些壓倒性的成績充分說明，M2 Plus在復雜醫學知識運用上的能力，已經超越了人類醫生水準。

“醫生版 ChatGPT”推動醫療 AI 邁入可信可用階段

接入 M2 Plus 的百小應已在各大手機應用商店更新，成為“醫生版 ChatGPT”。為方便電腦端使用，網頁版（ying.ai）也同步上線。

除了需要高效地輔助臨床決策，醫生還開始面對新的挑戰：患者用 DeepSeek 自診和帶著 DeepSeek 就醫的現象越來越多。雖然知道大模型可能有幻覺和偏頗，但沒有時間和精力去甄別哪句對哪句錯。通過百小應，醫生有了面對通用模型挑戰的“專屬武器”。

對于希望深入理解診斷、治療、預后、病因、檢查等背后科學邏輯的患者及家屬，面對復雜的就醫環境和不同醫生給出的診療方案，百小應讓他們有機會獲得最新最權威的知識、頂尖專家的思維和視角，得到無限耐心的專業解答。

Baichuan-M2 Plus 也提供了標準化 API 接口，醫院信息化部門、互聯網醫療、大健康服務等各類泛醫學機構，以及從事醫療 AI 行業的開發者，則可以通過 API 將循證推理接入服務場景，提升 AI 服務的醫學專業性。

通過開源 Baichuan-Ｍ2、發布 Baichuan-Ｍ2 plus、百小應，開放 API，百川致力于持續提升 AI 醫療在真實臨床場景的可用性，推動大模型在嚴肅醫療場景進入落地可用新階段。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.