![]()
說起 AI+醫療,很多人第一反應是:會不會不靠譜?
然而,現在的 AI,已經具備考醫生正高級職稱的能力了。
7月23日,夸克健康大模型成功通過了中國 12 門核心學科( 包括全科醫學、普通內科學等 )的主任醫師( 正高級職稱 )筆試評測,成為國內首個完成這一挑戰的大模型。
![]()
在醫療資源分布不均、全科醫生供給仍顯不足的背景下,如何借助科技手段緩解基層壓力、提升初診效率,一直是當前行業關注的焦點。
《 中國全科醫生培養和使用發展報告( 2022 )》統計顯示,截至 2022 年,我國全國全科醫生數量約 46 萬人,人均配置僅為每萬人口 3.3 名,距離 2030 年 “ 5 名每萬人 ” 的目標仍有顯著差距。
資源壓力催生出對可信的醫療智能系統的迫切需求,各個廠商紛紛入局,夸克也是其中之一。
武漢大學人民醫院腫瘤中心副主任醫師汪晶對此事評價道:“ 不管是對醫生還是患者來說,這種幫助都是一個非常大的進步 ”。
一方面,大模型能有效改善盲目就醫現象,另一方面,也能提高醫療資源的匹配精準度。這使得大眾能更早期發現病因,也會有助于減少醫院漏診、誤診的情況。
為了更深入了解相關細節,知危就行業和技術兩個層面與夸克團隊進行了交流。
以下是知危與夸克專家團隊的對話內容,經過了不改變原意的編輯。
知危:即便評測中夸克健康大模型各項能力已經是最強,但距離 100% 準確率還很遠,特別是高級職稱醫生級別的問題。在這個準確率下將其投入 C 端應用,如何保證內容質量和安全性?
夸克:一個可供參考的角度是,在實際主任醫師職稱考試中,擁有多年經驗的醫生的通過率在 60% 左右。夸克健康大模型主任醫師考試測試中正確率為 67.7% 。
為保障內容質量,我們建立了龐大的專家標注運營體系,擁有 10 名三級醫院主治醫師以上專職醫師和簽約合作的 400 余名三甲醫院副主任醫師以上專家。他們會嚴格按照真實診療場景定義樣本構建策略,進行多層次審核與質檢,確保訓練數據和模型輸出的專業性和規范性。此外,模型內部通過一致性驗證器校驗推理路徑與答案的一致性,并有 “ 對抗作弊 ” 機制,盡可能避免模型生成誤導性內容。
知危:據稱 “ 夸克健康大模型實現了從初級到副高級職稱的兩級跳 ”,請問初級醫生和副高級職稱、高級職稱醫生分別需要哪些關鍵維度的能力?
夸克:夸克健康大模型在職稱考試中能力的躍升,體現了醫生不同層級所需的關鍵能力遞進。
初級醫生: 核心是基礎醫學知識的廣度與準確性,能正確解答常規疾病的單選題,掌握標準化診療流程。考試以單選題為主,案例分析占比較低。
副高級職稱醫生: 要求更強的專業知識深度、多選判斷和初步案例分析能力。需清晰把握正確邊界,應對多選題比重攀升。
高級職稱醫生: 需具備卓越的綜合知識、高難度多選題判斷及深度臨床推理與綜合分析能力。考試中多選題和案例分析題比重極高,對模型在“慢思考”下結合綜合知識解決細微辯證問題的能力提出極高要求。
大模型本質是概率模型,概率模型做單選題的時候相對容易,因為只要讓大模型選擇概率最大的選項當作正確答案就可以。
但是多選題很不一樣,不單需要模型知道各個選項的概率,還需要知道多大的概率可以達到正確性的邊界,所以在多選題上,模型對正確答案穩定的邊界需要非常清楚,否則容易選漏或選錯,甚至答不全。為解決這一難題,需要非常重視正確性對齊的技術。
夸克大模型在多選題和案例分析題上的表現遠超通用模型,是 “ 慢思考 ” 深度推理能力和正確性對齊技術的體現。
知危:你們在醫療、健康相關搜索中索引來源是否包括了內部知識庫和外部來源?如果有外部來源,這些內容如何保證質量?內部和外部來源都允許用戶進行來源驗證嗎?
夸克:夸克健康大模型在搜索中融合了內部構建的百萬級醫學知識圖譜、術語集與四大類外部權威資料,包括網頁數據、書籍、指南、藥品說明書、中英文文獻及公開病歷數據。
為保證外部內容質量,我們建立了 A-D 分級且細分 5-9 級的循證體系,依據出版時間、出版社權威性及臨床研究證據( 如 PubMed、臨床試驗數據庫 )對知識進行優先級排序和沖突消解。
模型采用 “ 邊想邊搜 ” 機制,在輸出答案時會針對每個觀點給出依據來源,方便用戶進行論證和驗證,確保信息的透明度和可信度。
知危:你們建立了很龐大的專家標注運營體系,這對于數據質量和規模特別重要,也是醫療
AI 領域的痛點,請問你們團隊如何實現這一點,在合作對象篩選上有什么原則?
夸克:我們組建了醫學運營團隊,與超 400 位權威專家和 1000 余位專職醫生共建知識庫。合作標準以專業背景、臨床經驗和數據處理能力為核心,優先選擇三甲醫院資深醫生及具備科研能力的專家,確保數據專業度與一致性。
知危:過程獎勵設計和分配在學術、工程領域還是普遍的難題,夸克健康大模型的技術報告中講解了相關的方法,可否補充說明一下當前方案的合理性和研發過程的關鍵點?
夸克:過程獎勵是構建高可信推理模型的關鍵。夸克健康大模型的合理性在于訓練 AI 學會整體的診療思維。為此,我們團隊構建了獨特的 “ 可驗證強化學習范式 ”,通過 “ 假定模型 ” 提供過程反饋,引導模型形成符合臨床規范的安全思維鏈。
研發關鍵點在于:
- 構建符合臨床思維的高質量思維鏈數據;
- 引入一致性驗證器模型二次校驗推理與答案一致性;
- 有效對抗模型在訓練中的 “ 作弊 ” 行為,即模型生成結構合理但本質錯誤或欺騙性的推理過程。夸克通過人工標注負面案例和迭代訓練驗證器,逐步壓縮模型 “ 作弊 ” 空間。
當然,思考思維和真實醫生的能力對齊還需要一個過程。以及在復雜的延續性情景,也還需要做對齊,比如不僅要能處理病人的診斷和治療,在病情發生細微變化的時候,模型要獲取微變化的邏輯,并進行合理決策。
知危:合成數據的應用目前看已越來越成為共識,包括醫療行業和其它許多領域,請問大規模使用合成數據為夸克健康大模型研發帶來了多大的降本提效作用?
夸克:確實有顯著的降本提效作用。醫療數據高度稀缺且人工標注成本極高。我們通過利用 SOTA LLM 生成原始思考數據( CoT ),并結合多階段訓練中的篩選機制,極大緩解了醫療數據人工標注的成本。
合成數據系統能規模化生成樣本,使專家精力更集中于處理核心痛點數據( 如冷啟標注、關鍵可驗證數據 ),提升整體數據生產效率。
另一方面,合成數據的使用對模型訓練也有其必要性。舉一個例子,醫療專業資料里有很多圖和表,大量信息涵蓋在表格里,但表格對訓練來說相對不是那么友好,所以需要進行一些數據合成,把通順的自然語言匯入到底模里。
知危:夸克健康大模型的循證等級劃分體系,看起來是一個很
嚴謹有序的質量驗證體系,請問如何理解目前確立的循證等級的合理性?
夸克:其合理性在于對傳統循證醫學原則的創新性適應與拓展。
傳統的循證醫學標準( 如系統評價到未形成共識的實驗 )雖嚴謹,但難以直接覆蓋如 WHO 資料、專業書籍等 “ 表外 ” 且非結構化的權威醫學內容。
為此,我們團隊對其進行了 “ 影射 ”,重新劃分為 ABCD 四個大等級,并進一步細分為 5-9 個子級別。這一多層級體系的核心目的在于:
- 沖突知識的精準判別: 當模型遇到相互沖突的知識時,該分級體系能指導模型根據知識來源的循證等級,優先采納最權威、最可靠的信息,確保輸出結論的醫學嚴謹性。
- 強調權威性與時效性: 體系高度關注知識的 “ 權威性 ” 和 “ 時效性 ”。例如,在檢索不同年份的診療指南( 如 2024 年與 2022 年的高血壓指南 )時,模型會明確優先使用最新且更具權威性的版本,這對于快速迭代的醫學知識至關重要。
- 保障內容生產質量: 這一體系也是大規模 AIGC 科普內容準確性的底層保障。它確保了模型在生成個性化健康科普內容時,其背后引用的知識是經過嚴格循證、具備高可信度的。
這套體系保障了夸克健康大模型所輸出內容的權威性、及時性和準確性,是其 “ 正確性對齊 ” 技術策略的核心組成部分。
內容質量對醫療領域的重要性不言而喻,實際上我們觀察到,很多通用大模型在輸出藥品相關用法的時候,錯誤非常分散并且非常細微。很多模型經常把藥品名字輸錯,在某些情況下可能是致命的。比如孕婦發燒的時候,能否吃布洛芬?有些模型就會回答是能吃的。但實際上,布洛芬在 FDA 的等級是 C 類,這種情況下應該禁用。
知危:當前版本除了圖片,沒有引入對更多多模態信息( 比如聲音、面部表情等 )的處理,背后的原因是什么?未來是否有相關規劃?
夸克:夸克健康大模型目前支持語音轉文本后作為輸入,目前還不支持語音作為直接輸入。文本和圖像在醫療數據中更為主流且標準化。
其他模態在診斷可靠性、標準化及技術成熟度上仍面臨挑戰,整個行業都在持續推動多模態在醫療領域的探索,我們也將繼續努力。
( 對話全文完 )
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.