網易首頁 > 網易號 > 正文申請入駐

夸克健康大模型萬字調研報告:透視主任醫師級AI大腦背后的工程化

2025-07-23 17:22:20　來源: 機器之心Pro

北京舉報

分享至

（一）調研摘要

（二）推理數據情況特色

（三）推理數據產線一：冷啟動數據與模型微調

（四）推理數據產線一：推理強化學習訓練

（五）推理數據產線二：高質量不可驗證數據集

（六）強化學習推理系統：高質量推理數據質量評估

（七）強化學習推理系統：多階段訓練

（一）調研摘要

第一，通用大模型能力雖快速增長，但要在高專業度的健康醫療領域“煉成”性能高且可靠的推理模型，仍極具挑戰。業界主流方向早期由DeepSeek R1驗證有效。當下，或蒸餾DeepSeek R1模型數據，或在小數據集上探索較為常見；然而，在選擇合適預訓練模型的基礎上，從頭設計并搭建整套流程，并用于業務一線，較為罕見。尤其在健康醫療領域，自建整套流程化系統，能夠明確模型從哪些數據，以何種方式學到哪些知識，哪個環節學得不好；不僅提高性能，而且能提高可解釋度和信任度。調研發現，夸克健康大模型直接支持搜索業務一線，并支持智能體夸克健康助手、夸克深度研究產品（僅開放試用）。

第二，高質量的思考數據（Chain-of-Thought, CoT）適合作為推動模型形成強化學習推理范式的基礎素材已是共識。強化學習通過“結果導向、過程探索”的范式，可在訓練中激發模型，也是共識。推理模型效果上限受制于多個與數據強耦合的技術節點。調研發現，夸克健康大模型團隊認為：在已知目標結果（如診斷結論）的情況下，由于模型已經在真實醫生的思考數據中學習到初步推理能力（高質量冷啟動數據），再用強化學習方法有效激發模型探索出多樣的推理路徑，從而自主找到最適合模型的推理路徑，進一步拔高模型推理能力上限，在多階段訓練方法中特意設計出篩選優質數據的方法，進而與人工難以覆蓋的部分共同努力提高數據質量，可以極大緩解醫療數據人工標注的成本。

調研發現，在后訓練階段，他們精心設計多種多階段訓練方法（可以是模型能力任務的多階段，可以是病藥術檢任務分別開展的多階段，可以是篩選數據的多階段，也可以是訓練方法的多階段），與此同時，配合大量實驗，拔高模型學習能力的空間。夸克健康大模型團隊對思考數據的觀測、分析、篩選等操作使用多種類型的模型，如驗證器判斷結果準確性，過程獎勵模型和結果獎勵數據評估推理質量，用多維度綜合手段以提升可控性、可信度和專業度。

第三，追求推理模型效果長期提升的雄心，必須落實于有耐心建設提高數據與模型質量的“基礎設施”。調研發現，夸克健康大模型團隊的基礎設施包括：

第一項，大規模（百萬級）醫學知識圖譜，以及帶有ICD編碼的《夸克醫學術語集（Quark Med OmnisCT）》。

第二項，推理數據生產線（下文稱“數據產線”）。團隊認為，破解困局需自建定制化產線，即構建一條滿足“適配”“效率”，而非單純“為了提高質量而提高質量”的產線。可將數據分為可驗證數據與不可驗證數據兩種不同類型，并設計兩條平行的數據產線。該產線既產出高質量數據，也“同步產出”模型。端到端強化學習，既融入產線，也融入模型系統。

第三項，強化學習推理多階段訓練系統，在此基礎之上，形成極致工程化。

調研發現，若想提高醫療推理模型的最終效果，需重視模型訓練，更需要在數據產線上投入更多精力。從醫療認知的角度出發，來構造數據和任務目標，再根據數據類型和任務目標設計合適的多階段訓練方法。

（二）推理數據情況特色

臨床思維是醫生在面對患者時，通過有目的的提問、信息收集和邏輯推理，逐步形成診斷和決策的核心過程。若健康醫療大模型希望在臨床場景中發揮價值，就必須“內化”推理框架。

在數據結構設計上，健康醫療推理數據采用三元組形式，三個要素分別是：

第一，問題（Question）；

第二，思考過程（Chain of Thought, CoT）；

第三，最終答案（Answer）。

“問題，思考過程，最終答案”下文簡稱“問思答”，同時含有這三種元素的數據稱為“整組數據”。整組數據的價值在于，它不僅要求模型能夠得出正確答案，還要求其過程合乎醫學邏輯，可解釋，可信可復現。思考過程質量越高，模型越能體現其推理能力，進而支撐高水平的可解釋性。“問思答”整組數據的獲取成本遠高于普通問答數據，是核心數據資產，若進一步引入時間序列等結構復雜性維度，構造難度將指數級上升。此外，醫療健康場景常存在“一題多解、路徑多樣”的特點，提出了更高難度的解決方案的需求。

1.問題（Question）

在健康醫療領域，高質量提問激發模型高質量思考與回答。問題（Question）通常伴隨對自身身體狀況的自述信息，具有較強的上下文描述性與情境還原度。或者說問題（Question）是含有健康醫療背景情況與提示詞的完整問題，例如，常見問題包括：“我打噴嚏、流鼻涕、嗓子疼，并接觸過流感病人，該吃哪種藥？”問題不單單是一句話，而是含有健康醫療背景情況與指令的結構化數據。此認知會影響過程獎勵模型的設計。

調研發現，夸克健康大模型團隊從問題（Question）開始，建立完備的標簽體系。標簽體系是將健康醫學概念標準化、結構化的工程手段。正確使用概念是思維的基礎，這就要求定義要清晰，內涵要確定，語境要明確。在醫療領域，對概念的使用關系到對疾病的認識，進一步影響診斷與治療（姚樹坤《臨床思維》）。

夸克健康大模型標簽體系指的是，對每個問答樣本中所涉及的關鍵信息進行標準化、結構化的標注過程。一個可以被模型獨立識別、帶有明確健康含義的最基本信息片段。

比如，醫學實體：疾病名稱（遠極骨折），癥狀（移位、腫脹），治療（石膏固定），藥物（非甾體抗炎藥）等；

屬性信息：恢復周期（4周）等；

意圖類型：表示用戶希望達成的目標，健康咨詢、找藥、選擇治療方案等。

這一標簽體系的構建基礎來源于醫療問答平臺的真實信息與夸克搜索引擎日志，通過自動術語提取、屬性分類與意圖識別等技術，將用戶問題解析為標準化的結構字段，最終形成標簽框架。

調研發現，夸克搜索歷時五年，沉淀近千萬日活搜索日志、大規模（百萬級）醫學知識圖譜，以及帶有ICD編碼的《夸克醫學術語集（Quark Med OmnisCT）》，為標簽體系與術語標準化提供基礎。自然語言中的醫學表達具有極強的多樣性與模糊性，比如“冠心病”“冠狀動脈粥樣硬化心臟病”本質是同一種疾病，但表達不同。使用標準術語集，可以將這些語言的不同表達統一映射到唯一編碼，確保模型的一致理解，減少誤判或信息丟失。同時，該標簽體系支持結構化篩選。標簽可作為“索引”或者“字段”，調用特定標簽子集，提高質量控制精度，比如，一級標簽（用戶意圖），二級標簽（藥物治療）。

另外，一方面標簽需與醫學指南與術語體系保持同步，支持層次化擴展，另一方面，如果標簽體系數量僅百余，面對罕見病、亞專業細分場景就會捉襟見肘。因此，標簽體系是問題（Question）多樣性的基礎，也是龐大數據細顆粒度的管理工具，直接決定了醫療健康大模型在長期演進中的上限。

2.思考（CoT）

模型不僅看到病歷和答案，還要學習“醫生是如何思考并得出結論”的全過程，即“問題-思考過程-答案”（問思答）。而健康醫療知識天然有難易之分，思考（CoT）也應區分難易。引入劃分難度的構造方法，使模型在訓練過程中逐步適應和掌握越來越難的醫療問題，達成從簡單到高難度的能力躍遷。調研發現，夸克健康大模型團隊在此理解之上，構造“思考行動體系（Action）”，深入刻畫和表達健康醫療特有的思維路徑。該體系的提出，部分解決了長期以來困擾醫療大模型訓練的關鍵問題之一——如何衡量思維過程質量。

僅靠給出最終答案無法判斷模型是否真正理解，將思考過程拆解為可觀測的“思考行動（Action）”——典型思考行動包括問題重述、知識回憶、問題反思、總結等——用于精確描述思考的每一步的具體行動，有助于了解思考鏈里的細節。另外，思考行動提供一種共同語言，方便拔高推理質量。比如，假設思考（CoT）難度越高，問題（Question）難度也越大，以此原則篩選有難度的思考數據，進而篩選出與思考過程配套的問題（Question）。

后續設計多種篩選機制，會在下文中介紹。

3.最終答案（Answer）

由答案類型入手，將數據分為可驗證數據與不可驗證數據兩種不同類型，它們在獲取、篩選等方面存在顯著差異，需分開討論。

第一類，可驗證類的答案，相對簡潔，通常為醫學實體或明確判斷。對于可驗證的答案（Answer），用驗證器模型（Verifier）與標準答案（Groundtruth）進行比對判斷。

第二類，對于不可驗證任務，如醫療建議、健康科普等長文本，內容面廣，語言多變，邏輯各不相同，標準答案（Groundtruth）難以唯一。僅憑獎勵模型對單一維度打分，無法完全捕捉醫學語境下的細致與專業；需要通過對正確性、完整性、合理性分別建立偏好獎勵模型打分，并依據分數篩選數據與反饋，或使用規則、驗證器與獎勵模型協同發揮作用。

另有，健康醫療無思考數據，這類沒有思考過程的數據，有兩種處理方法：

第一，以多科室全職專業醫生團隊精細標注的方式，構造正確、權威、復雜健康醫療內容問答集等高質量數據，或團隊全員標注。人工標注可在初期數據資產貧乏時，快速補充“糧草”。

第二，用SOTA語言模型對問題（Question）生成候選答案，這類數據有助于彌補多領域知識，提升訓練模型問答水平（邏輯性、全面性），可低成本高效獲得。

截至目前，上文提到的所有數據種類，都可以用獎勵模型來篩選高質量數據。獎勵模型既是強化學習的算法組件，又是篩選數據的工具。

綜上，調研組認為：伴隨強化學習技術在模型推理能力上的助力，整個推理微調與強化學習系統的極致工程化會成為提高壁壘的新競爭。

兩條平行數據產線逐步關鍵訓練流程為：

推理數據產線一（可驗證）

第一步，冷啟動數據；

第二步，冷啟動模型微調；

第三步，推理強化學習；

第四步，可驗證數據蒸餾；

第五步，高質量可驗證數據集。

推理數據產線二（不可驗證）

第一步，不可驗證數據蒸餾；

第二步，高質量不可驗證數據集。

（三）推理數據產線一：冷啟動數據與模型微調

冷啟動數據需要專業醫生精準標注，為后續強化學習階段提供穩定起點，避免從一開始就帶來“混亂”。構造冷啟動數據，使用SOTA語言模型生成高質量問和答及完整推理鏈（即思考過程），再由職業醫師逐字逐句逐條校驗，確保健康知識與權威一致；驗證醫學事實、診療論證邏輯和建議的合理性，確保邏輯可靠、無風險；同時，數據團隊確保輸出按一定的格式，格式便于符合后續獎勵模型評估規范。

調研發現，夸克健康大模型團隊對冷啟動數據質量給予極高重視。原因在于，冷啟動階段的數據，模型此前從沒“見過”。一旦引入邏輯錯誤，后續會連續出錯，形成“早期污染”；同時，強化學習會進一步放大錯誤，且用過程獎勵模型識別和修正，成本高昂。不如圖難于易地處理。團隊曾遭受教訓，后被醫學專家指出時才得以重視。

調研發現，夸克健康大模型團隊采用未經任何下游微調的預訓練模型為起點，完全避免使用已經經過某一類任務微調過的模型，會對醫療領域模型起步產生的干擾。他們認為，當預訓練的模型接近于“空白”初始狀態，模型數據分布的多樣性強，信息熵大，后續提高空間大。

他們觀察到，此階段模型展現出一定的適應性：

第一種，當健康狀況信息不完整時，模型會先羅列與現有癥狀相關的多種疾病，再主動推演可能缺失的癥狀或風險因素，用以補齊證據鏈后再做判斷。

第二種，當輸入包含高度特異的關鍵體征時，模型首先鎖定具備顯著鑒別力的候選疾病種類，隨后用其余癥狀進行核對，快速完成推理。

這種現象的存在，說明模型能根據“題干與題面”動態運用不同思考方式，而非呆板套用固定答題模板。即便在冷啟動階段，模型已具備一定的初步推理行為能力（抓住焦點，思考路徑確定），為后續工作提供了可觀測的依據。這種觀察屬于捕捉到“推理的早期覺醒機制”，增加對模型推理的理解。

（四）推理數據產線一：推理強化學習訓練

調研發現，推理數據產線中用強化學習方法訓練，得到一個能力上限極高的推理模型是核心，后續需要對該模型進行蒸餾，所以，拔高該模型性能是整個系統最考驗模型創造力的階段，訓練時間最長，資源投入最大。這條推理數據產線同時也被稱為“可驗證數據產線”。

本階段訓練樣本，可按此五類劃分：基礎知識、疾病診斷、手術、藥物藥品、檢驗檢查。這五類數據均具有明確的醫療語義，可以按五類任務劃分驗證器模型，或多任務組合建模，或所有任務統一模型，具備高度靈活性。對于可驗證的答案，用驗證器模型（Verifier）與標準答案（Groundtruth）進行比對判斷，直接且穩定。為策略模型提供清晰監督信號，指導其向更高準確性的回答前進。

另外，也可以在構造高難度“問題”的同時構造高難度的“思考”。在已有醫生構造的病例數據中，選取結構完整、信息豐富的住院病例作為基礎材料；針對這些病例中已有的答案，去除部分“泄題”性描述，即那些直接透露最終關鍵結論的信息；保留對結論有關鍵參考價值，但不直接指向答案的癥狀、體征、檢查結果等內容。高難度問答數據特征之一是，需多步推理才能得出結論。

調研發現，在該產線階段，以激發健康醫學知識運用為目標，提升回答結果的多樣性與覆蓋度，增強其對問題潛在解空間的探索能力。在強化學習階段，策略模型執行幾十次輸出采樣（比如，每題生成50個候選回答），后期實驗證明，這一采樣策略有效拓展了策略模型的行為空間，顯著提升了回答結果的多樣性與覆蓋度，增強了其對問題（Question）潛在解空間的探索能力。每輪迭代中同步產出階段性最優的策略模型與驗證器。策略模型設計為統一模型，不依賴任務類型切換。

為了拔高學習潛力，策略模型于百萬次探索，在輸出的數據中篩選有難度的數據，一輪一輪提高篩選數據的難度。這種“篩選一次難題數據，提高一次模型做難題的能力”的方式，源源不斷提供給模型足夠好、足夠難的數據，用數據質量的提升逼近模型能力的上限。后期實驗證明，這一采樣策略有效拓展了策略模型的行為空間。

從推理數據產線一（可驗證）中產出階段性最優的策略模型，對其進行數據蒸餾（問題，思考過程，答案）。可以認為，獲得該階段策略模型的目的是為了取得可驗證的高質量數據。現有高質量策略模型，再通過數據蒸餾，得到高質量可驗證數據集，進而用數據來遷移其醫學推理能力。

（五）推理數據產線二：高質量不可驗證數據集

首先，高質量不可驗證數據集的原始思考數據是通過數據蒸餾而來。不可驗證數據所用問題（Question）來源于醫生檢查過的高質量問題、醫學論壇提問、夸克搜索日志，引導模型生成具備思維過程的答案輸出，具體方式是對SOTA語言模型（OpenAI O3和DeepSeek R1）進行數據蒸餾，顯式引入思維過程數據。同時，此類數據的構造需要保障數據在表達多樣性與推理復雜度上的均衡分布。

其次，用偏好獎勵模型篩選不可驗證類答案（Answer）。由于該類型數據通常為長文本（語義復雜、表達多樣），標準答案不唯一。此外，人類打分容易受到個體差異、打分尺度不一影響，導致穩定性和可復現性差，因此可以采用強化學習中的偏好學習的方法。不可驗證問題較為開放，可包括全面性、無害性、相關性、邏輯性、正確性等多個方面。因此，需引入多個維度的偏好模型對答案進行打分。其中每個獎勵模型關注的角度不同（正確性、有用性），采用偏序建模方式輸出判斷信號，篩選出質量最優的答案作為最終輸出或用于后續訓練反饋信號。經過上述多輪篩選，得到下一階段數據。最終形成“具挑戰性且質量優秀”的思考過程數據樣本集。

另外，也有一些方法同時適用于可驗證和不可驗證數據。比如，通過篩選答案，間接篩選正確的整組“問思答”數據；以“最終答案”的正確性作為問題（Question）篩選衡量標準，對應的思考數據僅在答案正確時予以保留，答案錯誤則整組“問思答”數據作廢；進而形成“正確答案樣本集”。

綜上，為了篩選高質量數據（可驗證與不可驗證），使用多種類型的組件：驗證器、偏好獎勵模型、過程獎勵模型。健康醫療領域還有一個特色問題——“多解、多路徑”問題。調研發現，夸克健康大模型團隊對此高度重視，提出了一套針對性方法。

（六）高質量推理數據質量評估

健康醫療中“多解、多路徑”問題，可概括為：同一不完備描述的癥狀，可能對應多種疾病（比如，僅把發熱作為主線索，可涉及幾十種甚至上百種疾病，鑒別診斷時，根據主線索圍繞3-5個疾病展開為宜）；診療方案有多種合理選擇，不同醫生可依據不同線索和特征得出多種不相同，但均具有合理性的結論。

模型生成不在預設正確答案集合中的內容，這類輸出并不意味著錯誤，反而可能是高質量、有價值的補充信息，應給予正向獎勵。也就是說，對于那些雖未出現在標準答案中、但具有積極意義的結果，可以歸為“增益型”（nice-to-have）結果，亦應識別其價值，并給予相應評價分數，鼓勵模型輸出更全面、富有啟發的答案。

于是，在推理模型的訓練過程中，需要既能夠判斷正確答案（驗證器），又能處理模型有時生成的不在預設正確答案集合中的內容（生成式模型）。這種多個解法、多種路徑帶來的開放性和不確定性，使得訓練數據中的答案不能被作為唯一評判依據，這樣會產生錯判或者無法捕捉到細節獎勵信號。

健康醫療中的“多解、多路徑”問題，尤其值得注意的是，即便已經獲得一個答案，也存在殊途同歸的情況，答案的背后存在多個推理的思考路徑（CoT），且有好壞之分。在醫療的規范性、信任度、可解釋性的要求下，需要更好的路徑，更多維度的獎勵，鼓勵模型具有形成高質量診療思考過程的能力。因此，需要從“推理過程合理性”與“結果質量”兩個維度共同考量。

第一，如何設計針對最終答案（Answer）的結果獎勵模型（ORM）？

調研發現，由于強化學習過程中獎勵模型的計算成本也是一個重要的開銷，不能完全依靠模型，需要設計不同類型的獎勵組件（基于規則的驗證器、參數規模大小不同的模型），甚至部分獎勵信號可以完全基于規則，以此低成本地拓展模型能力邊界，而不需要人工標注。

對于明確的唯一的答案（比如診斷結果是某種疾病）設計基于規則的驗證器，用于評估策略模型輸出的答案質量，相當于規則打分器。該驗證器需要使用預構建的百萬數量級ICD編碼醫療術語集，進行結構化比對與相似度評估。需要注意的是，術語集是為每一個醫學概念提供唯一編碼，并定義其語義內涵、屬性特征以及與其他概念的結構關系的重要工具。

具體而言，設計三類規則來評估策略模型輸出內容與醫學知識體系的一致性：

1.路徑相似度：衡量策略模型輸出中的實體在知識圖譜中相對于目標概念的路徑接近程度；

2.圖結構相似度：基于醫學實體之間的距離關系，度量其在知識圖譜的圖結構中的語義接近程度；

3.術語相似度：通過分析名稱及其屬性信息的匹配度，判斷兩個術語在語言層面的相似性。

三類相似度指標按照加權方式進行融合，并經歸一化處理，輸出一個綜合得分，作為最終的驗證評分。

驗證流程如下：首先將策略模型輸出的醫學答案解析為若干具有語義意義的原子實體（如“上呼吸道感染”被拆分為“上呼吸道”（部位）與“感染”（形態學改變）。每個原子實體映射到ICD術語集中，獲得對應編碼。隨后，計算這些原子實體與知識圖譜中標準概念之間的相似度，只要任意一個原子實體命中，即可獲得部分得分，進一步提升評估的寬容性。最終得分作為獎勵信號反饋至策略模型，引導其優化生成策略。

實際情況中，病藥術檢的部分任務有明確答案標簽，部分任務無明確答案標簽，比如多解、多可能性解，還需要對答案的整體性進行評價獎勵，這部分采用生成式獎勵模型。

于是，設計獎勵系統X Clinical Judge的時候，需要考慮將兩種情況都覆蓋，用SOTA模型輔助人工構建打分示例數據，用該數據教會驗證器和獎勵模型打分邏輯。

對于有答案標簽的問題，除使用SOTA語言模型的輸出作為評分參考外，還可利用標簽訓練結果驗證器（Verifier），判斷策略模型輸出與標準答案的一致性。因為答案標簽的獲取成本較高，所以，對于無答案標簽類型的問題，采用SOTA語言模型（比如，DeepSeek R1）生成評分與簡短評價，作為結果獎勵模型訓練所用的打分示例數據。兩類數據融合訓練，獲得使用一套共享參數的生成式評分模型。獎勵模型輸出包括兩個關鍵維度的評分結果——正確性分數與全面性分數，并配有簡潔明確的語言評價，用于支持模型輸出質量的可解釋性。策略模型據此調整生成策略。最終，結果獎勵模型在醫療多解、多路徑的問題里，做出可信、可解釋的評估。

第二，如何設計“思考過程”獎勵模型（PRM）？

誠然，模型不僅要“答（Answer）對題”，還非常需要“講清楚思路（CoT）”。然而，缺乏現成答案標簽，無法直接監督訓練過程獎勵模型。

調研發現，團隊采取了人工提煉思維模式設計提示詞的方式構造訓練數據，從而訓練“過程獎勵模型”突破難點。

首先，醫學專家閱讀大量模型輸出樣本，根據臨床思維，提煉出若干類“思考方法”（比如排除法、反推法等），并且明確區別病藥術檢每種任務過程中關鍵的推理方式。把這些不同類型的思維模式總結為語言模板（Prompt），輸入給SOTA語言模型，得到對“思考過程”的打分數據（含簡短文字評價），用于訓練過程獎勵模型。再用過程獎勵模型對思考數據合乎醫學邏輯、結構清晰、信息完整的程度打分，并生成相關文字評論，本質是讓該模型學會評估質量。這些數據不會被用于直接微調策略模型產出最終答案的能力，以確保過程獎勵模型評估的獨立性。

過程獎勵模型和答案驗證器訓練完畢后，投入使用。

首先，在強化學習過程中，對同一個問題（Question），策略模型每次給出多組“思考（CoT）+最終答案（Answer）”后，使用過程獎勵模型和答案驗證器會分別對“思考+答案”進行兩個維度的（合理性與答案準確性）打分，加權計算之后，得出一個綜合評分。

其次，這一方法也可以在數據篩選過程中，強調“思考過程應支撐結果”的一致性原則。如果模型按照思維引導，正確完成了思考過程，但最終生成的答案仍然錯誤，則視為思維與結果邏輯斷裂，此類樣本將被剔除，或改寫為符合一致性原則的樣本再進行使用。

在不同類型的醫療任務中，“答案的決定性”與“思考過程的重要性”所占比重不同，所以“思考（CoT）”和“最終答案（Answer）”的評分在綜合打分中應賦予不同權重。

最終，使用GRPO算法，利用多組采樣及其綜合獎勵，用于計算策略優勢（Advantage），再經由策略梯度優化策略模型參數，從而提升模型在復雜醫療任務中產出清晰推理鏈條的能力。在訓練進程中，策略模型會越來越傾向于輸出有條理、有依據、有醫學常識支撐的思考過程和診療建議，從而具備類似高水平醫生的推理能力，而不是“拍腦門”的猜答案。

另外，引入一致性驗證器模型，對思考路徑與最終答案之間的一致性進行二次校驗。模型可能通過偶然或非健康醫療規范路徑得出正確結論，如果此類情況在訓練中被錯誤地賦予獎勵信號，長期而言，這將嚴重擾亂模型推理能力的形成。

第三，對抗“作弊”。

在訓練過程中，策略模型會利用規則漏洞“作弊”（hacking），比如，生成結構表達上合理優雅，但本質錯誤或欺騙性的回答。一旦這類回答沒有被準確識別，策略模型將持續朝錯誤方向優化，導致資源浪費，且模型能力無法得到實質提升。對此，介入方式是人工標注負面案例，補充樣本，迭代訓練驗證器。即發現不同作弊手段并有針對性迭代，隨著驗證器的改進，模型作弊空間被逐步壓縮。

作弊現象包括，但不限于：

第一種，模型在簡單任務上“快答”，即直接輸出結論，無推理過程，繼而在復雜任務上沿用同樣策略。

第二種，模型為獲取高分，重復高評分答案或在同一回復中多次強調同一結論，以最大化累計獎勵。

第三種，模型輸出看似合理，但事實性錯誤的答案，比如，并不存在的疾病。這類錯誤往往不易被沒有醫學專業背景的普通用戶察覺，但在專業醫生審閱下會立即暴露。在健康場景下，具有較高風險隱患。

調研發現，強化學習訓練過程初期，不宜引入過多復雜評判，需提供結構清晰、判斷標準單一的參照信號，避免策略模型在尚未穩定時被復雜標準干擾，走偏優化方向。

（七）強化學習推理系統：多階段訓練

當模型在此處微調，會有一個較高的起點，原因是微調采用的數據已經過精妙設計（多個階段的多輪迭代與篩選）。同時，在整個數據產線中，模型和數據并沒有壓縮與現實世界有關的多領域通用知識，在這一階段增加此類通用數據，使得模型處理問題的能力更全面，更具備解決現實健康與醫療問題和狀況的能力。

健康需求是一種低頻剛需，此類產品的用戶通常是有健康需求，或處于健康困擾中。模型回答不僅需確保準確性與專業性，更應體現出適度的情感關懷，避免因措辭不當引發用戶焦慮。

因此，需要偏好獎勵模型對齊風格，方法是先訓練獎勵模型，選擇基于“成對比較樣本訓練機制（Pairwise）”，學習相對偏好。模型在推理階段獨立地對單個回答給出打分（Pointwise），連續打分，而非分類結果。隨后，獎勵模型輸出生成一個連續實數作為質量評分，用于引導策略模型更新方向。

再次引入數據產線一階段的驗證器，該驗證器來源于前一階段數據產線中的強化學習階段，具備標準答案或判定規則。此處的再驗證，用于防止策略模型經過多階段的訓練后產生遺忘，該步驟在健康醫療領域尤其重要。該訓練階段采用混合訓練的方式，偏好獎勵模型（RLHF）和驗證器補充檢驗（RLVR），兩者共同保障了策略模型能力迭代增長的同時，對醫學任務規范性與推理邏輯的長期保持與強化。

綜上，夸克健康大模型團隊，使用兩條平行數據產線產出的高質量訓練數據，結合多階段訓練方法，得到具備一定推理能力與可靠性的健康醫療推理模型。

（完）

附錄

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.