Reasoning Models are Test Exploiters:Rethinking Multiple Choice
推理模型是測試利用者:對選擇題的再思考
https://arxiv.org/pdf/2507.15337
《Reasoning Models are Test Exploiters: Rethinking Multiple Choice》系統性地質疑了當前大語言模型(LLMs)評估中廣泛依賴的多項選擇題問答(MCQA)范式,并揭示了一個關鍵現象:最先進的推理型模型在 MCQA 任務中的高分,很大程度上源于對選項結構的“利用”(exploitation),而非真實的問題求解能力。
核心發現與重點概述:
MCQA 高分會夸大模型的真實推理能力
當模型在看到選項之后再進行思維鏈(CoT)推理(即 QMC-CoT 設置)時,其準確率顯著高于完全自由作答(Q-CoT)。這種差距在大型推理模型(如 o3、Qwen3 等)中尤為明顯,可達 30–40 個百分點。這表明模型并非僅靠內部知識推理,而是利用選項中的線索、統計模式或排除策略來“反向推導”答案。推理型模型是更強的“測試利用者”
與直覺相反,參數規模更大的模型并不一定更“誠實”;恰恰是那些具備強推理能力的模型,更善于從選項中提取信號。例如,Qwen3 系列(尤其是較小版本)在僅憑選項(無題干)的情況下仍能大幅超越隨機猜測,顯示出極強的選項利用能力。選項設計深刻影響評估效度
引入“以上皆非”(NOTA)選項可有效削弱模型對選項的依賴,縮小推理型與非推理型模型之間的性能差距。
即使將干擾項變得更難(如 MMLU-Pro 將選項從 4 個增至 10 個),也不能可靠抑制利用行為——某些模型反而更擅長從中篩選正確答案。
“兩階段”評估揭示真實推理能力
通過先讓模型自由推理(Q-CoT),再呈現選項供其選擇(Q-CoT-MC-1T 或 Q-CoT-MCNA-CoT),可以分離“真實推理”與“選項利用”。實驗表明,當正確答案被 NOTA 替代時,許多模型性能顯著下降,說明其第二階段依賴選項而非初始推理。對評估實踐的三大建議:
- 解耦推理與選擇
:應分別報告模型在自由生成和選項選擇階段的表現。
- 設計選項無關的題目
:題干不應暗示選項存在,并優先采用自由文本答案或事后映射評分。
- 警惕“更難干擾項”的局限性
:僅靠增加干擾項難度無法根治利用問題,需結合格式設計(如 NOTA)與評估協議改進。
- 解耦推理與選擇
該論文呼吁研究界重新審視 MCQA 作為 LLM 能力代理指標的有效性。它指出,當前排行榜上的高性能可能部分反映的是模型“應試技巧”而非真實理解力。為構建更可靠、更貼近現實任務(以自由生成為主)的評估體系,必須超越傳統多項選擇范式,發展更能隔離真實推理能力的評測方法。
![]()
![]()
摘要
在評估大語言模型(LLMs)于問答任務中的表現時,通常會讓模型從一組固定選項中進行選擇(即所謂的多項選擇題問答,MCQA)。盡管實際下游任務通常不會向系統明確提供可供選擇的選項,但這種方法仍被廣泛采用,因為它使自動評分變得簡單直接,并且往往能產生具有挑戰性的基準測試,這些測試與下游任務的表現具有足夠良好的相關性。本文研究了這一趨勢在當前最先進的推理模型中是否依然成立,系統性地評估了15個不同的問答基準(例如 MMLU、GSM8K、MATH、STEER-ME)和27個不同的大語言模型(包括小型模型如 Qwen-2.5 7B Instruct、中型模型如 Llama-3.3 70B Instruct,以及大型前沿模型如 OpenAI 的 o3)。對于每一對模型與基準,我們考慮了5種不同的問題呈現方式,包括:是否向模型提供多個選項;是否有時用“以上皆非”替代正確答案;以及是否允許模型在選項呈現之前和/或之后進行思維鏈(chain-of-thought)推理。研究發現,只要模型僅被允許在看到選項之前進行思維鏈推理,MCQA 仍然是衡量模型下游表現的良好代理指標。然而,對于那些能夠在看到選項之后再進行推理的大型模型而言,它們的表現顯著優于其自由文本生成的表現,這是因為它們利用了選項中所包含的信息。本文識別并量化了模型在回答 MCQA 問題時所依賴的信號,并就如何分析 MCQA 結果提出了實用指南,以更準確地反映大語言模型的真實推理能力。
1 引言
早期的機器閱讀理解研究采用多項選擇題問答(MCQA)方法,因其評分簡便、自動化程度高,并能模擬人們熟悉的考試形式。MCTest 語料庫率先引入了這一范式,包含 660 篇兒童故事及四選項問題,證明將答案限制在固定標簽集中可避免自由文本的歧義性并簡化評估(Richardson, Burges, and Renshaw 2013)。后續工作如 RACE 和 ARC 進一步擴大了數據規模和領域覆蓋范圍(Lai et al. 2017;Clark et al. 2018),而 MMLU 則將范圍擴展至 57 個學科,以多項選擇題形式衡量通用知識與推理能力(Hendrycks et al. 2020)。如今,MCQA 基準已被廣泛用于大語言模型(LLMs)的評估(Liang et al. 2022;Li et al. 2024),其中 MMLU(Hendrycks et al. 2020)、GPQA(Rein et al. 2023)和 ARC(Clark et al. 2018)已成為標準性能標尺。
歷史上,MCQA 基準上的高準確率通常被視為良好推理能力的信號(例如,GPT-4 在 MMLU 上達到 88.7% 的準確率,顯著優于 Gemma (7B) 的 66.0%)。然而,近期這一信號的可靠性受到質疑。性能提升的原因多種多樣:一方面,LLMs 確實在下游任務上真正取得了進步;另一方面,它們也可能受益于在用于評估的相同基準上進行訓練。
第三個原因正日益受到關注:MCQA 格式本身可能為模型提供了利用測試結構的機會。即使不提供問題,僅憑選項文本中的啟發式排除規則或統計“人工痕跡”(artifacts),模型也能在純選項輸入上取得遠高于隨機水平的表現(Balepur, Ravichander, and Rudinger 2024;Myrzakhan, Bsharat, and Shen 2024)。通過打亂或隨機化選項順序,可以揭示出模型的選擇偏差,而這類偏差需要通過去偏方法(如 PriDe)加以處理(Zheng et al. 2024)。Turner 和 Kurzeja
025)發現,一個決策樹甚至無需閱讀問題就能在 TruthfulQA 上達到近 80% 的準確率。與此相呼應,近期研究還表明,引入“以上皆非”(None-of-the-Above, NOTA)選項會顯著降低 LLMs 的表現(Raman et al. 2024, 2025;Tam et al. 2025),這明確將選項設計與虛高的分數聯系起來。然而,模型的魯棒性差異很大:當干擾項(distractors)被強化或隨機化時,某些經過指令微調的模型仍表現出出人意料的穩定性能(Wang et al. 2024a)。最相關的是,Raman 等人(2025)最近觀察到,模型通過“代入驗證”(plug-and-chug)策略和對所提供選項的“上下文錨定”(contextual anchoring)來提升 MCQA 表現。
盡管存在上述及其他問題,許多排行榜和模型發布仍繼續強調 MCQA 任務。例如,在 OpenAI 關于“用 LLM 學習推理”的 o1-preview 博客文章中,MCQA 占所用 4 個數據集中的 3 個(OpenAI 2024);在 Meta 發布 Llama 3.1 的公告中,MCQA 占全部任務的 66%(Meta 2024);而在 HELM 評估中也占 32%(Perlitz et al. 2024)。相比之下,真實世界使用情況的研究卻呈現出鮮明對比:ShareGPT 數據集中的用戶查詢主要以自由生成輸出為主,而非驗證類任務;MCQA 風格的查詢僅占全部任務的 7.2%(Ouyang et al. 2023)。
當前一種流行的“改進”MCQA 的方法是通過引入更難的干擾項來擴充選項集(Wang et al. 2024c;Gema et al. 2024)。另一些基準則進一步轉向真正的自由文本問答(FTQA),設計完全開放回答的評測(Myrzakhan, Bsharat, and Shen 2024)。諸如 SQuAD(Rajpurkar et al. 2016)、HotpotQA(Yang et al. 2018)和 DROP(Dua et al. 2019)等片段抽取型基準要求模型從段落中定位答案片段,并通過精確匹配(exact-match)或詞元級 F1 分數進行評估。在數學領域,GSM8K(Cobbe et al. 2021)、STEER-ME(Raman et al. 2024)和 MATH(Hendrycks et al. 2021)使用自由格式的數字或短文本答案,并基于標準化后的精確匹配進行評判;在程序合成領域,HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)則依賴基于執行的單元測試作為評判標準。混合型基準(如 HLE)結合封閉式與開放式問題,以減少猜測和選擇偏差(Phan et al. 2025)。盡管如此,FTQA 目前主要適用于響應內容為數值或易于解析的受限領域(例如 Hendrycks et al. 2021;Raman et al. 2025)。
鑒于上述張力,研究人員已提出一些有前景的、基于 LLM 的 MCQA 替代方案,試圖兼顧兩者優點(Ko?isky et al. 2018;Li, Zhang et al. 2023;Chandak et al. 2025)。然而,本文的目標并非提出另一種替代方案,而是校準 MCQA 究竟衡量了什么:鑒于基于 LLM 的替代方法可能引入新的偏差(Chen et al. 2024),我們轉而量化 MCQA 的可利用性,精確定位選項驅動的性能增益究竟在何時、何處出現——特別聚焦于思維鏈(CoT)推理時機與選項設計的影響。
我們在第 2 節介紹所選基準,第 3 節描述評估方法與模型陣容。我們比較了五種評估格式下的模型表現:(1) MC-CoT:模型僅看到選項而無問題,需從中選擇;(2) QMC-CoT:模型看到問題并從固定選項中選擇答案;(3) Q-CoT:模型對問題生成完全自由形式的答案,無選項提供;(4) Q-CoT-MC-1T:模型先自由推理,再從提供的選項中選擇;(5) 引入“以上皆非”(NOTA)占位選項,以校準評估基線并減少對排除策略的依賴。
總計,我們在 OpenAI API 調用上花費了 2,146.51 美元,并使用了相當于 4.92 GPU 年的算力來評估開源模型。隨后,我們通過準確率差異分析揭示:當允許 LLM 對選項進行推理時,MCQA 如何夸大其表觀能力。第 4 節討論這些發現,并總結若干亮點:當選項先于 CoT 出現(QMC-CoT)時,即使考慮事后“最接近答案”的映射,推理模型的表現仍顯著優于 Q-CoT,表明存在一種明顯的二次捷徑;引入 NOTA 干預可削弱該捷徑,并縮小推理模型與非推理模型之間的差距;而單純使選項集“更難”并不能可靠抑制可利用性,對某些模型甚至反而加劇了這一問題。
最后,我們在第 5 節就基準設計提出若干實用建議。
2 基準測試
我們在15個基準上評估了大語言模型(LLMs),這些基準覆蓋了多樣化的領域和問題形式。除非另有說明,每個基準完全由四選項的多項選擇題組成。
2.1 多項選擇題問答(MCQA)基準
MMLU 是一個包含 15,908 道多項選擇題的數據集,涵蓋 57 個領域(Hendrycks et al. 2020)。
MMLU-Pro 是 MMLU 的擴展版本,通過剔除大多數模型認為簡單的問題,并將每道題的選項數量從 4 個增加到 10 個,從而提高了難度(Wang et al. 2024c)。
Open-LLM 是一套包含多個基準的評測套件:ARC、WinoGrande、PIQA、CommonsenseQA、RACE、MedMCQA 和 OpenbookQA(Myrzakhan, Bsharat, and Shen 2024)。
GPQA Diamond 是研究生水平“谷歌無法解答”問答(GPQA)基準中最難的一個子集。該 Diamond 子集包含 198 道題目,涵蓋高等生物學、化學和物理學(Rein et al. 2023)。
2.2 自由文本問答(FTQA)基準
GSM8K 是一個小學數學應用題數據集;答案為一個數字或簡短短語(Cobbe et al. 2021)。
MATH 是一個包含 12,500 道競賽級數學問題的數據集,答案通常為一個簡短的數字或表達式(Hendrycks et al. 2021)。
PythonIO 是一個程序輸出預測任務,由 HumanEval(Chen et al. 2021)和 MBPP(Austin et al. 2021)轉換而來(Zhang et al. 2024)。
STEER-ME 是一個測試經濟推理能力的基準,其問題答案為數值或函數形式。該數據集針對 58 種場景,每種場景包含 1,000 至 5,000 道題目(Raman et al. 2025)。
3 方法論
我們的目標是衡量大語言模型(LLM)在多項選擇題問答(MCQA)中的表現有多少源于真實的問題求解能力,又有多少源于對選項結構的利用(exploitation)。我們首先明確評估格式(輸入內容與允許的響應形式),然后定義基于這些格式構建的一階段和兩階段配置;接著描述我們的評估指標(準確率與可利用性)、MCQA 與自由文本問答(FTQA)之間的轉換方法,以及實驗設置。
3.1 評估格式
如何向 LLM 呈現 MCQA 和 FTQA 問題,構成了一個龐大的設計空間。我們聚焦于該空間中的兩個關鍵維度:問題的呈現格式,以及允許 LLM 生成的響應形式。
問題格式
我們將 MCQA 問題以三種格式呈現給模型。
第一種格式僅提供某道題的 k 個多項選擇選項,而隱藏實際的問題題干(例如“2+2 等于多少?”)。該格式旨在識別選項本身所包含的可被利用的信息量,類似于 Balepur、Ravichander 和 Rudinger(2024)以及 Chandak 等人(2025)的工作。
第二種格式則先呈現問題題干,再給出其 k 個選項。
根據 Raman 等人(2024, 2025)以及 Tam 等人(2025)的研究,在第三種格式中,我們在多項選擇題中插入一個“以上皆非”(None of the Above, NOTA)占位選項。具體而言,對于給定基準中 1/k 的題目,我們將正確答案替換為 NOTA;在其余題目中,我們隨機均勻地選擇一個錯誤選項,將其替換為 NOTA。
在我們的分析中,每一道 MCQA 題目均被格式化為以下四種格式:
![]()
響應格式我們考慮大語言模型(LLM)如何對給定上下文作出響應,將其視為一個函數:該函數將輸入字符串映射為輸出字符串,或映射為下一個詞元(token)的概率分布。該函數的具體輸出不僅取決于輸入的上下文,也取決于所使用的 LLM 本身。推理型模型(例如 OpenAI 的 o 系列、DeepSeek 的 R1)經過微調,總是會輸出思維鏈(chain-of-thought)詞元;我們將任何在答案前包含思維鏈的響應格式記為 CoT。非推理型模型則可通過提示(prompting)使其僅輸出單個詞元,不進行任何思維鏈推理;我們將此類響應格式記為 1T。
我們遵循 Wang 等人(2024a, b)的做法,明確指示模型僅輸出單個詞元,以避免 1T 和 CoT 格式下所獲得的答案字母不一致的問題。具體提示語詳見附錄 A。
評估配置評估配置是指一個(輸入,響應)對,調用該配置后會產生一個可被評估的輸出。我們同時考慮單階段(one-stage)和雙階段(two-stage)配置。我們首先定義單階段配置,然后利用這些概念來定義我們的雙階段配置。
![]()
MCQA 和 FTQA 是標準的單階段評估配置。區分 MCQA 與 FTQA 的一個關鍵設計維度在于:模型是否能在推理過程中利用選項信息(QMC-CoT),還是在完全不知曉選項的情況下進行推理(Q-CoT)。
我們考慮了五種單階段評估配置:
![]()
需要注意的是,MC-CoT 與 Balepur、Ravichander 和 Rudinger(2024)提出的方法類似;然而,他們將 LLM 限制為使用 1T 響應函數,而我們關注的是模型對選項進行推理所產生的影響,因此將響應函數限制為 CoT。
基于上述單階段配置,我們還可以構建雙階段配置:首先要求模型執行一個 Q-CoT 步驟(即在無選項情況下進行自由推理),隨后向模型呈現選項,并要求其以 CoT 或 1T 的形式給出最終答案。
Raman 等人(2024)提出了 Q-CoT-MC-1T(曾被稱為“hidden”),這是一種雙階段配置,其第二階段的響應為 1T。然而,第二階段所使用的響應函數實際上取決于具體的 LLM,因為推理型模型無法僅輸出 1T。表 4 描述了我們所考慮的四種雙階段配置。
![]()
一個顯著的局限性在于:由于第二階段將選項重新提供給同一個生成了思維鏈(chain-of-thought)的模型,推理型模型在選擇最終標簽時仍可能利用選項中的“人工痕跡”(artifacts)或應用排除啟發式策略。這意味著,任何雙階段配置主要適用于衡量非推理型模型的可利用性(exploitation)。
然而,Q-CoT-MCNA-CoT 仍能為理解推理型模型利用選項的能力提供洞見。在這種配置下,模型僅有在 1?1/k的題目中,其第二階段的選項集合里包含正確答案;因此,若模型依賴排除法而非基于先前推理軌跡來確定答案,則更有可能失敗。
3.2 評估指標我們從兩個指標對大語言模型(LLMs)進行評估:
準確率(Accuracy):主要指標是正確回答問題的百分比。對于 MCQA,判斷標準很簡單:若模型所選選項的字母與正確選項字母一致,則視為正確。對于 FTQA,若模型的回答與已知正確答案匹配,則視為正確。對于數值型答案,我們要求在將正確答案四舍五入到模型所報告的有效數字位數后,二者在數值上相等。這一規則懲罰過度精確:如果 LLM 報告了多于必要的有效數字且結果錯誤,則該差異被視為錯誤。對于函數型答案,我們將文本轉換為 SymPy 表達式并進行簡化,再利用 SymPy 內置功能測試其等價性。具體所用 Python 評分函數詳見附錄 C.1。
可利用性(Exploitation):這是指在獲得選項訪問權限后所能提取出的額外準確率。我們可通過多種方式定義“額外”部分,但自然的基線是隨機猜測。無論選擇何種基線,我們都將“可利用性”定義為:存在選項的配置下的準確率與不存在選項的配置下的準確率之間的附加差值。例如,對于每個包含 k 個選項的問題,令 AMC為模型在 QMC-CoT 配置下的準確率,AFT為其在 Q-CoT 配置下的準確率,而 1/k為隨機猜測基線:
![]()
E 為正值意味著:LLM 在看到選項時、超出隨機猜測水平的正確率,超過了其在沒有選項時所能達到的水平;換句話說,這部分準確率依賴于選項本身,而非模型的底層知識。其單位為百分點:E = 0.12 表示每 100 道題中,有 12 道題的正確回答會因隱藏選項而消失。
3.3 問題格式轉換
我們方法論的一個核心方面是:以多項選擇題(MCQA)和自由文本(FTQA)兩種格式向大語言模型(LLMs)提問,以考察僅格式本身對性能的影響。本節描述我們如何將第 2 節列出的基準數據集轉換為另一種格式。
MCQA → FTQA:我們從 Open-LLM 中的數據集開始。該數據集套件是通過對多個原始數據集進行篩選而構建的,剔除了不適合開放式回答的問題。然而,他們所采用的篩選過程仍保留了許多無法有效轉換為 FTQA 的 MCQA 問題。因此,我們進一步實施了兩步過濾程序:
(1)通過子字符串搜索,移除所有題干中顯式或隱式提及選項的題目(例如包含 “Which of the following”、“What can be concluded from the passage” 等表述);
(2)移除所有未以句號或問號結尾的題干(例如 “While training the rats, the trainers have to be” 這類不完整句子)。
經過這一過濾流程后,原始數據集中同時適用于 MCQA 和 FTQA 的題目保留了 62.81%。更多細節及各數據集的具體分解見附錄中的圖 5。需要注意的是,該過程很可能遺漏了一些本可轉換的 MCQA 題目。
![]()
我們對 MMLU-Pro 也采用了相同的兩步過濾方法,將其原始測試集的 12,032 道題目減少至 7,130 道。
FTQA → MCQA:對于第 2.2 節中列出的大多數原本以 FTQA 形式構建的數據集(STEER-ME 除外),我們使用了 Zhang 等人(2024)創建的 MCQA 版本。這些數據集是通過收集 60 個開源模型在 GSM8K、MATH、HumanEval 和 MBPP 上的答案及錯誤預測構建而成。最后,STEER-ME 基準本身包含程序化生成的多項選擇題選項。
我們強調:對于任何基準,我們均未修改問題內容或其正確答案;僅改變了呈現形式。這使“多項選擇題格式的可利用性”成為唯一關注的變量。此外,由于我們并未使用 LLM 或其他基于模型的工具來評估自由文本答案,因此存在許多通過過濾步驟的 MCQA 問題無法在自由文本形式下進行評估。例如,當一個問題既要求給出答案又要求提供理由時:“州法院應依據聯邦法還是州法來判定判決的效力?”可能的完整回答為:“州法,因為 X...” 或 “州法,因為 Y...”。對于這類問題,我們僅在模型能看到選項的格式下評估其正確性(例如 Q-CoT-MC-CoT 或 Q-CoT-MC-1T)。
我們進行了最后一輪過濾:運行我們的評分函數對所有正確答案進行檢測,以確認它們是否能被轉換為可評分的格式。我們將通過此過濾步驟的問題稱為“CoT 可提取問題”。
3.4 實驗設置
總計,我們評估了 27 個大語言模型(LLMs)。我們在表 6 中簡要列出了這些模型,完整的模型列表(含模型卡片與配置)詳見附錄 B 的表 7。表 5 列出了我們在每種模型類型上運行的評估配置。
![]()
![]()
除 STEER-ME 外,所有數據集中,我們對每個開源 LLM 在每數據集上評估 5,000 道題目,對閉源 LLM(o3 和 gpt-4o)則評估每數據集 1,000 道題目。對于 STEER-ME,我們讓所有開源 LLM 在每個場景元素上評估 100 道題,閉源模型則評估每個元素 20 道題,最終分別得到總計 5,800 道和 1,160 道題目。
我們從 HuggingFace Hub(Wolf et al. 2019)獲取了 23 個開源 LLM,并在 1 至 4 塊 L40 GPU 上運行。對于 o3 和 gpt-4o,我們使用 OpenAI 的 API。所有提示中,我們將 softmax 溫度 T 設置為推薦值:非推理模型采用貪心解碼(T = 0),推理模型則設為 T = 0.6–0.8。
答案提取方法
對于 CoT 格式,我們要求模型將答案置于 ‘\boxed{}’ 中。為從模型生成的推理內容中提取答案,我們首先使用正則表達式匹配,直到找到正確的閉合花括號。若該正則表達式未能提取有效響應,我們將使用第二個正則表達式 ‘.[aA]nswer:\s[?]+’ 進行二次嘗試以提取答案。對于 1T 格式,我們解碼“Answer: ”以及“Answer:\n”之后的下一個詞元的概率分布,并選擇賦予正確詞元最高概率的那個作為最終輸出。
4 結果
圖 1 報告了每個大語言模型(LLM)在 QMC-CoT 格式和 Q-CoT 格式下的 pass@1 準確率。一個清晰的趨勢顯現出來:規模最大的模型——同時也是表現最強的模型——在 QMC-CoT 與 Q-CoT 之間的準確率差距最為顯著(見圖 2)。所有參數量大約超過 50B 的模型,在選項先于思維鏈(CoT)呈現時,其得分高出 30 至 40 個百分點;對于推理型模型,這一差距甚至更大。
![]()
人們可能會認為,造成這一差距的一個合理解釋是:模型在 CoT 推理后選擇與其推理結果最接近的選項。然而,這種啟發式策略并不常見,尤其在推理型模型中更是如此。我們觀察到,當推理型模型在 QMC-CoT 中答對但在 Q-CoT 中答錯時,僅約 23% 的情況屬于“選擇最接近答案”的行為(各模型的具體分解見表 8)。此外,即使我們通過引入隨機猜測的優勢來提升 Q-CoT 的表現(記為 Q-CoT+k),幾乎所有模型在 QMC-CoT 下的表現仍然更優。
![]()
4.1 利用行為的證據
我們進一步探究模型在利用過程中所依賴的信息信號。首先,我們分析所有模型在 MC-CoT 格式下的表現,以量化僅通過對選項進行推理所能產生的利用程度。接著,我們通過比較 LLM 在 QMC-CoT 與 Q-CoT-MC-1T(對推理型模型為 Q-CoT-MC-CoT)上的表現,來量化由問題文本中額外信息所帶來的殘余利用程度。
僅基于選項的利用(MC-only Exploitation)
圖 6 量化了每個 LLM 利用選項中的信息超越隨機猜測的能力,展示了各模型在 MC-CoT 格式下相對于隨機猜測的準確率提升。盡管大多數模型的表現優于隨機猜測,但表現最差的推理型模型在 MC-CoT 上的準確率仍高于表現最好的非推理型模型。在推理型模型中,我們觀察到 Qwen3 系列是最佳的“僅選項”利用者,其中 Qwen3(32B)比隨機猜測高出 13 個百分點。圖 7 進一步按數據集分解了各模型相對于隨機猜測的性能增益。總體而言,最初即以 MCQA 形式構建的數據集最容易被利用。事實上,ARC、HellaSwag 和 PIQA 是最易受“僅選項”利用影響的數據集:所有模型在這些數據集上的準確率均顯著高于隨機水平,且除一個推理型模型外,其余所有推理型模型在 PIQA 上的準確率均超過 80%。
基于完整題干與選項的利用(QMC-based Exploitation)
隨后,我們分析當 LLM 同時獲得問題文本和選項時所產生的殘余利用行為。為此,我們在雙階段配置上運行 LLM:如果某模型在 Q-CoT-MC-1T(對推理型模型為 Q-CoT-MC-CoT)上的表現——經其“僅選項”利用能力校正后——仍低于其在 QMC-CoT 上的表現,則可視為存在基于完整題干與選項(QMC-based)的利用行為。
我們通過以下方式校正“僅選項”利用:從模型的 QMC-CoT 準確率中減去其 MC-CoT 準確率,并從其 Q-CoT-MC-1T 準確率中減去隨機猜測基線(1/k)。為排除因答案映射問題導致的性能下降,我們對 Q-CoT-MC-1T 與 Q-CoT 進行“超評分”(super-scoring):只要模型在任一格式下答對該題,即視為正確。因此,我們將基于 QMC 的利用定義為:
![]()
其中 AS為超評分后的準確率。
![]()
![]()
4.2 選項設計對可利用性的影響
鑒于大語言模型(LLMs)能夠僅通過對選項進行推理就實現利用,我們進一步探究特定的選項集如何促成這種利用行為。我們首先重新審視了“僅選項”(MC-only)和“題干+選項”(QMC-based)兩類探測實驗,以量化正確答案的存在與否對利用程度的影響;隨后,我們比較了兩種廣泛使用的多項選擇題套件——它們采用不同的干擾項(distractor)設計(MMLU 與 MMLU-Pro)。
“以上皆非”(NOTA)的影響
在 MCNA-CoT 設置下(即部分題目中正確答案被替換為 NOTA),模型相對于隨機猜測的性能顯著下降(見圖 8 及附錄中的圖 9)。盡管 ARC、HellaSwag 和 PIQA 仍然是高度可利用的數據集,但在其他數據集上的表現更接近隨機猜測水平。這一變化削弱了推理型模型的優勢:在 MC-CoT 中,推理型模型比非推理型模型平均高出 12.63%;而在 MCNA-CoT 中,這一差距縮小至僅 5.29%。部分原因在于推理型模型選擇 NOTA 的頻率更高——平均而言,推理型模型選擇 NOTA 的比例為 55.82%,而非推理型模型為 30.05%(真實 NOTA 比例為 25%)。通過檢查其思維鏈(CoT)內容可見,推理型模型更傾向于將 MCNA-CoT 設置視為“陷阱題”,并認為 NOTA 是此類題目的常見答案。
我們進一步考察 NOTA 對 QMC 型利用的影響。此前我們觀察到,在 Q-CoT-MC-CoT 中,推理型模型可通過重新審視選項來優化其初始答案;而 Q-CoT-MCNA-CoT 則會破壞這種“二次修正”的捷徑(見圖 10)。大多數模型均表現出一定程度的性能下降,表明:盡管這些 LLM 在能訪問完整選項集時可取得高準確率,但一旦正確答案被移除,其性能會下降 2 至 15 個百分點。
鑒于 MCNA-CoT 中的行為,我們進一步檢驗性能下降究竟是因為 NOTA 本身具有吸引力,還是因為正確答案對 QMC 型利用至關重要。我們將 NOTA 選擇視為一個二分類任務,并報告兩類(“應選 NOTA” vs. “不應選 NOTA”)的精確率與召回率(見表 10)。對于正確答案被替換為 NOTA 的題目,DeepSeek R1(70B)的精確率為 0.85,召回率為 0.58;而對于 NOTA 并非正確答案的題目,其精確率為 0.78,召回率為 0.94,表明當存在正確選項時,該模型極少過度選擇 NOTA。綜合來看,這些結果表明:模型并非盲目偏好 NOTA 這一顯眼選項,而是有選擇地在其推理軌跡無法匹配任何有效選項時才使用 NOTA。這一模式在大多數推理型模型中普遍存在。
“更難選項”的影響
接下來,我們考察將選項集設計得“更難”(且更大)是否能降低“僅選項”利用。MMLU 與 MMLU-Pro 為此問題提供了天然的測試平臺。針對每個數據集,我們計算歸一化的利用度:
,其中 k為選項數量。該指標將隨機猜測設為 0,僅靠選項即可完美作答設為 1,從而使得 MMLU(k=4)與 MMLU-Pro(k=10)可在不受選項數量影響的統一尺度上進行比較。
從圖 4 中可看出兩個顯著模式:(1)對于幾乎所有非推理型模型,盡管 MMLU-Pro 嚴格意義上比 MMLU 更難利用,但其選項集仍泄露了足夠信號,使其表現優于隨機猜測(提升幅度在 5%–10% 范圍內)。值得注意的是,兩個 Mistral 模型是唯一(包括所有推理型模型在內)在 MMLU-Pro 上比在 MMLU 上更具可利用性的模型,這表明增加選項數量 k并替換為“更難”的干擾項,并不能普遍抑制“僅選項”利用。
![]()
(2)對于推理型模型,雖然 MMLU-Pro 通常比 MMLU 更難利用,但它們利用 MMLU-Pro 的能力仍強于非推理型模型利用原始 MMLU 的能力。綜合來看,這些結果表明:隨著模型推理能力的提升,它們更能有效挖掘選項集中的信息,并規避“困難”干擾項。
5 結論
盡管大語言模型(LLMs)在基準測試中的表現達到了前所未有的高度,但其中部分提升源于它們對所提供選項的利用。我們的研究揭示了三條關于 LLM 評估設計與結果解讀的重要啟示:
(1)解耦至關重要。通過將思維鏈(CoT)與選項選擇分離——例如采用 Q-CoT-MC-1T,或在一定程度上使用 Q-CoT-MCNA-CoT——我們可以揭示模型潛在的推理能力,并區分基于第一性原理的推理與對測試結構的利用。此外,推理能力與選項選擇的表現應分別報告。
(2)鑒于 MCQA 很可能長期存在,應以“選項無關的正確性”為目標進行設計:題干不應引用選項內容,并且要么明確定義一個標準的自由文本答案,要么通過事后映射(post-hoc mapping)進行評分。
(3)僅依賴更難的干擾項作為抑制利用行為的對策是不夠的;盡管這類干擾項可能提高題目難度,但它們并不能可靠地減少對測試結構的利用,必須謹慎使用。
歸根結底,我們所能觀察到的,僅限于我們所測量的內容。若缺乏精心的設計,高測試分數可能反映的是模型“鉆測試空子”的熟練程度,而非其真實能力。隨著 LLM 不斷進步并被應用于現實世界,確保我們所衡量的內容與我們真正重視的能力保持一致,變得愈發重要。
![]()
![]()
![]()
![]()
![]()
![]()
原文鏈接:https://arxiv.org/pdf/2507.15337
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.