網易首頁 > 網易號 > 正文申請入駐

大模型碰到真難題了，測了500道，o3 Pro僅通過15%

2025-09-15 10:45:10　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

基準測試是檢驗大模型能力的一種方式，一般而言，一個有用的基準既要足夠難，又要貼近現實：問題既能挑戰前沿模型，又要反映真實世界的使用場景。

然而，現有測試面臨著「難度–真實性」的矛盾：側重于考試的基準往往被人為設置得很難，但實際價值有限；而基于真實用戶交互的基準又往往偏向于簡單的高頻問題。

在此背景下，來自斯坦福大學、華盛頓大學等機構的研究者探索了一種截然不同的方式：在未解決的問題上評估模型的能力。

與一次性打分的靜態基準不同，該研究不斷收集未解決的問題，然后通過驗證器輔助篩選與社區驗證機制，實現對模型的持續異步評估。

具體而言，本文提出了 UQ（Unsolved Questions），這是一個由 500 道題組成的測試集，涵蓋計算機理論、數學、科幻、歷史等主題，用于考察模型在推理、事實準確性以及瀏覽等方面的能力。UQ 在設計上兼具難度大與貼近真實兩大特點：這些問題大多是人類遇到但尚未解決的難題，因此攻克它們可直接產生現實價值。

論文標題：UQ: Assessing Language Models on Unsolved Questions
論文地址：https://arxiv.org/pdf/2508.17580v1
項目地址：https://uq.stanford.edu/

總結而言，本文貢獻如下：

提出了 UQ 數據集及其收集流程：結合規則過濾器、大語言模型評審以及人工審核，以確保最終問題的質量；
UQ-Validators：復合驗證策略，利用生成器–驗證器之間的能力差距來構建無真值驗證系統（一般而言模型驗證能力優于生成能力），并對候選答案進行預篩選，以便后續人工審核；
UQ-Platform：一個開放平臺，讓專家能夠共同驗證問題與答案，從而實現持續的、異步的、社區驅動的評估。

實驗中，表現最好的模型僅在 15% 的問題上通過了 UQ 驗證，而初步人工核查已經在這些通過驗證的答案中識別出一些正確解答。

數據集介紹

UQ 數據集由 500 道具有挑戰性的未解決問題組成，問題來源問答社區 Stack Exchange，并且是經過三輪篩選得到的。

在篩選流程上，本文首先人工選擇了 80 個 Stack Exchange 社區（例如 Math Overflow、Physics），并抓取其中未解答的問題，得到大約 300 萬個原始候選問題。

隨后，進入多階段篩選流程。篩選的每一階段都會逐步縮小問題池：基于規則的篩選將問題縮減至 33,916 個（占原始問題池的 1.13%）；基于大語言模型的篩選進一步縮減至 7,685 個（占原始的 0.26%）；最終通過人工審核（如剔除殘留的重復、過于簡單、偏題或違反規則的問題），得到一個精心整理的 500 道題集（占原始的 0.02%）。

隨著問題在篩選流程中逐步推進，它們的難度和質量也在逐漸提升。尤其是基于大語言模型的篩選，顯著提高了問題的難度。

數據集組成如下所示，主要包含科學類問題，其次是技術類與生活藝術類。本文還發現不同領域的問題能探測模型的不同能力：例如數學問題通常需要開放式證明，而科幻奇幻類問題則偏重瀏覽檢索能力（如根據片段情節識別書籍名稱）。

一旦某個問題被判定為已解決，研究者就會在后續版本中將該問題移除，并用新的未解決問題替換。

UQ 驗證器

雖然 UQ 數據集非常具有價值，但要將其用作模型性能的基準，仍需配套的評分指標。然而，由于缺乏標準答案，無法像考試基準那樣進行自動驗證。

因此，本文轉向無監督驗證器，即無需標準答案。由于未解問題往往極具挑戰性，這些驗證器的主要目標并非證明某個候選答案正確，而是排除錯誤的候選答案；因此，本文刻意使用 validator（驗證器）一詞，而非 judge 或 verifier。

需要特別指出的是，由于缺少標準答案，這類驗證器本身可能經常出錯，但它們仍能在后續人工審核中發揮輔助作用。

據了解，本文之所以開發無需標準答案的驗證器，核心動機在于這樣一個假設：對難題候選答案進行驗證可能比生成這些答案更容易。實驗中采用了這樣的流程，讓一系列能力遞增的模型（例如 o3-mini → o4-mini → o3）回答這 500 道題，記錄它們的答題準確率；接著，讓每個模型在不接觸標準答案的情況下，驗證其他所有模型給出的答案；最后，用真實答案對這些驗證結論進行打分，計算驗證準確率。

圖 5 左顯示：隨著模型能力的提升，它們在驗證準確率上的進步速度明顯快于答題準確率。

實驗中使用的驗證器 pipeline：

實驗及結果

實驗評估了 5 個模型，包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

表 1 結果顯示，與原始基線相比，驗證策略能夠實質性地提高驗證的準確率和精度。例如，對 Claude 3.7 Sonnet 而言，準確率從 21.6% 提升到 73.2%，精度從 13.26% 提升到 20%，但往往是以召回率下降為代價。

為了確認最終得到的最佳 UQ 驗證器對人類評審者有幫助，該研究邀請若干評審員對 25 個驗證問題進行評分，判斷其給出的判斷理由鏈是否在邏輯上成立。表 2 顯示，人類評審與驗證器的一致率及理由鏈的準確性都很高，表明該驗證器能為人類評審者提供有效支持。

將大語言模型用于答案驗證時，另一個挑戰是它們常常表現出明顯的評估偏見。當研究者把前沿模型直接應用于本場景時，發現所有模型在評估自身或同系模型（即同一開發者的模型）時，都出現了過度樂觀現象：預測出的模型性能遠高于實際性能，如圖 7 所示。

Gemini 明顯偏向自身，相對于其他模型給出顯著更高的評分；
Claude 對所有答案模型（不僅僅是自身）都表現出過度樂觀；
OpenAI 的 o 系列模型則對其他 o 系列同門模型給出過高評價。

隨著模型能力遞增（o3-mini → o3），這種偏見雖有所降低，但并未徹底消除。

本文進一步發現，采用復合驗證器能夠顯著削弱答案驗證中的自我偏見與過度樂觀。

最后，本文還發現，一個更強的答案生成模型并不一定就是更強的答案驗證模型。

本文通過基線提示法和 3 輪迭代驗證流程繪制了模型在 500 個 HLE 問題上的驗證準確率與答案準確率關系圖。雖然更好的答案性能通常預示著更好的驗證性能（整體呈上升趨勢），但并非絕對。

例如：在沒有流程驗證時，o3 作為答案模型弱于 Gemini 2.5 Pro，但作為驗證模型卻更強；采用流程驗證后，o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉趨勢。此外，盡管 Claude 3.7 Sonnet 在答案準確率上顯著落后于 Gemini 2.5 Pro，但其基于流程驗證的表現卻超越了 Gemini 2.5 Pro 的基線驗證性能。

了解更多內容，請參考原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.