<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型碰到真難題了,測了500道,o3 Pro僅通過15%

      0
      分享至




      機器之心報道

      機器之心編輯部

      基準測試是檢驗大模型能力的一種方式,一般而言,一個有用的基準既要足夠難,又要貼近現實:問題既能挑戰前沿模型,又要反映真實世界的使用場景。

      然而,現有測試面臨著「難度–真實性」的矛盾:側重于考試的基準往往被人為設置得很難,但實際價值有限;而基于真實用戶交互的基準又往往偏向于簡單的高頻問題。

      在此背景下,來自斯坦福大學、華盛頓大學等機構的研究者探索了一種截然不同的方式:在未解決的問題上評估模型的能力。

      與一次性打分的靜態基準不同,該研究不斷收集未解決的問題,然后通過驗證器輔助篩選與社區驗證機制,實現對模型的持續異步評估。

      具體而言,本文提出了 UQ(Unsolved Questions),這是一個由 500 道題組成的測試集,涵蓋計算機理論、數學、科幻、歷史等主題,用于考察模型在推理、事實準確性以及瀏覽等方面的能力。UQ 在設計上兼具難度大與貼近真實兩大特點:這些問題大多是人類遇到但尚未解決的難題,因此攻克它們可直接產生現實價值。



      • 論文標題:UQ: Assessing Language Models on Unsolved Questions
      • 論文地址:https://arxiv.org/pdf/2508.17580v1
      • 項目地址:https://uq.stanford.edu/

      總結而言,本文貢獻如下:

      • 提出了 UQ 數據集及其收集流程:結合規則過濾器、大語言模型評審以及人工審核,以確保最終問題的質量;
      • UQ-Validators:復合驗證策略,利用生成器–驗證器之間的能力差距來構建無真值驗證系統(一般而言模型驗證能力優于生成能力),并對候選答案進行預篩選,以便后續人工審核;
      • UQ-Platform:一個開放平臺,讓專家能夠共同驗證問題與答案,從而實現持續的、異步的、社區驅動的評估。

      實驗中,表現最好的模型僅在 15% 的問題上通過了 UQ 驗證,而初步人工核查已經在這些通過驗證的答案中識別出一些正確解答。



      數據集介紹

      UQ 數據集由 500 道具有挑戰性的未解決問題組成,問題來源問答社區 Stack Exchange,并且是經過三輪篩選得到的。



      在篩選流程上,本文首先人工選擇了 80 個 Stack Exchange 社區(例如 Math Overflow、Physics),并抓取其中未解答的問題,得到大約 300 萬個原始候選問題。

      隨后,進入多階段篩選流程。篩選的每一階段都會逐步縮小問題池:基于規則的篩選將問題縮減至 33,916 個(占原始問題池的 1.13%);基于大語言模型的篩選進一步縮減至 7,685 個(占原始的 0.26%);最終通過人工審核(如剔除殘留的重復、過于簡單、偏題或違反規則的問題),得到一個精心整理的 500 道題集(占原始的 0.02%)。

      隨著問題在篩選流程中逐步推進,它們的難度和質量也在逐漸提升。尤其是基于大語言模型的篩選,顯著提高了問題的難度。



      數據集組成如下所示,主要包含科學類問題,其次是技術類與生活藝術類。本文還發現不同領域的問題能探測模型的不同能力:例如數學問題通常需要開放式證明,而科幻奇幻類問題則偏重瀏覽檢索能力(如根據片段情節識別書籍名稱)。

      一旦某個問題被判定為已解決,研究者就會在后續版本中將該問題移除,并用新的未解決問題替換。



      UQ 驗證器

      雖然 UQ 數據集非常具有價值,但要將其用作模型性能的基準,仍需配套的評分指標。然而,由于缺乏標準答案,無法像考試基準那樣進行自動驗證。

      因此,本文轉向無監督驗證器,即無需標準答案。由于未解問題往往極具挑戰性,這些驗證器的主要目標并非證明某個候選答案正確,而是排除錯誤的候選答案;因此,本文刻意使用 validator(驗證器)一詞,而非 judge 或 verifier。

      需要特別指出的是,由于缺少標準答案,這類驗證器本身可能經常出錯,但它們仍能在后續人工審核中發揮輔助作用。

      據了解,本文之所以開發無需標準答案的驗證器,核心動機在于這樣一個假設:對難題候選答案進行驗證可能比生成這些答案更容易。實驗中采用了這樣的流程,讓一系列能力遞增的模型(例如 o3-mini → o4-mini → o3)回答這 500 道題,記錄它們的答題準確率;接著,讓每個模型在不接觸標準答案的情況下,驗證其他所有模型給出的答案;最后,用真實答案對這些驗證結論進行打分,計算驗證準確率。

      圖 5 左顯示:隨著模型能力的提升,它們在驗證準確率上的進步速度明顯快于答題準確率。



      實驗中使用的驗證器 pipeline:



      實驗及結果

      實驗評估了 5 個模型,包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

      表 1 結果顯示,與原始基線相比,驗證策略能夠實質性地提高驗證的準確率和精度。例如,對 Claude 3.7 Sonnet 而言,準確率從 21.6% 提升到 73.2%,精度從 13.26% 提升到 20%,但往往是以召回率下降為代價。



      為了確認最終得到的最佳 UQ 驗證器對人類評審者有幫助,該研究邀請若干評審員對 25 個驗證問題進行評分,判斷其給出的判斷理由鏈是否在邏輯上成立。表 2 顯示,人類評審與驗證器的一致率及理由鏈的準確性都很高,表明該驗證器能為人類評審者提供有效支持。



      將大語言模型用于答案驗證時,另一個挑戰是它們常常表現出明顯的評估偏見。當研究者把前沿模型直接應用于本場景時,發現所有模型在評估自身或同系模型(即同一開發者的模型)時,都出現了過度樂觀現象:預測出的模型性能遠高于實際性能,如圖 7 所示。

      • Gemini 明顯偏向自身,相對于其他模型給出顯著更高的評分;
      • Claude 對所有答案模型(不僅僅是自身)都表現出過度樂觀;
      • OpenAI 的 o 系列模型則對其他 o 系列同門模型給出過高評價。

      隨著模型能力遞增(o3-mini → o3),這種偏見雖有所降低,但并未徹底消除。

      本文進一步發現,采用復合驗證器能夠顯著削弱答案驗證中的自我偏見與過度樂觀。



      最后,本文還發現,一個更強的答案生成模型并不一定就是更強的答案驗證模型。

      本文通過基線提示法和 3 輪迭代驗證流程繪制了模型在 500 個 HLE 問題上的驗證準確率與答案準確率關系圖。雖然更好的答案性能通常預示著更好的驗證性能(整體呈上升趨勢),但并非絕對。

      例如:在沒有流程驗證時,o3 作為答案模型弱于 Gemini 2.5 Pro,但作為驗證模型卻更強;采用流程驗證后,o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉趨勢。此外,盡管 Claude 3.7 Sonnet 在答案準確率上顯著落后于 Gemini 2.5 Pro,但其基于流程驗證的表現卻超越了 Gemini 2.5 Pro 的基線驗證性能。



      了解更多內容,請參考原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      3-1,25歲曼城舊將阿爾瓦雷斯無敵凌空斬,馬競拒絕歐冠2連敗

      3-1,25歲曼城舊將阿爾瓦雷斯無敵凌空斬,馬競拒絕歐冠2連敗

      側身凌空斬
      2025-11-05 05:59:35
      美國對委內瑞拉動手方案曝光!三種方案,特朗普怕失敗還未決定

      美國對委內瑞拉動手方案曝光!三種方案,特朗普怕失敗還未決定

      趙昉是個熱血青年
      2025-11-05 19:11:58
      正式退賽,全紅嬋發聲,恩師官宣原因,10米臺失誤原因找到

      正式退賽,全紅嬋發聲,恩師官宣原因,10米臺失誤原因找到

      樂聊球
      2025-11-04 14:14:32
      石榴立大功!新發現:石榴竟能在36小時清除50%的腸道垃圾

      石榴立大功!新發現:石榴竟能在36小時清除50%的腸道垃圾

      原來仙女不講理
      2025-11-03 22:41:50
      刁難周迅,對馬伊琍放狠話,9次試管失敗,59歲的她憑什么那么火

      刁難周迅,對馬伊琍放狠話,9次試管失敗,59歲的她憑什么那么火

      人間頌
      2025-11-05 12:08:04
      剛剛,深圳地鐵致歉!

      剛剛,深圳地鐵致歉!

      南方都市報
      2025-11-05 09:57:10
      主動投案!濟南市長清區委常委、副區長趙魯被查

      主動投案!濟南市長清區委常委、副區長趙魯被查

      極目新聞
      2025-11-05 10:34:12
      對岸統一的風向:賴清德由獨轉統,或能成就統一功績~

      對岸統一的風向:賴清德由獨轉統,或能成就統一功績~

      蛙斯基娛樂中
      2025-11-05 05:53:03
      年薪300萬,卻從替補打成球隊老大!被低估的超巨,你不該被拋棄

      年薪300萬,卻從替補打成球隊老大!被低估的超巨,你不該被拋棄

      籃球掃地僧
      2025-11-05 17:03:05
      演員王祖藍,受聘為高校教授

      演員王祖藍,受聘為高校教授

      極目新聞
      2025-11-05 09:50:06
      80萬開零食店,3個月血虧關門!這門穩賺生意,原來專割創業者!

      80萬開零食店,3個月血虧關門!這門穩賺生意,原來專割創業者!

      青眼財經
      2025-10-24 09:45:37
      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      沒想到!剛種草于和偉羽絨外套,居然漲了300塊!于和偉都傻眼了

      樂悠悠娛樂
      2025-11-05 13:22:19
      荷蘭專家:ASML深入研究中國企業后發現,實際情況比他們想的糟糕

      荷蘭專家:ASML深入研究中國企業后發現,實際情況比他們想的糟糕

      朔方瞭望
      2025-11-05 18:10:57
      謝霆鋒怎么也沒想到,離婚不過是虛晃一招,張柏芝比他想象得厲害

      謝霆鋒怎么也沒想到,離婚不過是虛晃一招,張柏芝比他想象得厲害

      喜歡歷史的阿繁
      2025-11-05 01:38:40
      死傷慘重!俄軍導彈從天而降,北約“大魚”被炸,烏克蘭新兵被炸

      死傷慘重!俄軍導彈從天而降,北約“大魚”被炸,烏克蘭新兵被炸

      荷蘭豆愛健康
      2025-11-05 08:00:37
      賽力斯公布方向盤折疊專利

      賽力斯公布方向盤折疊專利

      界面新聞
      2025-11-04 15:13:11
      僅一周就有6位明星去世!都是觀眾老熟人,有壽終正寢有突發意外

      僅一周就有6位明星去世!都是觀眾老熟人,有壽終正寢有突發意外

      小海娛計
      2025-11-05 19:16:47
      重要比賽!11月5日中央電視臺CCTV5、CCTV5+直播節目表

      重要比賽!11月5日中央電視臺CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2025-11-05 05:27:49
      疑似上海抓小三的原配回應已離婚,返還男方工資后再給20萬和離

      疑似上海抓小三的原配回應已離婚,返還男方工資后再給20萬和離

      阿纂看事
      2025-11-03 08:04:26
      重磅:中國剛宣布對日本免簽再延長一年!背后藏著的竟是這本“生意經”……

      重磅:中國剛宣布對日本免簽再延長一年!背后藏著的竟是這本“生意經”……

      掘金日本房產
      2025-11-05 18:59:35
      2025-11-05 20:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      本地
      手機
      數碼
      健康

      壞了,看到劇本殺鼻祖了!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      手機要聞

      小米17 Pro系列隱身模式上線:背屏一鍵關閉麥克風、攝像頭、定位權限

      數碼要聞

      威聯通發布24盤位企業級NAS:銳龍7 PRO 7000加持,支持192GB內存

      超聲探頭會加重受傷情況嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美福利在线| 九九热视频在线观看一区| gogogo高清免费观看| 亚洲国产精品无码一区二区三区| 久久96热在精品国产高清| 国产四虎永久免费观看| 久久精品一区二区三区中文字幕| 国产成人精品无缓存在线播放| 国产成人啪精品午夜网站| 余庆县| 日韩av片无码一区二区三区| 夜夜爱夜鲁夜鲁很鲁| 四虎精品视频永久免费| 国产精品美女免费无遮挡| 97精品人妻系列无码人妻| 亚洲欧美国产日韩天堂区| 国产一区二区三区AV在线无码观看| 毛片无码一区二区三区| 午夜DY888国产精品影院| 国产自拍在线一区二区三区| 久久天天躁夜夜躁狠狠85| 亚洲AV无码破坏版在线观看| 国产精品色哟哟在线观看| 四虎成人精品无码| 成人一区二区人妻不卡视频| 亚洲欧美激情在线一区| 精品亚洲欧美高清不卡高清| 盐池县| 国产普通话对白刺激| 亚洲最大福利视频网| 伊人久久精品无码麻豆一区| 不卡在线一区二区三区视频| 色欲av蜜桃一区二区三| 中文字幕自拍偷拍福利视频| 无码抽搐高潮喷水流白浆| 精品一区二区中文字幕| 久久亚洲日本激情战少妇| 丝袜a∨在线一区二区三区不卡| 欧美精品一产区二产区| 国产在线精品无码二区| 黑人大荫道bbwbbb高潮潮喷|