<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

      0
      分享至

      白交 發自 凹非寺
      量子位 | 公眾號 QbitAI

      別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

      有人發現,官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。



      什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

      現在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

      而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現在僅有0.4%的差距。



      OpenAI這種自行忽略23道題的操作,已經不是第一次了。

      早在GPT-4.1發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。



      離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統評估模型的編程能力,所以決定自己再提煉一個子集。

      現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

      本來以為GPT-5直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?



      OpenAI一直省略23個問題

      已經開始有網友發現,GPT-5能力并不比Claude 4.1 Opus好多少。

      現在來看,這個官方給的結果或許根本沒有參考價值。

      網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。



      而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發布時一樣,因為他們內部的基礎設施運行不了剩下的23個問題。



      今年4月份發布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

      當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數值放在當時也是最高的。



      而Anthropic這邊,其實也已經發現了OpenAI這個操作。

      就在Claude Opus 4.1發布公布編程成績之時,在文章的末尾有這么一句話。



      對于Claude 4系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規劃工具”。

      并在最后注明:在所有Claude 4模型中,他們報告的分數基于完整的500個問題。OpenAI模型的得分基于477問題的子集進行報告



      基準還是OpenAI自己提的

      如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

      這不就相當于自己搬起石頭砸自己的腳啦嘛。



      當時啊還是因為類似的原因——他們測試發現SWE-bench的一些任務可能難以解決甚至無法解決,導致SWE-bench無法系統性評估模型的自主編程能力。

      于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

      他們共同發起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

      他們隨機抽取了1699個樣本,然后基于統一標準來進行標注。

      比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

      標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。



      此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

      最終得到了500個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含196個小于15分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。

      結果現在這個子集又被OpenAI縮減了。

      One More Thing

      不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

      在這個榜單中,Claude 4 Opus還是占據著領先位置。



      GPT-5也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。

      參考鏈接:
      [1]https://www.swebench.com/
      [2]https://openai.com/index/introducing-gpt-5/
      [3]https://www.anthropic.com/news/claude-opus-4-1
      [4]https://x.com/SemiAnalysis_/status/1955028150217478177
      [5]https://x.com/DavidOndrej1/status/1954158161721487482

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      千言娛樂記
      2025-09-25 20:27:56
      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      籃球圈里的那些事
      2025-11-05 14:02:52
      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      奶蓋熊本熊
      2025-11-05 12:48:54
      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      夜深愛雜談
      2025-11-04 21:47:20
      國務院臺辦新任發言人、港澳局局長張晗亮相

      國務院臺辦新任發言人、港澳局局長張晗亮相

      政知新媒體
      2025-11-05 10:26:10
      王家衛劇組在陜西榆林組團Piao娼?

      王家衛劇組在陜西榆林組團Piao娼?

      華人星光
      2025-11-05 11:53:54
      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      澎湃新聞
      2025-11-05 14:22:10
      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      財經大拿
      2025-11-05 13:36:42
      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      FM93浙江交通之聲
      2025-11-04 20:09:22
      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      懂球帝
      2025-11-05 14:43:13
      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      南書房
      2025-09-28 23:01:03
      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      籃球資訊達人
      2025-11-05 15:04:24
      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      妙知
      2025-11-04 10:34:03
      暴跌,熔斷!剛剛,大跳水

      暴跌,熔斷!剛剛,大跳水

      新浪財經
      2025-11-05 10:31:00
      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      解讀熱點事件
      2025-11-02 14:48:17
      女性出軌率最高的幾大職業

      女性出軌率最高的幾大職業

      微微熱評
      2025-11-04 12:27:00
      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      鄭丁嘉話
      2025-11-04 10:41:50
      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      有范又有料
      2025-11-05 10:41:30
      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      浪子阿邴聊體育
      2025-11-01 10:57:22
      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      老王說正義
      2025-11-04 00:05:34
      2025-11-05 17:43:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11631文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      本地
      游戲
      健康
      軍事航空

      親子要聞

      重度自閉癥孩子幸不幸福,要看帶養人費不費勁

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      知名游戲新作Steam國區好評率僅4%!玩家噴爆了

      超聲探頭會加重受傷情況嗎?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国CHINA体内裑精亚洲日本| 亚洲人午夜精品射精日韩| 92精品国产自产在线观看481页| 高潮潮喷奶水飞溅视频无码| 亚洲另类激情专区小说图片| 亚洲日韩国产一区二区三区在线 | 久久久久青草线综合超碰| 报价| 精品亚洲国产成人| 亚洲av精选一区二区| 制服丝袜国产精品| 中文字幕制服国产精品| 免费看国产精品3a黄的视频| 国产精一区二区黑人巨大| 少妇被粗大的猛烈xx动态图| 国产国产成人精品久久蜜| 国产日韩另类综合11页| 国产又色又爽又黄的网站免费| 日韩中av免费在线观看| 日韩精品无码人妻一区二区三区| 岛国av无码免费无禁网站| 东京热人妻丝袜无码AV一二三区观| 奇米四色7777中文字幕| 国产精品国产三级国av| 一本大道久久香蕉成人网| av天堂久久天堂av| 国产精品一区二区中文| 男人用嘴添女人下身免费视频| 欧美午夜精品久久久久久浪潮| 久久久无码精品亚洲日韩蜜臀浪潮| 国产午夜福利片在线观看| 四虎永久精品免费视频| 亚洲精品男男一区二区| 青青草成人免费自拍视频| 亚洲区综合区小说区激情区| 精品人妻免费看一区二区三区| 中文字幕久久熟女蜜桃| 国产网友愉拍精品视频手机 | 日韩精品无码区免费专区| 亚洲成人一区二区av| 韩国精品久久久久久无码|