<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      「進化+壓力測試」自動生成的競賽級編程題,大模型誰更hold住

      0
      分享至



      在當前評測生成式模型代碼能力的浪潮中,傳統依賴人工編寫的算法基準測試集,正日益暴露出可擴展性不足與數據污染嚴重兩大瓶頸。

      為突破這一困局,北京大學與通用人工智能研究院聯合提出全新 UniCode 框架。該研究由北京大學梁一韜助理教授指導,博士生鄭欣悅為第一作者,林昊葦為共同一作,創新性地構建了一套能夠自動生成高質量算法題目與抗污染測試用例的進化式評測系統

      UniCode 框架通過三大核心策略動態擴展題目,并采用基于「壓力測試」的用例合成技術,成功構建出包含 492 道題目的全新評測基準。在對 19 個前沿大模型進行系統性測試后,表現最佳的 o4-mini 模型也僅達到 70.3% 的通過率,充分印證了 UniCode 在評測上的高挑戰性與強判別力,為代碼能力評估開辟了一條動態、可擴展的全新路徑。



      • 論文標題:UniCode: A Framework for Generating High Quality Competitive Coding Problems
      • 論文地址:http://arxiv.org/abs/2510.17868
      • 代碼開源:https://github.com/grandsmile/UniCode
      • 數據集: https://huggingface.co/datasets/grandsmile/Generative_Coding_Dataset

      三種「進化式」題目生成策略



      UniCode 將問題生成看作類似生物進化的變異與重組過程,設計了三類互補策略:

      1. 單題擴展 (Single-problem extension):在保持核心邏輯的前提下,對單題進行結構性修改(如收緊約束、增加條件、改變輸入格式)。例如 Two Sum → Three Sum。該策略能保持問題范式一致,同時迫使模型在算法復雜度上做出新權衡。
      2. 同類融合 (Same-type fusion):將同算法標簽的兩題融合。通過讓 LLM 抽取共用的算法模式并重新實例化,生成語義新穎但邏輯相關的題目,從而避免「僅換敘述」的表層變化。
      3. 跨類融合 (Cross-type fusion):跨算法類別組合題目,由 LLM 自動發現「橋接概念」,生成復合型挑戰(如將求和與回文檢測結合為 Palindrome Sum Pair)。這種策略顯著提高了題目難度與診斷價值。

      這三種策略既能沿用已有題目的結構性優勢,又能通過單題變異和重組在題目分布上產生真正的新樣本,從而抑制數據污染的影響并提高對模型算法泛化能力的考察力度。

      壓力驅動的測試用例合成



      自動生成題目的難點在于:沒有正確參考題解時,如何為題目構建高可信度的測試樣例集合?UniCode 提出一個壓力驅動的測試樣例合成流程來解決這一核心問題:

      1. 小規模暴力求解(Brute-force)+壓力測試(Stress test):對能在小輸入下暴力枚舉的題目,先由 LLM 生成一個以正確性為優先的「暴力算法」并在小規模輸入上運行,得到被信任的輸入 — 輸出對,這些對用作「壓力測試集」去篩選一組來自不同 LLM 的高效候選解。



      3.LLM 仲裁(Adjudication):若沒有嚴格多數產生共識,則把最票數最多的兩種輸出樣例,再次輸入給 LLMs 進行分析裁決;若裁決仍不明確,則該用例被舍棄以保持試題集的完整性和可靠性。通過這套流程,研究團隊報告了測試用例正確率 94.5% 的水平,并在覆蓋率上也優于多項基線方法。

      該流程實現了94.5% 的測試用例正確率,并在覆蓋率上優于多項基線方法。輸入生成采用三路并重策略:隨機樣本、對抗生成與 LLM 合成,并按固定比例(20 隨機 + 20 對抗 + 10 LLM 合成)構建最終測試套,兼顧覆蓋廣度與挑戰性。

      評測與結論



      借助 UniCode 框架,研究團隊從 Codeforces 等競賽平臺篩選種子算法題,自動生成了一個包含 492 道高質量題目、覆蓋 15 個核心算法標簽的評測基準,并在此基礎上對 19 個主流大語言模型 進行了系統評估。關鍵發現包括:

      • 高挑戰性:即便是排名第一的模型(o4-mini-high),總體 pass@1 也只有 70.3%;在較難題目上,大部分模型表現斷崖式下降,說明 UniCode 框架能夠生成具有高挑戰性的算法題,暴露模型真實的算法能力差異。
      • 模型魯棒性仍待提升:模型在隨機用例和對抗用例間平均存在約 11.2 個百分點的性能差,表明對邊界條件與復雜輸入的魯棒性仍是薄弱環節。
      • 開源模型進步明顯:若干開源模型(如 DeepSeek-v3.1、Qwen3-235b)在整體性能上表現出競爭力,這對研究社區的可復現性和透明性具有積極意義。

      LLMs 在算法推理場景下的泛化表現



      為考察 LLMs 在算法題上的泛化能力,研究團隊構造了三類對照題集:SeedQS(原始種子題)ShadowQS(保留邏輯但改寫敘述的「影子」題)CodeGenQS(UniCode 生成的新題)

      實驗顯示:多數模型在 SeedQS 與 ShadowQS 上表現幾乎一致,說明它們對表層敘述變換具有較強魯棒性;但在 CodeGenQS(由 UniCode 生成、要求組合或遷移算法能力的題目)上,模型普遍出現顯著下跌 —— 論文給出若干例證:claude-3.5-sonnet 從 0.70 跌至 0.21,gpt-4.1-mini 從 0.83 跌至 0.40,整體上模型在 UniCode 問題上的平均性能下降超過 30%,而在僅為敘述改寫的 ShadowQS 上幾乎無變化。

      這一對照實驗清晰區分了模型的「表層魯棒性」與「算法遷移能力」,并驗證了 UniCode 的「進化式」題目生成策略確實能夠構造出新穎且具挑戰性的任務,為理解和量化模型的真實泛化能力提供了幫助。

      UniCode 題集與基準對齊

      此外,研究團隊通過與兩項既有公開基準的對齊檢驗(LiveCodeBench 與 LiveCodeBenchPro)量化了 UniCode 的可信度:與 LiveCodeBench 的 Pass@1 分數呈高度正相關(Pearson r ≈ 0.986,p = 6.5e-06),而與 LiveCodeBenchPro(采用「排名越小越優」的打分方式)表現為強負相關(r ≈ ?0.916),這主要是度量方向的約定所致 —— 若取絕對值,兩者均顯示 |r|>0.9。

      論文特別指出:UniCode 與這些成熟基準間獲得的相關性(以 |r| 衡量)超過了這些現有代碼基準數據集之間的互相關,從而證明UniCode 在評估尺度上與現有主流工具高度一致,且具備獨立揭露模型弱點的能力。論文同時通過人工盲審驗證了生成題目的可解性(在抽樣的 50 道題中,解題率達 98.0%),增強了生成題目在可讀性與語義明確性方面的可信度。



      討論:錯誤題會讓評測失效嗎?

      從可靠性角度的再思考

      在傳統觀念中,一個基準的所有題目都必須是完美無瑕的。然而,當基準規模大幅擴展(如從幾百題增至數千題),尤其是通過自動生成方式構建時,完全避免錯誤題目成本極高,甚至不現實。UniCode 的研究通過數學論證指出:一個存在少量錯誤但題量巨大的基準,其整體評估結果可能比一個題量小但「完美」的基準更為可靠

      這背后的核心邏輯在于區分兩種不同類型的誤差:

      1. 系統偏差:由于基準中的錯誤題目導致的誤差。例如,一個錯誤題目可能永遠無法被解對。這種誤差是固定的,其大小大致等于「錯誤題目的比例」。在 UniCode 的設定中,即便有約 5.5% 的錯誤題目,其引入的系統偏差也相對較小且穩定。
      2. 隨機誤差:由于評測題目的抽樣隨機性導致的誤差。樣本量越小,結果的波動性就越大。一個僅有 200 道題的「完美」基準,很容易因為題目抽樣的偶然性(例如,恰好抽到了某個模型擅長的題型)而無法穩定反映模型的真實能力。

      因此,在評估模型,尤其是區分頂尖模型時,我們更害怕的是結果「晃動」,而不是一個微小且固定的「偏移」。UniCode 通過其大規模生成能力,正是用可接受且極小的系統偏差,換取了隨機誤差的顯著降低,從而實現了比傳統小規模基準更高、更可靠的判別力。論文在附錄中通過嚴格的數學模型證明了這一點,確保了其基準報告的準確性是值得信賴的。

      結語

      UniCode 將「生成式評測」從理念推進到了可操作的工程化體系:通過三條進化式題目生成路徑 + 一套壓力驅動、分層驗證的測試合成流水線,UniCode 在題目多樣性、判題可靠性和對模型泛化能力的診斷上都取得了令人信服的結果。該框架不僅能緩解傳統靜態基準的污染與擴展問題,還為研究人員提供了一個可重復、可追溯的工具鏈,有望成為未來代碼生成與算法泛化評估的重要基石。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海律師帶小三孕檢新后續:空姐是10年白月光,婆婆態度讓人寒心

      上海律師帶小三孕檢新后續:空姐是10年白月光,婆婆態度讓人寒心

      壹月情感
      2025-11-04 22:50:11
      吳石犧牲后,偉人很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      吳石犧牲后,偉人很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      知鑒明史
      2025-10-22 18:58:14
      周五收評:A股跌破4000點,出現兩個跡象,下周股市走勢分析!

      周五收評:A股跌破4000點,出現兩個跡象,下周股市走勢分析!

      甜檸聊史
      2025-11-07 15:00:59
      臺當局做戰備,連戰送鄭麗文8個大字,一場前所未有的較量開始了

      臺當局做戰備,連戰送鄭麗文8個大字,一場前所未有的較量開始了

      顧史
      2025-11-05 13:59:03
      中國的安排太妙了:福建艦入列當天,10名日本軍官正在中國參觀

      中國的安排太妙了:福建艦入列當天,10名日本軍官正在中國參觀

      千里持劍
      2025-11-07 13:55:34
      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      封殺四年,49歲趙薇突傳消息,因胃癌去世傳聞5個月前就真相大白

      老吳教育課堂
      2025-11-07 03:44:53
      金價,突然又爆了!

      金價,突然又爆了!

      大永強
      2025-11-07 10:19:07
      又一則勵志新聞翻車了!

      又一則勵志新聞翻車了!

      清書先生
      2025-10-21 15:51:40
      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴重

      狐貍先森講升學規劃
      2025-08-01 18:30:03
      東北野雞泛濫成災,為何很少有人吃?當地農民直言

      東北野雞泛濫成災,為何很少有人吃?當地農民直言

      忠于法紀
      2025-11-07 09:25:39
      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      蔣介石在日記里坦言:重慶談判放走毛澤東,全是因為這兩點!

      鶴羽說個事
      2025-10-25 11:44:53
      棱鏡門事件內幕,美國派16名特種兵進入澳門,斯若登命運扭轉!

      棱鏡門事件內幕,美國派16名特種兵進入澳門,斯若登命運扭轉!

      板栗說事
      2024-10-13 12:40:43
      普京吹上天的核導彈被炸成廢鐵!烏克蘭端了老家,專家:舊貨改裝

      普京吹上天的核導彈被炸成廢鐵!烏克蘭端了老家,專家:舊貨改裝

      芊芊子吟
      2025-11-07 15:50:02
      給力!槍手新總監夏窗壓哨簽2強援 堅持加大投入解球隊最大痼疾

      給力!槍手新總監夏窗壓哨簽2強援 堅持加大投入解球隊最大痼疾

      雪狼侃體育
      2025-11-07 16:41:25
      臺灣各界人士座談 呼吁在堅持“九二共識”基礎上恢復兩岸協商

      臺灣各界人士座談 呼吁在堅持“九二共識”基礎上恢復兩岸協商

      新華社
      2025-11-06 21:02:04
      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      極目新聞
      2025-11-05 16:08:13
      佟麗婭在深圳掃購黃金!頭發稀少假發突出,滿胳膊黃金手串太顯眼

      佟麗婭在深圳掃購黃金!頭發稀少假發突出,滿胳膊黃金手串太顯眼

      鑫鑫說說
      2025-11-04 09:18:31
      副院長視頻后續:眼科女主任很愛干凈,沙發上鋪了兩張無菌床單

      副院長視頻后續:眼科女主任很愛干凈,沙發上鋪了兩張無菌床單

      鋭娛之樂
      2025-11-07 15:50:06
      王家衛又被曝!陪玩陪睡、逼瘋演員只冰山一角,劉嘉玲撕開真面目

      王家衛又被曝!陪玩陪睡、逼瘋演員只冰山一角,劉嘉玲撕開真面目

      胡一舸南游y
      2025-11-07 16:35:04
      出差前我關了水閘,樓下鄰居卻投訴我家漏水,撬開門后我大吃一驚

      出差前我關了水閘,樓下鄰居卻投訴我家漏水,撬開門后我大吃一驚

      黃小乖的日記
      2025-11-02 14:00:21
      2025-11-07 18:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11672文章數 142500關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      白百何回應東京電影節爭議

      財經要聞

      荷蘭政府:安世中國將很快恢復芯片供應

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態度原創

      時尚
      本地
      家居
      健康
      公開課

      有品味的中年阿姨,穿衣搭配都有4個共同點,學會了優雅到老

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      家居要聞

      現代自由 功能美學居所

      超聲探頭會加重受傷情況嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰台区| 亚洲国产精品无码一区二区三区| 亚洲精品国产自在现线最新| 色偷偷亚洲女人天堂观看| 一日本道伊人久久综合影| 国产午夜精品福利久久| 亚洲综合精品香蕉久久网| 精品国产中文字幕懂色| 亚洲国产区男人本色vr| 国产伦码精品一区二区| 望都县| 日韩AV高清在线看片| 不卡高清AV手机在线观看| 日韩国产中文字幕精品| 性色av无码不卡中文字幕| 国产亚洲国产精品二区| 亚洲乱人伦中文字幕无码| 中文字幕日韩精品亚洲一区| 国产精品成人av在线观看春天| 久久国产精品99久久蜜臀| 红安县| 亚洲伊人久久综合成人| 亚洲乱妇老熟女爽到高潮的片| 激情综合网一区二区三区| 临漳县| 少妇熟女久久综合网色欲| аⅴ天堂国产最新版在线中文| 污污污污污污WWW网站免费| 国产精品免费无遮挡无码永久视频 | 丰满高跟丝袜老熟女久久| 国产精品日韩中文字幕| 中文字幕亚洲综合第一页| 国产高在线精品亚洲三区| 99福利一区二区视频| 国产无遮挡又黄又爽不要vip软件| 狼色精品人妻在线视频| 国产高清在线不卡一区| 艳妇臀荡乳欲伦交换h在线观看| 久久精品av国产一区二区| 毛片一区二区在线看| 少妇仑乱a毛片无码|