<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      開源模型首次物理奧賽奪金!上海AI Lab 235B模型擊敗GPT5和Grok4

      0
      分享至

      P1團隊 投稿
      量子位 | 公眾號 QbitAI

      開源模型首次在國際物理奧林匹克競賽奪金了。

      來自上海AI Lab的P1-235B-A22B取得了21.2分的成績,成功跨越金牌線。

      在覆蓋2024-2025年全球13場頂級物理競賽的HiPhO基準測試中,P1-235B-A22B獲12金1銀,與谷歌Gemini-2.5-Pro并列獎牌榜第一。



      這個成績超越了GPT-5的11金以及Grok-4的10金,標志著開源模型在物理推理能力上已經達到甚至超越閉源模型的水平。

      同時,團隊提出的協同進化多智能體系統PhysicsMinions,在IPhO 2025及HiPhO綜合得分上雙雙問鼎,展現了“模型+系統”框架在應對復雜科學問題的卓越潛力。

      物理推理是理解與塑造現實世界的核心能力。國際物理奧林匹克(IPhO)等頂尖賽事,以其對復雜推理和深度物理理解的高標準,成為檢驗物理智能對現實認知能力的重要標尺。AI在此類競賽中奪得金牌,不僅是實現通用物理智能道路上的關鍵里程碑,更表明模型已初步具備應對現實世界中復雜物理問題的潛力。

      P1系列:模型、算法、評測集和智能體框架的全鏈路開源體系

      首個物理奧賽基準測試:HiPhO

      為了準確評估物理奧賽的表現,研究團隊構建了HiPhO(High School Physics Olympiad)基準測試,這是首個專注于最新物理奧賽、采用人類對齊評估的基準。

      HiPhO涵蓋了2024-2025年最新的13場奧林匹克級別的物理競賽,包括 IPhO、APhO、EuPhO 等國際和區域賽事。評估時采用官方評分標準,對答案和過程進行細粒度評分,與人類評審嚴格對齊,確保得分準確。由此,每個模型的考試得分可直接與人類選手以及金銀銅牌分數線進行比較。



      △HiPhO 基準測試概覽,包含2024-2025年13場物理奧賽,覆蓋國際和區域競賽。

      多階段強化學習訓練

      研究團隊通過高質量的提取和標注流程,構建了包含數千條奧賽級別題目的訓練數據集。每條數據均具有完整的上下文信息、可驗證答案以及標準解題過程,用于強化學習訓練。

      P1系列模型采用多階段強化學習流程進行訓練。為了實現穩定高效的訓練,團隊在每個階段應用兩項關鍵策略:

      • 上下文窗口擴展:
      • 隨著訓練的推進,逐步擴展模型最大生成長度,使模型能夠探索更長的推理鏈。這種擴展提高了高復雜度問題的可解性,減少了因截斷導致的錯誤。
      • 通過率過濾:
      • 在訓練前,基于通過率統計對數據進行篩選,排除過于簡單或過于困難的任務。

      基于這種多階段強化學習策略,P1模型實現了在基座語言模型的基礎上長期、持續的性能提升



      協同進化的多智能體系統:PhysicsMinions

      為了突破單模型的極限,研究團隊開發了PhysicsMinions,這是一個專為物理推理設計的協同進化多智能體系統。它由三個交互式模塊組成,通過自我驗證與反思迭代,實現了物理推理能力的躍升:

      • 視覺模塊(Visual Studio)
      • – 觀察和驗證多模態問題,提取結構化的視覺信息(在P1模型實驗中未使用視覺模塊)。
      • 邏輯模塊(Logic Studio)
      • – 生成初始解決方案,并通過自我改進和自我反思逐步改進解答。
      • 審核模塊(Review Studio)
      • – 執行雙階段驗證:物理驗證器檢查物理一致性(比如常數、單位),而通用驗證器檢查邏輯、推理和計算。

      如果任一階段驗證失敗,詳細的錯誤報告會被發送回邏輯模塊,進行反思修訂解答。通過這種協同進化協作,PhysicsMinions 持續提升復雜物理問題的推理質量和魯棒性。



      △PhysicsMinions 協同進化多智能體系統概覽,展示了三個模塊之間的交互流程。

      評測結果:引領 HiPhO 基準,物理推理能力世界第一

      下表總結了在 HiPhO 基準上所有競賽的平均表現,展示出 P1 系列模型和多智能體系統的出色性能。



      △P1 系列模型在 HiPhO 基準測試上的綜合表現,包括與開源和閉源模型的對比。

      P1-235B-A22B展現出卓越的物理推理能力,與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一,斬獲12金1銀,金牌數超越GPT-5(11金)、Grok-4(10金)和Claude-4-Sonnet-Thinking(8金)等主流閉源模型。

      在IPhO 2025上,P1-235B-A22B得分21.2/30,成為首個也是唯一獲得金牌的開源模型。

      P1-30B-A3B在HiPhO基準上同樣表現出色,獲得8金4銀1銅,在現有開源模型中排名第三。

      僅次于參數規模更大的Qwen3-235B-A22B-Thinking-2507DeepSeek-R1,甚至超越了o4-miniClaude-4-Sonnet等閉源模型,突顯了其在中等規模下的強大物理推理能力。

      配備PhysicsMinions多智能體系統后,P1模型性能實現跨越式提升。P1-235B-A22B模型在 HiPhO 基準上取得了35.9分的平均得分,而配備 PhysicsMinions 后,其性能大幅提升至38.4分,在所有模型中取得綜合第一,超越了Gemini-2.5-Pro(37.7)和 GPT-5(37.4)等頂尖閉源模型。

      通專融合,P1模型通用能力持續提升

      除了強大的物理推理能力,P1模型在多個領域的能力也得到進一步提升。如下圖所示,P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在數學、代碼、STEM等基準測試上均取得顯著優勢,證明了物理推理能力的強大泛化性。



      Project Page: https://prime-rl.github.io/P1
      Github: https://github.com/PRIME-RL/P1

      HiPhO:
      論文:https://arxiv.org/abs/2509.07894
      數據集:https://huggingface.co/datasets/SciYu/HiPhO
      排行榜:https://phyarena.github.io/

      PhysicsMinions
      https://arxiv.org/abs/2509.24855

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朝鮮為他舉行國葬,曾任國家元首逾20年

      朝鮮為他舉行國葬,曾任國家元首逾20年

      中國新聞周刊
      2025-11-04 20:52:03
      瞬間暴漲3倍!上海有人立馬出手:好怕搶不到

      瞬間暴漲3倍!上海有人立馬出手:好怕搶不到

      極目新聞
      2025-11-05 15:06:20
      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      國足選帥如同兒戲,足協說了不算慘遭打臉!不可抗的因素選邵佳一

      中國足球的那些事兒
      2025-11-05 19:46:13
      以“看看你多重”抱女生!高中男老師涉猥褻被行拘解聘,本人否認并擬復議

      以“看看你多重”抱女生!高中男老師涉猥褻被行拘解聘,本人否認并擬復議

      紅星新聞
      2025-11-05 15:21:22
      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      年輕人不買賬,中年人喝不起!茅臺跌破1600,終于承認只是瓶酒?

      金融八卦女
      2025-11-05 13:57:48
      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      共和黨在美國四個州的選舉中大敗!特朗普中期選舉堪憂

      項鵬飛
      2025-11-05 20:53:35
      邵佳一成為國足主帥的背后:決策權不在中國足協,宋凱如釋重負

      邵佳一成為國足主帥的背后:決策權不在中國足協,宋凱如釋重負

      姜大叔侃球
      2025-11-05 19:20:12
      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      界面新聞
      2025-11-05 13:44:22
      定了!國足還是土帥帶,邵佳一上位,看看媒體人怎么說,都挺實在

      定了!國足還是土帥帶,邵佳一上位,看看媒體人怎么說,都挺實在

      萌蘭聊個球
      2025-11-05 17:37:26
      丫鬟小花鬧離婚了?白百何被王傳君截胡?邢菲因戲生情?卜凡被針對?姨太問答

      丫鬟小花鬧離婚了?白百何被王傳君截胡?邢菲因戲生情?卜凡被針對?姨太問答

      毒舌扒姨太
      2025-11-04 22:52:26
      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      不顧美歐反對,中方邀請俄總理訪華,普京有個好消息要告訴中國

      第一軍情
      2025-11-05 15:40:03
      她因美貌受騷擾,拒絕導演七次后被雪藏多年,43歲又憑實力翻紅

      她因美貌受騷擾,拒絕導演七次后被雪藏多年,43歲又憑實力翻紅

      暖心萌阿菇涼
      2025-11-04 21:38:06
      翻譯為瀚森發聲:我倆被真正NBA所震驚 他付出努力不該被輕易否定

      翻譯為瀚森發聲:我倆被真正NBA所震驚 他付出努力不該被輕易否定

      羅說NBA
      2025-11-05 16:56:21
      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      “神仙租戶”退租時房內锃亮反光,房東落淚收房:出租五年多,感覺像失戀了,失去這么好一個租戶

      極目新聞
      2025-11-05 16:08:13
      7000億元!央行重磅消息

      7000億元!央行重磅消息

      每日經濟新聞
      2025-11-04 17:35:07
      烏克蘭公布“罕見”作戰畫面!外媒:烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

      烏克蘭公布“罕見”作戰畫面!外媒:烏特種部隊乘“黑鷹”直升機突襲波克羅夫斯克

      環球網資訊
      2025-11-05 16:09:59
      中國正經歷一場財富大轉移?最富群體是退休老人,年輕人“壓力山大”

      中國正經歷一場財富大轉移?最富群體是退休老人,年輕人“壓力山大”

      小蘿卜絲
      2025-11-05 11:11:28
      評分最高的10部二戰電影:《拯救大兵瑞恩》雖經典,卻進不了前3

      評分最高的10部二戰電影:《拯救大兵瑞恩》雖經典,卻進不了前3

      手工制作阿殲
      2025-11-04 08:59:21
      丈夫病亡兩天后妻子也不幸離世留下一兒一女,妹妹:兩人生前感情太好,我們會帶好孩子

      丈夫病亡兩天后妻子也不幸離世留下一兒一女,妹妹:兩人生前感情太好,我們會帶好孩子

      極目新聞
      2025-11-05 20:44:25
      20歲中國留學生在俄失聯超100小時,家屬:失聯前心情不是很好,人和手機不見了,護照還留在住所

      20歲中國留學生在俄失聯超100小時,家屬:失聯前心情不是很好,人和手機不見了,護照還留在住所

      極目新聞
      2025-11-05 17:04:11
      2025-11-06 00:19:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      數碼
      藝術
      健康
      教育
      公開課

      數碼要聞

      小米POCO X1平板現身Geekbench 搭載驍龍7+ Gen 3

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      超聲探頭會加重受傷情況嗎?

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 野花韩国高清电影| 国产精品麻豆成人av电影艾秋| 精品一区二区无码免费| 国产成人啪精品午夜网站| 人妻中文字幕亚洲精品| 在线精品自拍亚洲第一区| 国产午夜精品久久精品电影| 亚洲中文字幕成人综合网| 久久国产福利播放| 精品无码人妻一区二区三区| 亚洲av无码成人精品区一区| 武穴市| 一个人看的www视频免费观看| 亚洲AV无码不卡在线播放| 色悠悠久久精品综合视频| 日产精品99久久久久久| 三上悠亚精品一区二区久久| 日韩精品有码中文字幕| 无码日韩av一区二区三区| 视频一区二区三区四区久久| 巨胸不知火舞露双奶头无遮挡| 狠狠v日韩v欧美v| www亚洲精品| 国产精品无码一区二区在线观一 | 宿迁市| 欧美视频精品免费覌看| 日本高清免费不卡视频| 少妇宾馆粉嫩10p| 18岁日韩内射颜射午夜久久成人| 综合色天天久久| 亚洲精品中文字幕在线观| 99re6在线视频精品免费下载| 九九成人免费视频| 欧美成人看片一区二区三区尤物| 亚洲热视频这里只有精品| 亚洲人妻一区二区精品| 欧美老人巨大XXXX做受视频| 亚洲av中文一区二区| 国产一区二区三区AV在线无码观看| 久久夜色精品国产亚洲a| 国产一区二区爽爽爽视频|