網易首頁 > 網易號 > 正文申請入駐

開源模型首次物理奧賽奪金！上海AI Lab 235B模型擊敗GPT5和Grok4

2025-10-25 14:46:03　來源: 量子位

北京舉報

分享至

P1團隊投稿
量子位 | 公眾號 QbitAI

開源模型首次在國際物理奧林匹克競賽奪金了。

來自上海AI Lab的P1-235B-A22B取得了21.2分的成績，成功跨越金牌線。

在覆蓋2024-2025年全球13場頂級物理競賽的HiPhO基準測試中，P1-235B-A22B獲12金1銀，與谷歌Gemini-2.5-Pro并列獎牌榜第一。

這個成績超越了GPT-5的11金以及Grok-4的10金，標志著開源模型在物理推理能力上已經達到甚至超越閉源模型的水平。

同時，團隊提出的協同進化多智能體系統PhysicsMinions，在IPhO 2025及HiPhO綜合得分上雙雙問鼎，展現了“模型+系統”框架在應對復雜科學問題的卓越潛力。

物理推理是理解與塑造現實世界的核心能力。國際物理奧林匹克（IPhO）等頂尖賽事，以其對復雜推理和深度物理理解的高標準，成為檢驗物理智能對現實認知能力的重要標尺。AI在此類競賽中奪得金牌，不僅是實現通用物理智能道路上的關鍵里程碑，更表明模型已初步具備應對現實世界中復雜物理問題的潛力。

P1系列：模型、算法、評測集和智能體框架的全鏈路開源體系

首個物理奧賽基準測試：HiPhO

為了準確評估物理奧賽的表現，研究團隊構建了HiPhO（High School Physics Olympiad）基準測試，這是首個專注于最新物理奧賽、采用人類對齊評估的基準。

HiPhO涵蓋了2024-2025年最新的13場奧林匹克級別的物理競賽，包括 IPhO、APhO、EuPhO 等國際和區域賽事。評估時采用官方評分標準，對答案和過程進行細粒度評分，與人類評審嚴格對齊，確保得分準確。由此，每個模型的考試得分可直接與人類選手以及金銀銅牌分數線進行比較。

△HiPhO 基準測試概覽，包含2024-2025年13場物理奧賽，覆蓋國際和區域競賽。

多階段強化學習訓練

研究團隊通過高質量的提取和標注流程，構建了包含數千條奧賽級別題目的訓練數據集。每條數據均具有完整的上下文信息、可驗證答案以及標準解題過程，用于強化學習訓練。

P1系列模型采用多階段強化學習流程進行訓練。為了實現穩定高效的訓練，團隊在每個階段應用兩項關鍵策略：

上下文窗口擴展：
隨著訓練的推進，逐步擴展模型最大生成長度，使模型能夠探索更長的推理鏈。這種擴展提高了高復雜度問題的可解性，減少了因截斷導致的錯誤。
通過率過濾：
在訓練前，基于通過率統計對數據進行篩選，排除過于簡單或過于困難的任務。

基于這種多階段強化學習策略，P1模型實現了在基座語言模型的基礎上長期、持續的性能提升

協同進化的多智能體系統：PhysicsMinions

為了突破單模型的極限，研究團隊開發了PhysicsMinions，這是一個專為物理推理設計的協同進化多智能體系統。它由三個交互式模塊組成，通過自我驗證與反思迭代，實現了物理推理能力的躍升：

視覺模塊（Visual Studio）
– 觀察和驗證多模態問題，提取結構化的視覺信息（在P1模型實驗中未使用視覺模塊）。
邏輯模塊（Logic Studio）
– 生成初始解決方案，并通過自我改進和自我反思逐步改進解答。
審核模塊（Review Studio）
– 執行雙階段驗證：物理驗證器檢查物理一致性（比如常數、單位），而通用驗證器檢查邏輯、推理和計算。

如果任一階段驗證失敗，詳細的錯誤報告會被發送回邏輯模塊，進行反思修訂解答。通過這種協同進化協作，PhysicsMinions 持續提升復雜物理問題的推理質量和魯棒性。

△PhysicsMinions 協同進化多智能體系統概覽，展示了三個模塊之間的交互流程。

評測結果：引領 HiPhO 基準，物理推理能力世界第一

下表總結了在 HiPhO 基準上所有競賽的平均表現，展示出 P1 系列模型和多智能體系統的出色性能。

△P1 系列模型在 HiPhO 基準測試上的綜合表現，包括與開源和閉源模型的對比。

P1-235B-A22B展現出卓越的物理推理能力，與Gemini-2.5-Pro和Gemini-2.5-Flash-Thinking并列第一，斬獲12金1銀，金牌數超越GPT-5（11金）、Grok-4（10金）和Claude-4-Sonnet-Thinking（8金）等主流閉源模型。

在IPhO 2025上，P1-235B-A22B得分21.2/30，成為首個也是唯一獲得金牌的開源模型。

P1-30B-A3B在HiPhO基準上同樣表現出色，獲得8金4銀1銅，在現有開源模型中排名第三。

僅次于參數規模更大的Qwen3-235B-A22B-Thinking-2507和DeepSeek-R1，甚至超越了o4-mini和Claude-4-Sonnet等閉源模型，突顯了其在中等規模下的強大物理推理能力。

配備PhysicsMinions多智能體系統后，P1模型性能實現跨越式提升。P1-235B-A22B模型在 HiPhO 基準上取得了35.9分的平均得分，而配備 PhysicsMinions 后，其性能大幅提升至38.4分，在所有模型中取得綜合第一，超越了Gemini-2.5-Pro（37.7）和 GPT-5（37.4）等頂尖閉源模型。

通專融合，P1模型通用能力持續提升

除了強大的物理推理能力，P1模型在多個領域的能力也得到進一步提升。如下圖所示，P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507，在數學、代碼、STEM等基準測試上均取得顯著優勢，證明了物理推理能力的強大泛化性。

Project Page: https://prime-rl.github.io/P1
Github: https://github.com/PRIME-RL/P1

HiPhO：
論文：https://arxiv.org/abs/2509.07894
數據集：https://huggingface.co/datasets/SciYu/HiPhO
排行榜：https://phyarena.github.io/

PhysicsMinions
https://arxiv.org/abs/2509.24855

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.