網易首頁 > 網易號 > 正文申請入駐

PhysToolBench提出了衡量多模態大模型對物理工具理解的基準

2025-11-04 18:02:01　來源: 機器之心Pro

北京舉報

分享至

人類之所以能與復雜的物理世界高效互動，很大程度上源于對「工具」的使用、理解與創造能力。對任何通用型智能體而言，這同樣是不可或缺的基本技能，對物理工具的使用會大大影響任務的成功率與效率。

盡管當下的多模態大模型在具身智能的高層任務規劃以及低層動作執行方面都展現出很大的潛力，但它們是否真正「懂」物理工具、理解其運作原理，仍缺乏統一的量化評估。

為此，來自香港科技大學（廣州）、香港科技大學等研究機構的團隊提出了PhysToolBench，一個衡量多模態大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級，分別為「認識」工具、「理解」工具、「創造」工具。

GitHub 鏈接：
https://github.com/EnVision-Research/PhysToolBench
論文鏈接：
https://arxiv.org/abs/2510.09507
Hugging Face 數據集鏈接：
https://huggingface.co/datasets/zhangzixin02/PhysToolBench

PhysToolBench 系統性地測試了 32 個最新的多模態大模型，包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類，測試出了他們對于物理工具的理解的不足。

PhysToolBench 介紹

機器人執行任務的一般邏輯是，機器人會收到任務指令，并進行環境觀察，隨后再做出任務規劃或者一級動作執行。因此，PhysToolBench 以視覺問答 (VQA) 的形式，設計了包含1000+圖文配對的數據集，其中文字部分是任務描述，圖片是一個包含了各種工具的圖片，代表了機器人觀察到的環境，模型被要求觀察圖片，回答應該使用的工具 (當判斷沒有工具可用時可以回答 None)。

三層能力評估：

Easy-工具識別 (Tool Recognition)：判斷模型是否認識工具以及知道它的主要功能；給定一個任務，圖片中會包含一個最常用的能完成這個任務的工具。例如任務是切菜，圖片中會包含一把菜刀。

Medium-工具理解 (Tool Understanding)：判斷模型是否理解工具運作的基本原理；為了更細致地考驗多模態大模型的真實理解，這一難度又分為了三個子類別：

M1-工具屬性理解：不僅僅需要知道物理工具的用途，還得知道它的物理、化學等屬性，從而選擇合適的工具。例如任務是高溫煎牛排，圖片中包含不粘鍋和鐵鍋，模型需要選擇鐵鍋因為其高溫耐受性。
M2-組合工具理解：需要組合多種工具實現目標，以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如，需要組合遙控器和電池才能完成開電視機的任務。
M3-工具可用性理解：給出的工具有損壞，模型需要識別出它不可用，以此來判斷模型是否真正理解物理工具「為什么可用」。例如，有一把沒有刀片的美工刀，模型需要理解它沒法完成切割的任務。

Hard-工具創造 (Tool Creation)：判斷模型是否能根據任務需求反推所需要的工具的能力。給定一個任務，圖片中將不包含常規工具，模型需要利用環境物體「造工具」來完成任務。例如，當沒有螺絲刀可用時，可以用一元硬幣來擰一字螺絲。

評測范圍：覆蓋32個最新的多模態大模型 (專有、開源、具身智能專用與 VLA 主干)。

實驗結果：

大模型在 PhysToolBench 上的答卷

各個多模態大模型在PhysToolBench上的總準確率(%)

頂級大模型表現仍然不理想

整體來看，閉源商用模型領跑，開源模型緊隨其后。且模型越「大」，模型越「強」。然而，即使是當前的頂級的大模型，在 PhysToolBench 上表現欠佳，總得分最高的模型為閉源商用模型 GPT-5，得分為 62.15%，在 M3 難度和 Hard 難度下，得分普遍低于 50%，和人類表現相去甚遠。

專用于 Embodied 場景的 MLLM 表現如何？

Robobrain2、Embodied-R1 等模型以 MLLM 為基模，并在 Embodied 相關數據集上進行了 finetune。然而，對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL，在同等參數量的情況下他們并沒有展現出領先優勢，說明當今的 Embodied Reasoning 的數據集中關于工具使用的內容仍然比較欠缺。

被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力？

研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone，結果顯示，他們的表現比較糟糕，總得分普遍低于 20%。這說明它們盡管具備了一定的知識，但要完成更高階更復雜的任務或許還不夠。

深入分析

對工具的識別與理解存在長尾效應。即使是頂級的模型，在對一些工具的識別和理解上仍然存在長尾效應。例如，模型對一些電子設備的識別與理解欠佳。

模型對工具「是否可用」理解很差。在 M3 難度，PhysToolBench 特意設置了「陷阱」，但絕大多數模型都沒有識別出這個陷阱，仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低，說明大模型對工具的理解較為膚淺，僅僅是淺層的死記硬背工具與其功能的對應關系，而并沒有對其為什么可用的深刻理解。這不僅僅會導致任務失敗，還會帶來一些安全隱患。

推理能力非常重要，但還遠遠不夠。研究團隊對比了一些模型在使用/不使用思維鏈下的性能，發現使用思維鏈會帶來性能的提升，但對于一些難度較大的 case，例如 M3 難度和 Hard 難度，純文本層面的推理仍然會有瓶頸，模型無法抓取到存在于視覺模態當中的關鍵信息，導致推理仍然帶來不了正確的結果。研究團隊認為，以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關鍵，并提出了一個初步的以視覺為中心的推理的 Agent 框架，鼓勵推理過程中利用目標識別等工具放大觀察一些關鍵的工具，并進行額外推理。在 M3 難度上的實驗表明，這種推理方式能顯著提升模型的準確率，但仍然達不到令人滿意的水平。

不同模型使用不同推理方式的表現

對比：(a)文本層面推理與 (b)視覺為中心的推理

總結

論文提出了測試多模態大模型對物理工具的理解的基準 PhysToolBench。通過系統性地設置不同層級以及廣泛的測試，PhysToolBench 揭示了當今多模態大模型對物理工具的理解的短板，也為未來的發展指明了方向：理解、運用和創造復雜的物理工具的能力，是邁向通用智能體不可或缺的一步，也是下一代多模態大模型需要提升的一步。

相關論文、代碼、數據集等均已公開公布。感興趣的小伙伴可以進一步體驗和探索。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.