<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      PhysToolBench提出了衡量多模態大模型對物理工具理解的基準

      0
      分享至



      人類之所以能與復雜的物理世界高效互動,很大程度上源于對「工具」的使用、理解與創造能力。對任何通用型智能體而言,這同樣是不可或缺的基本技能,對物理工具的使用會大大影響任務的成功率與效率。

      盡管當下的多模態大模型在具身智能的高層任務規劃以及低層動作執行方面都展現出很大的潛力,但它們是否真正「懂」物理工具、理解其運作原理,仍缺乏統一的量化評估。

      為此,來自香港科技大學(廣州)、香港科技大學等研究機構的團隊提出了PhysToolBench,一個衡量多模態大模型對物理工具的理解的基準。PhysToolBench 把對物理工具的理解分為了三個等級,分別為「認識」工具、「理解」工具、「創造」工具。



      • GitHub 鏈接:
      • https://github.com/EnVision-Research/PhysToolBench
      • 論文鏈接:
      • https://arxiv.org/abs/2510.09507
      • Hugging Face 數據集鏈接:
      • https://huggingface.co/datasets/zhangzixin02/PhysToolBench

      PhysToolBench 系統性地測試了 32 個最新的多模態大模型,包含閉源商用模型、開源模型、具身智能專用模型以及 VLA 模型的 VLM 主干四大類,測試出了他們對于物理工具的理解的不足。



      PhysToolBench 介紹

      機器人執行任務的一般邏輯是,機器人會收到任務指令,并進行環境觀察,隨后再做出任務規劃或者一級動作執行。因此,PhysToolBench 以視覺問答 (VQA) 的形式,設計了包含1000+圖文配對的數據集,其中文字部分是任務描述,圖片是一個包含了各種工具的圖片,代表了機器人觀察到的環境,模型被要求觀察圖片,回答應該使用的工具 (當判斷沒有工具可用時可以回答 None)。

      三層能力評估:

      • Easy-工具識別 (Tool Recognition):判斷模型是否認識工具以及知道它的主要功能;給定一個任務,圖片中會包含一個最常用的能完成這個任務的工具。例如任務是切菜,圖片中會包含一把菜刀。

      • Medium-工具理解 (Tool Understanding):判斷模型是否理解工具運作的基本原理;為了更細致地考驗多模態大模型的真實理解,這一難度又分為了三個子類別:

      • M1-工具屬性理解:不僅僅需要知道物理工具的用途,還得知道它的物理、化學等屬性,從而選擇合適的工具。例如任務是高溫煎牛排,圖片中包含不粘鍋和鐵鍋,模型需要選擇鐵鍋因為其高溫耐受性。
      • M2-組合工具理解:需要組合多種工具實現目標,以此來判斷模型是否明白組合不同工具解鎖新的 affordance。例如,需要組合遙控器和電池才能完成開電視機的任務。
      • M3-工具可用性理解:給出的工具有損壞,模型需要識別出它不可用,以此來判斷模型是否真正理解物理工具「為什么可用」。例如,有一把沒有刀片的美工刀,模型需要理解它沒法完成切割的任務。

      • Hard-工具創造 (Tool Creation):判斷模型是否能根據任務需求反推所需要的工具的能力。給定一個任務,圖片中將不包含常規工具,模型需要利用環境物體「造工具」來完成任務。例如,當沒有螺絲刀可用時,可以用一元硬幣來擰一字螺絲。

      評測范圍:覆蓋32個最新的多模態大模型 (專有、開源、具身智能專用與 VLA 主干)。



      實驗結果:

      大模型在 PhysToolBench 上的答卷





      各個多模態大模型在PhysToolBench上的總準確率(%)

      頂級大模型表現仍然不理想

      整體來看,閉源商用模型領跑,開源模型緊隨其后。且模型越「大」,模型越「強」。然而,即使是當前的頂級的大模型,在 PhysToolBench 上表現欠佳,總得分最高的模型為閉源商用模型 GPT-5,得分為 62.15%,在 M3 難度和 Hard 難度下,得分普遍低于 50%,和人類表現相去甚遠。

      專用于 Embodied 場景的 MLLM 表現如何?

      Robobrain2、Embodied-R1 等模型以 MLLM 為基模,并在 Embodied 相關數據集上進行了 finetune。然而,對比 Robobrain2、Embodied-R1 以及他們的基模 Qwen-2.5-VL,在同等參數量的情況下他們并沒有展現出領先優勢,說明當今的 Embodied Reasoning 的數據集中關于工具使用的內容仍然比較欠缺。



      被用在 VLA 當中的 backbone 模型是否具備了足夠的物理工具理解能力?

      研究團隊還測試了幾個用在 Vision-Language-Action (VLA) 模型中的 VLM backbone,結果顯示,他們的表現比較糟糕,總得分普遍低于 20%。這說明它們盡管具備了一定的知識,但要完成更高階更復雜的任務或許還不夠。

      深入分析

      對工具的識別與理解存在長尾效應。即使是頂級的模型,在對一些工具的識別和理解上仍然存在長尾效應。例如,模型對一些電子設備的識別與理解欠佳。

      模型對工具「是否可用」理解很差。在 M3 難度,PhysToolBench 特意設置了「陷阱」,但絕大多數模型都沒有識別出這個陷阱,仍然選擇了損壞的工具。在 M3 難度的總得分甚至比 Hard 難度還低,說明大模型對工具的理解較為膚淺,僅僅是淺層的死記硬背工具與其功能的對應關系,而并沒有對其為什么可用的深刻理解。這不僅僅會導致任務失敗,還會帶來一些安全隱患。

      推理能力非常重要,但還遠遠不夠。研究團隊對比了一些模型在使用/不使用思維鏈下的性能,發現使用思維鏈會帶來性能的提升,但對于一些難度較大的 case,例如 M3 難度和 Hard 難度,純文本層面的推理仍然會有瓶頸,模型無法抓取到存在于視覺模態當中的關鍵信息,導致推理仍然帶來不了正確的結果。研究團隊認為,以視覺為中心的推理 (Vision Centric Reasoning) 對于正確使用物理工具非常關鍵,并提出了一個初步的以視覺為中心的推理的 Agent 框架,鼓勵推理過程中利用目標識別等工具放大觀察一些關鍵的工具,并進行額外推理。在 M3 難度上的實驗表明,這種推理方式能顯著提升模型的準確率,但仍然達不到令人滿意的水平。



      不同模型使用不同推理方式的表現



      對比:(a)文本層面推理 與 (b)視覺為中心的推理

      總結

      論文提出了測試多模態大模型對物理工具的理解的基準 PhysToolBench。通過系統性地設置不同層級以及廣泛的測試,PhysToolBench 揭示了當今多模態大模型對物理工具的理解的短板,也為未來的發展指明了方向:理解、運用和創造復雜的物理工具的能力,是邁向通用智能體不可或缺的一步,也是下一代多模態大模型需要提升的一步。

      相關論文、代碼、數據集等均已公開公布。 感興趣的小伙伴可以進一步體驗和探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

      廣東16歲女兒被父親過度寵溺,被母親回家撞見后,失控將其砍死

      曉艾故事匯
      2024-11-04 10:55:36
      趙麗穎挺孕肚疑懷二胎!馮媽送上珠寶,馮紹峰放下工作陪伴左右

      趙麗穎挺孕肚疑懷二胎!馮媽送上珠寶,馮紹峰放下工作陪伴左右

      八星人
      2025-11-06 11:01:48
      細眉小眼,雙目無神,鼻孔外露,長相好普

      細眉小眼,雙目無神,鼻孔外露,長相好普

      娘娘不想上班
      2025-10-09 14:49:02
      總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

      總理是叛徒?俄羅斯“最大內鬼”浮出水面,竟然一直藏在普京身邊

      小lu侃侃而談
      2025-06-10 20:06:43
      前央視主持人為愛情放棄國籍,婚姻失敗回國撈金,如今過的怎樣了

      前央視主持人為愛情放棄國籍,婚姻失敗回國撈金,如今過的怎樣了

      君笙的拂兮
      2025-11-06 00:36:03
      云南曲靖一男子發布欲跳樓視頻,萬千網友在線勸阻,當地:已被消防員救下

      云南曲靖一男子發布欲跳樓視頻,萬千網友在線勸阻,當地:已被消防員救下

      極目新聞
      2025-11-06 16:25:44
      神舟二十號飛船疑遇碎片撞擊,如果修不成,神舟二十二或火速升天

      神舟二十號飛船疑遇碎片撞擊,如果修不成,神舟二十二或火速升天

      策略述
      2025-11-06 17:10:48
      一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

      一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

      文史旺旺旺
      2025-11-05 20:44:04
      全紅嬋未奪冠并不意外,教練陳若琳到場為愛徒加油,滿眼都是心疼

      全紅嬋未奪冠并不意外,教練陳若琳到場為愛徒加油,滿眼都是心疼

      喜歡歷史的阿繁
      2025-11-07 01:00:07
      女企業竟嫁19歲體育生,一天5次性生活,8年后得知丈夫隱藏身份

      女企業竟嫁19歲體育生,一天5次性生活,8年后得知丈夫隱藏身份

      今天說故事
      2025-09-12 18:14:21
      女孩每天去超市貨架偷面包,老板裝沒看見,10年后老板收到快遞哭了

      女孩每天去超市貨架偷面包,老板裝沒看見,10年后老板收到快遞哭了

      懸案解密檔案
      2025-11-03 10:58:58
      黃曉明前任葉珂,穿鯊魚褲直播,身材曲線太驚艷?

      黃曉明前任葉珂,穿鯊魚褲直播,身材曲線太驚艷?

      娛樂領航家
      2025-11-06 17:00:03
      英媒:曼聯想在冬窗簽下布蘭斯韋特,但埃弗頓不會放走他

      英媒:曼聯想在冬窗簽下布蘭斯韋特,但埃弗頓不會放走他

      懂球帝
      2025-11-06 11:26:14
      該醒了!就算臺灣愿意和平統一,臺灣也不可能允許解放軍對臺駐軍

      該醒了!就算臺灣愿意和平統一,臺灣也不可能允許解放軍對臺駐軍

      來科點譜
      2025-10-25 09:25:44
      巴黎世家3.6萬的一分褲長這樣!衣服已經顛到讓人懷疑人生

      巴黎世家3.6萬的一分褲長這樣!衣服已經顛到讓人懷疑人生

      80后房車生活
      2025-09-28 23:27:33
      取錢新規出來了!2025開始,死者的存款不再受銀行的氣!

      取錢新規出來了!2025開始,死者的存款不再受銀行的氣!

      巢客HOME
      2025-11-04 11:40:03
      武漢物業領域真的要變天了!《武漢市物業管理條例》最新細則公布!

      武漢物業領域真的要變天了!《武漢市物業管理條例》最新細則公布!

      江洲城記
      2025-11-06 10:29:30
      潮汕姑娘被鄰居圍毆后續:無法正常生活,已立案,施暴者或被拘留

      潮汕姑娘被鄰居圍毆后續:無法正常生活,已立案,施暴者或被拘留

      以茶帶書
      2025-11-06 15:59:13
      納指跌幅擴大至1.5%

      納指跌幅擴大至1.5%

      每日經濟新聞
      2025-11-07 00:00:32
      相當炸裂!網傳某大廠領導裁掉一個邊緣員工,然后和她結婚了

      相當炸裂!網傳某大廠領導裁掉一個邊緣員工,然后和她結婚了

      星河也燦爛
      2025-10-30 16:46:24
      2025-11-07 03:59:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      藝術
      教育
      旅游
      公開課
      軍事航空

      藝術要聞

      驚人!一幅畫拍出3.45億,竟然他早已去世62年!真相令人震驚!

      教育要聞

      小升初幾何題,難倒了不少小學畢業生

      旅游要聞

      11月6日最佳情報|濟南郎茂山日出美如畫,三媳婦山奇峰峻美!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产av一区二区亚洲精品| 国产av一区二区不卡| 国产精一区二区黑人巨大| 麻豆蜜桃伦理一区二区三区| 人妻丝袜无码专区视频网站| 蜜桃av色偷偷av老熟女| 国产精品久久久久久久久久妞妞 | 久久精品国产精品亚洲精品| a级国产乱理伦片在线观看al| 色色97| 四平市| 在线a亚洲老鸭窝天堂| 国产成人综合色就色综合 | 国产精品老熟女一区二区| 18禁亚洲一区二区三区| 亚洲高清国产拍精品熟女| 国产一区日韩二区三区| 狠狠躁夜夜躁无码中文字幕| 狠狠做五月深爱婷婷伊人| 久久99精品国产自在现线小黄鸭 | 精品久久人人做爽综合| 亚洲精品一区二区三天美| 亚洲精品国产免费av| 日本乱子人伦在线视频| 国产午夜福利av在线麻豆| 人妻少妇偷人一区二区| 人妻无码中文字幕免费视频蜜桃| 日韩免费无码视频一区二区三区| 自拍偷自拍亚洲精品播放| 国产午夜精品久久久久免费视| 日韩加勒比一本无码精品| 国产成人无码AV片在线观看不卡 | 好吊视频在线一区二区三区| 天天看片视频免费观看| 在线观看中文字幕国产码| 精品国产一区二区三区卡| 在线免费观看视频1区| 精品超清无码视频在线观看 | 9lporm自拍视频区| 久久精品国产亚洲欧美| 国产av中文字幕精品|