<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型在具身推理上「翻車」了?4496 道題全面揭示短板

      0
      分享至



      祁煜,2023年本科畢業于北京大學信息科學技術學院。目前為美國Northeastern University在讀博士生,研究方向為機器人與機器學習, 具身智能, 在 CVPR、ICML、CoRL 等頂級會議中發表過論文。

      具身智能是近年來非?;鸶拍?。一個智能體(比如人)能夠在環境中完成感知、理解與決策的閉環,并通過環境反饋不斷進入新一輪循環,直至任務完成。這一過程往往依賴多種技能,涵蓋了底層視覺對齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。

      已經有很多優秀的工作把多模態大語言模型(MLLMs)部署在具身智能的不同應用上。盡管已經有不少相關工作評估過他們具身智能的潛力,但主要集中在子領域上,比如給點(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務評估他們的性能,比如EmbodiedBench等,但是他們并沒有把一個任務切分成一步步的原子技能,也就無法判斷出到底是哪個細粒度的能力導致一個任務的失敗。

      BEAR基準

      為了系統評估MLLM在具身智能的各個子能力,美國東北大學聯合香港中文大學,哈佛大學,提出了BEAR基準,并且提供了詳細的錯因分析和算法提升。



      • Arxiv鏈接:
      • https://arxiv.org/abs/2510.08759
      • Huggingface鏈接:
      • https://huggingface.co/papers/2510.08759
      • 項目主頁:
      • https://bear-official66.github.io/



      BEAR涵蓋了4,469個圖片-視頻-文字的VQA。BEAR涵蓋6個大類,其中包括5個基礎類別,包括給點(Pointing), 給檢測框(Bounding Box), 空間推理(Spatial Reasoning),任務規劃(Task Planning),并且在每個類別下面還有不同子技能,如給點分為普通物體給點,空間關系給點和局部給點,共分為14個技能,見下圖。除此之外,我們引入第六個長程推理類別,首次將具身智能的任務切分為以14個不同技能劃分的步驟,涵蓋了智能體在完成一個任務中所需要具備的技能。



      測評實驗


      實驗部分,作者全面測量了20個不同的MLLM,并且測量了Direct和CoT不同的prompt, 而且將常見的test-time-scaling methods都進行了實驗,得出以下有趣的結論:

      • 多模態大模型并不具備具身智能,目前在BEAR基準上表現最好的模型,GPT-5,也僅僅有52%的成功率。
      • 通常情況,閉源模型比開源模型表現好。但是部分開源模型擁有很強的潛力,如InternVL系列模型,在BEAR基準上超過了GPT-4o, Claude等模型。



      • Chain-of-thought在很多子能力在閉源模型上起到一致的負面作用,比如給點和空間推理能力。作者分析給點是一個直接的表達方法,模型只需要輸出一個正則之后的x和y,過度的推理給模型引入不必要的干擾。同時,人們在進行空間推理的時候常常使用“直覺”,引入推理鏈有時會使模型引入一些錯誤的空間表達和位置關系,在推理最終答案的時候起到了負面作用。




      細粒度錯因統計


      更進一步地,作者對GPT-4o的每一個子能力都進行了錯因統計,分析顯示了如下幾個有趣的發現:

      • 模型視覺全能能力不足是多個類別的主要瓶頸。具體表現為模型無法細致進行language grounding, 無法判斷軌跡走向,無法理解圖片中發生的動作。
      • 模型3D能力不足主要體現在無法判斷第一人稱下的方向(左右關系),并且常常搞混相機在連續幀之間的移動走向。
      • 對于長程推理,與高層規劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯誤占比高達88%。



      BEAR智能體設計全面提升大模型的具身能力


      基于上面的發現,作者團隊意識到,增強模型的視覺能力,可以全面提高模型的具身推理能力。在多模態領域,已經有一些工作通過畫輔助線和教會模型使用工具用來求解數學問題。受這樣工作的啟發,作者開發了BEAR-Agent,這是一個可對話的多模態智能體,主要通過提供工具和做輔助線的方式增強模型的視覺推理能力,進而提升模型的具身推理能力。作者選取了表現最好的開源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們在BEAR上的performance。





      仿真測試


      進一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環境,并且測試了3類任務,共12個語言指令。我們的實驗結果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環境上的表現,這表示著BEAR-Agent對Embodied Agent的潛力。



      本篇文章重點對多模態大模型在具身推理的多個任務上進行評測和對失敗進行歸因分析,并且提供了詳細的失敗測評,并且設計Agent算法進行改進。作者希望分析結果有利于多模態大模型和具身智能在未來的迭代。非常歡迎感興趣的老師同學們聯系作者團隊進行進一步交流!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      醫生忠告:吃完降壓藥千萬別碰這3樣食物,患者要牢記,不能大意

      醫生忠告:吃完降壓藥千萬別碰這3樣食物,患者要牢記,不能大意

      今日養生之道
      2025-10-23 08:08:38
      讓你三觀盡毀的事有哪些?網友:第一個最炸裂,太污了

      讓你三觀盡毀的事有哪些?網友:第一個最炸裂,太污了

      解讀熱點事件
      2025-10-23 00:15:02
      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫面曝光!不計代價沖鋒,尸體鋪滿道路

      環球熱點快評
      2025-11-03 22:40:40
      麥孔:勞塔羅打進一個真正隊長般的進球,向隊友傳遞他的決心

      麥孔:勞塔羅打進一個真正隊長般的進球,向隊友傳遞他的決心

      懂球帝
      2025-11-06 07:53:08
      中方狠招制朱拉尼,俄美英法難還擊,阿薩德逆勢翻盤?

      中方狠招制朱拉尼,俄美英法難還擊,阿薩德逆勢翻盤?

      林子說事
      2025-11-04 05:43:58
      巴薩舊將:我的兩座歐冠總被開玩笑;亞馬爾達不到梅西的高度

      巴薩舊將:我的兩座歐冠總被開玩笑;亞馬爾達不到梅西的高度

      懂球帝
      2025-11-06 07:00:09
      因香氣被采到瀕危!2023年,又耗時14年人工繁育5.5萬棵

      因香氣被采到瀕危!2023年,又耗時14年人工繁育5.5萬棵

      萬象硬核本尊
      2025-11-05 19:34:02
      一位資深地產大佬對于萬科現狀的解讀(1)

      一位資深地產大佬對于萬科現狀的解讀(1)

      科學發掘
      2025-11-05 11:47:58
      沖上熱搜!小米YU7全網首拆,結果令人太意外……

      沖上熱搜!小米YU7全網首拆,結果令人太意外……

      恪守原則和底線
      2025-11-05 15:55:51
      印媒指出福建艦嚴重設計缺陷! 這回沒瞎說: 福建艦確實存在這問題

      印媒指出福建艦嚴重設計缺陷! 這回沒瞎說: 福建艦確實存在這問題

      福建平子
      2025-11-03 10:21:52
      勇士隊巴特勒和格林傷情更新,斯蒂芬·庫里缺席對陣國王的比賽

      勇士隊巴特勒和格林傷情更新,斯蒂芬·庫里缺席對陣國王的比賽

      好火子
      2025-11-06 06:39:36
      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      特斯拉撞死突闖國道的野豬,修車費超2萬元、車主全責 交警:野豬不屬于交通參與者

      紅星新聞
      2025-11-05 16:04:24
      今晨歐冠,阿根廷雙鋒閃耀:只踢半場均進球,還有更精彩的鏡頭!

      今晨歐冠,阿根廷雙鋒閃耀:只踢半場均進球,還有更精彩的鏡頭!

      老霍聊球
      2025-11-06 07:52:04
      央視提醒:免疫力是最好的醫生,用8個方法激活它

      央視提醒:免疫力是最好的醫生,用8個方法激活它

      詩詞中國
      2025-11-03 21:30:33
      同事結婚我隨2000,我兒子滿月他送100,他負責的1000萬項目黃了

      同事結婚我隨2000,我兒子滿月他送100,他負責的1000萬項目黃了

      農村情感故事
      2025-11-06 07:33:35
      胡真舫,擬升正廳

      胡真舫,擬升正廳

      新京報
      2025-11-05 20:12:43
      新款保時捷911 Turbo S國內首發,2.5秒破百,272.8萬起

      新款保時捷911 Turbo S國內首發,2.5秒破百,272.8萬起

      汽車公告板
      2025-11-05 18:43:01
      女子出軌上司被公公現場抓到,公公答應保密,卻要兒媳滿足個條件

      女子出軌上司被公公現場抓到,公公答應保密,卻要兒媳滿足個條件

      林林故事揭秘
      2025-01-18 11:46:56
      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當場控制

      界面新聞
      2025-11-05 13:44:22
      燃油車時代會很快結束?內行人預測:油價很可能是最后的關鍵!

      燃油車時代會很快結束?內行人預測:油價很可能是最后的關鍵!

      趣味萌寵的日常
      2025-11-05 14:16:06
      2025-11-06 09:16:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      頭條要聞

      記者問了歐盟一個“有趣”的問題 然后被解雇了

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      教育
      手機
      游戲
      公開課
      軍事航空

      教育要聞

      83歲還在學英語?ta們告訴你堅持的意義。

      手機要聞

      榮耀兩款神秘新機被曝光:雙2億方案來襲,明年見!

      晨報|《胡鬧廚房》改編真人秀 暴雪嘉年華即將開票

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费无码又爽又刺激高潮虎虎视频 | 亚洲精中文字幕二区三区| 九九热视频免费在线播放| 在线观看免费人成视频色9| 亚洲熟女国产熟女二区三区| 国产jizzjizz视频| 91精品人妻中文字幕色| 国产久免费热视频在线观看| 4hu四虎永久在线观看| 亚洲美免无码中文字幕在线| 色哟哟网站在线观看| 宁乡县| 久久国产自拍一区二区三区| 国产精品日韩精品日韩| 亚洲国产精品午夜福利| 午夜福利免费区在线观看| 精品亚洲无人区一区二区| 99久热在线精品视频| 国产色悠悠视频在线观看| 久久青草国产精品一区| 久久精品国产亚洲av麻豆小说 | 狠狠色丁香婷婷综合尤物| 99热门精品一区二区三区无码| 久久国内精品自在自线91| 国产人妇三级视频在线观看| 国产成人午夜福利院| 岛国一区二区三区高清视频| 亚洲gv猛男gv无码男同| 国产精品一品二区三四区| 18禁午夜宅男成年网站| 国产一区二区不卡自拍| 国产精品亚洲第一区在线| 国内精品久久久久精免费| 午夜福利理论片高清在线| 国产色a在线观看| 亚洲乱码国产乱码精品精| 午夜精品一区二区三区在线观看| 亚洲国产精品综合久久20| 中国熟女仑乱hd| 久久婷婷五月综合97色直播| 日本老熟女一二三区视频|