<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      景不動人動,OST-Bench揭示多模態大模型在線時空理解短板

      0
      分享至



      多模態大語言模型(MLLMs)已在視覺與語言模態融合的感知與推理任務中展現出強大能力。而上海人工智能實驗室、上海交通大學、香港大學、香港中文大學的研究者們提出的的 OST-Bench, 則是從智能體探索場景的動態在線視角出發,為大模型的能力提出了新的挑戰。

      對比離線 / 靜態的空間智能基準,OST-Bench 更精準地反映了具身感知在真實世界中的核心挑戰。代碼和數據均已開源。



      • 論文鏈接:https://arxiv.org/abs/2507.07984
      • 項目主頁:https://rbler1234.github.io/OSTBench.github.io/
      • Hugging Face 數據集:https://huggingface.co/datasets/rbler/OST-Bench
      • GitHub 代碼庫:https://github.com/InternRobotics/OST-Bench

      離線鳥瞰全景 VS 在線移步換景

      在現實世界中,我們的視野范圍是有限的,我們的眼睛在某一時刻只能聚焦于一個局部的場景。隨著不斷的探索,移步換景,我們對于全局場景逐步地形成一個更為清晰的認識;與此同時,基于當前以及歷史的觀測,我們也能感知自身的位置變化以及與之前見過的物體的位置關系 (「我離那把椅子越來越遠」「棕色的枕頭現在在我的右后方」)。

      和現實中的人類一樣,在真實世界部署的智能體通常無法一次性獲取全局環境,而是依賴連續輸入的局部觀測,需要在不斷「移步換景」中完成在線感知、記憶維護與時空推理。這對導航、移動操控等具身任務尤為關鍵:比如在導航中,模型需要在當前時刻判斷「剛才見到的目標現在在我左后方」,并據此決定行動。

      隨著多模態大模型在各類基準上不斷刷新紀錄,人們開始關注它們在真實世界設定下的表現。在時間維度,希望模型具備在線理解能力;在空間維度,希望模型能夠基于 2d 觀測構建 3d 空間布局認知。

      然而,以往的空間智能評測多為離線、固定輸入長度,而涌現的一些在線視頻評測基準往往只考察局部或語義層面的空間感知。OST-Bench 則更貼近真實世界場景,相比以往基準具有兩大核心特點:

      1. 在線設定:模型必須在不斷增長的觀測中進行實時感知、記憶與推理;
      2. 跨時空理解:需要同時結合當前畫面與歷史信息,完成面向時間跨度的復雜空間推理

      視頻演示

      正如下圖所示,與傳統離線空間基準相比,在線設定對模型提出了更高、更接近真實世界的要求。



      基準介紹:「移步換景」為大模型帶來了哪些新難題?

      傳統的靜態場景理解主要關注物體屬性及其靜態關系。而探索的智能體中不斷改變自身位置和視角,帶來持續更新的信息類型與更豐富的問題形態。研究團隊據此將動態場景理解劃分為三大信息類別:智能體空間狀態、智能體可見信息、智能體 - 物體空間關系。基于這三類信息,研究團隊進一步設計了15 個子任務,覆蓋判斷(JUD)、估算(EST)、計數(CNT)、時間定位(TEMP)四類題型。基于規則生成 + 人工篩選,生成了基準的 10k 條測試集數據 (1.4k 個場景) 以及用于微調的 50k 條訓練集數據 (7k 個場景)。



      實驗結果:大模型的在線場景時空理解答卷







      1. 主流大模型陷入困境:當前主流多模態大模型與人類存在顯著性能差距,暴露出跨時空信息推理的能力短板 (上面表 1 / 表 2)。模型的準確率隨著探索步數的持續下降說明現有范式難以適應長時序的在線設定。
      2. 空間增強模型能做好嗎?結果可能沒那么樂觀。「空間建?!箼C制的模型(如 Spatial-MLLM、VLM-3R 和 LLaVA-3D),與其基座模型相比沒有預期的顯著提升,反而在部分任務上明顯退步,并伴隨指令遵循能力的下降??傮w來看,空間增強模型雖然在特定數據分布中表現良好,但在更開放、更復雜的在線場景中仍難以穩健發揮。這也進一步體現體現了 OST-Bench 在揭示模型真實能力邊界方面的價值。



      深入分析:大模型的表現診斷書

      1.共性問題聚焦——大模型遇到難題更喜歡走捷徑?

      通過錯誤統計我們發現模型的犯錯集中在推理步驟,而在對錯誤案例的深入分析中,研究團隊發現一個十分典型的共性現象:在面對復雜時空推理問題時,對比主動回溯歷史信息或檢索關鍵線索,模型更傾向于「就地猜測」—— 僅依據當前片段中的有限信息做出草率推斷,而非進行真正的時空整合推理。

      研究團隊將這種現象稱為「時空推理捷徑(Spatio-temporal Reasoning Shortcut)」:模型看似給出了合理答案,但推理過程并無充分依據,往往只是 「表面合理」。





      綠 / 紅色代表模型推理正確 / 錯誤的地方

      2.跨視角推理測評子集——對于 MLLM 的專項補考

      為了更精確地定位模型的能力邊界,研究團隊設計了一個針對性子集。和之前的測評不同,這次 (1) 按難度分級:研究團隊按是否需要多步的復雜推理 (如下圖) 以及是否提前提出關鍵幀,將問題劃分為四個難度等級。對比單步關聯,多步空間關聯任務要求更強的推理能力;對比只有關鍵幀輸入,全視頻輸入則需在冗長觀察中識別用于解答的關鍵幀。

      (2) 補考的結果表明:復雜線索條件下的空間推理能力不足與長期記憶檢索機制薄弱是當前模型在在線時空理解任務中準確率受限的兩大關鍵因素。



      3.微調實驗——提前「預習」在 OST-Bench 的幫助有多大?

      為了評估模型能力的上限,研究團隊基于來自 7000 個場景的 5 萬條問答數據對多種模型進行了微調實驗。所有模型的分數均提升了超過 10%,證明「提前預習突擊」確實有效。然而,團隊也發現真正涉及復雜時空推理的任務仍難以突破 50% 的準確率,說明單純微調并不能觸及問題本質;此外,模型在部分題型上呈現出明顯的「背答案」傾向而非真正理解。微調后的模型還容易「變得不聽話」,無法穩定遵守格式對自己的答案進行解釋。

      現象表明:微調可以帶來提升,但這種提升更像是「題海戰術式的熟練」,而非 「機制上的理解進步」。在這門課上,沒有結構和范式的突破,僅靠刷數據是無法真正拿高分的。要攻克 OST-Bench,必須依賴更強的模型設計或訓練策略。

      總結

      OST-Bench 提出了一個在線的時空場景理解基準,通過對于多個多模態大模型的評估,揭示了當前模型在面對「在線時空理解」任務時的深層短板,也為未來模型的發展指明了方向:突破復雜空間推理能力與長期記憶機制,將是下一代多模態模型邁向真實智能世界的關鍵一步。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      要么投降,要么死在洞里——內塔尼亞胡拒絕放走被困地道的哈馬斯

      要么投降,要么死在洞里——內塔尼亞胡拒絕放走被困地道的哈馬斯

      桂系007
      2025-11-05 23:52:21
      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      阿龍美食記
      2025-11-04 11:50:20
      央視開播!正式接檔《依依向北風》,看完預告再看陣容,這劇要爆

      央視開播!正式接檔《依依向北風》,看完預告再看陣容,這劇要爆

      訊崽侃天下
      2025-11-05 12:45:56
      甘肅:李世英,被帶走調查!(附簡歷)

      甘肅:李世英,被帶走調查?。ǜ胶啔v)

      甘肅圈圈
      2025-11-06 00:10:53
      倒計時1天!18歲全紅嬋迎十五運告別戰:4天內2戰陳芋汐 沖4金王

      倒計時1天!18歲全紅嬋迎十五運告別戰:4天內2戰陳芋汐 沖4金王

      風過鄉
      2025-11-05 07:57:59
      不論男女,如果肛門經常出現5個問題,或許暗示體內有癌

      不論男女,如果肛門經常出現5個問題,或許暗示體內有癌

      風信子的花
      2025-11-05 12:17:08
      納斯達克中國金龍指數跌幅擴大,現跌0.5%,最新報8083.7點

      納斯達克中國金龍指數跌幅擴大,現跌0.5%,最新報8083.7點

      每日經濟新聞
      2025-11-05 22:48:07
      大連向北,再造一個“新大連”!

      大連向北,再造一個“新大連”!

      娛樂洞察點點
      2025-11-05 09:21:59
      美股漲幅擴大

      美股漲幅擴大

      每日經濟新聞
      2025-11-05 23:09:07
      宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

      宋朝之前連棉被都沒有,零下幾十度的寒冬,古人是怎么熬過去的?

      法老不說教
      2025-11-03 19:36:43
      布克:庫里在灣區深得人心,我也想在愛我的菲尼克斯太陽退役

      布克:庫里在灣區深得人心,我也想在愛我的菲尼克斯太陽退役

      懂球帝
      2025-11-05 10:50:10
      “廳官”朱勤虎晚節不保被查!

      “廳官”朱勤虎晚節不保被查!

      興化論談
      2025-11-04 15:01:58
      新加坡打響“身份保衛戰”!超41%拒外來沖擊,中國元素成爭議核心

      新加坡打響“身份保衛戰”!超41%拒外來沖擊,中國元素成爭議核心

      大國紀錄
      2025-11-05 16:21:47
      16戰全勝!狂轟56球!歐冠奪冠大熱誕生,碾壓衛冕冠軍,太強橫

      16戰全勝!狂轟56球!歐冠奪冠大熱誕生,碾壓衛冕冠軍,太強橫

      阿泰希特
      2025-11-05 11:05:33
      別填海造島了,用30萬噸貨輪擱淺南海,能讓中國快速占領南海島礁

      別填海造島了,用30萬噸貨輪擱淺南海,能讓中國快速占領南海島礁

      Ck的蜜糖
      2025-11-06 04:10:07
      老人住院無人管,心寒停給兒子6000元,他暴怒:誰掏岳母住院費?

      老人住院無人管,心寒停給兒子6000元,他暴怒:誰掏岳母住院費?

      曉艾故事匯
      2025-11-02 17:54:57
      因慎戰言論引爭議,國防大學馬駿回應:軍人的使命是和平不是戰爭

      因慎戰言論引爭議,國防大學馬駿回應:軍人的使命是和平不是戰爭

      麥大人
      2025-08-22 14:33:36
      她是高鑫夫婦的女兒,不拍廣告不進娛樂圈,讀上海重點高中是學霸

      她是高鑫夫婦的女兒,不拍廣告不進娛樂圈,讀上海重點高中是學霸

      仙味少女心
      2025-11-05 06:29:43
      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      我愛英超
      2025-11-05 07:22:05
      跟隊:阿什拉夫傷缺6-8周,他的目標是盡快恢復趕上非洲杯

      跟隊:阿什拉夫傷缺6-8周,他的目標是盡快恢復趕上非洲杯

      懂球帝
      2025-11-05 23:01:40
      2025-11-06 05:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142499關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      房產
      健康
      藝術
      教育
      軍事航空

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      超聲探頭會加重受傷情況嗎?

      藝術要聞

      一眼攝魂的魔術手:泰國畫師 Razaras 的作品唯美圣潔!自帶發光特效!

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合精品一区二区三区| 免费人成再在线观看网站| 日韩中文日韩中文字幕亚| 亚洲高潮喷水无码AV电影| 88国产精品视频一区二区三区| 中文字幕结果国产精品| 国产农村老熟女乱子综合| 开心色怡人综合网站| 亚洲色偷偷色噜噜狠狠99| 亚洲精品第一页中文字幕| 国产在线观看免费观看不卡| 欧美成人aaa片一区国产精品| 亚洲一区二区三区啪啪| 国产无套精品一区二区三区 | 在线人人车操人人看视频| 国产欧美亚洲精品a第一页| 久久精品国内一区二区三区| 亚洲精品久综合蜜| 无码人妻一区二区三区AV| 黄色国产精品一区二区三区| 亚洲熟妇少妇任你躁在线观看无码| 性人久久久久| 午夜福利片一区二区三区| 东北妇女精品bbwbbw| 亚洲精品综合一区二区在线| 亚洲精品中文av在线| 无码人妻丰满熟妇区毛片| 亚洲国产综合性亚洲综合性| 少妇人妻偷人精品系列| 宜兴市| 91国产自拍一区二区三区| 国产精品中文字幕av| 亚洲国产成人片在线观看无码| 99网友自拍视频在线| 色AV专区无码影音先锋| 国产成人无码免费视频在线| 旺苍县| 国产午夜精品理论大片| 99久久精品国产一区二区| 最近中文字幕完整版2019| 色婷婷日日躁夜夜躁|