<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      世界模型==VQA?機(jī)器人不用想象畫面,預(yù)測語義就夠了

      0
      分享至



      機(jī)器之心報(bào)道

      編輯:張倩

      對于機(jī)器人來說,世界模型真的有必要想象出精確的未來畫面嗎?在一篇新論文中,來自華盛頓大學(xué)、索尼 AI 的研究者提出了這個(gè)疑問。



      眾所周知,世界模型是一種讓 AI「想象未來」的學(xué)習(xí)方法。它可以從大量數(shù)據(jù)中學(xué)習(xí)世界的運(yùn)行規(guī)律,然后根據(jù)當(dāng)前狀態(tài)預(yù)測未來可能發(fā)生的事情。這種能力非常關(guān)鍵,因?yàn)槿绻?AI 能對未來做出合理預(yù)測,就能提前規(guī)劃出更聰明、更穩(wěn)健的行動(dòng)策略。

      在實(shí)踐中,世界模型的實(shí)現(xiàn)形式多種多樣,從小規(guī)模的基于狀態(tài)的動(dòng)力學(xué)模型,到大型的基于動(dòng)作條件的視頻預(yù)測模型都有。但無論形式如何,大多數(shù)模型都會(huì)嘗試「還原未來的畫面」。這種方法雖然常常能生成逼真的圖像,但卻不一定適合用來做決策。原因在于:圖像看起來再真實(shí),也可能漏掉一些真正關(guān)鍵的語義細(xì)節(jié) —— 比如兩個(gè)物體是否真的發(fā)生了接觸。

      過去有一些方法嘗試只建模「與任務(wù)相關(guān)」的信息,但這類方法往往需要額外的假設(shè),比如必須知道獎(jiǎng)勵(lì)函數(shù)或任務(wù)中某些已知因素。這讓它們在實(shí)際使用中變得不太靈活。

      如果像素信息并非規(guī)劃所必需,那么做出行動(dòng)決策所真正需要的是什么?

      這篇論文提出:能夠預(yù)測關(guān)于未來結(jié)果的語義信息就足夠了。世界模型不應(yīng)再專注于預(yù)測原始的視覺幀,而應(yīng)捕捉與任務(wù)相關(guān)的對象及其交互信息,例如:「機(jī)械臂是否更靠近目標(biāo)物體?」「紅色方塊是否傾倒?」「藍(lán)色球是否被拾起?」

      論文將這種信息建模為一個(gè)關(guān)于未來的視覺問答(VQA)問題,利用這樣一個(gè)事實(shí):任何目標(biāo)結(jié)果都可以用一系列「是 / 否」問題來表達(dá)。換言之,世界建模問題可以被重新定義為一個(gè)關(guān)于未來結(jié)果的 VQA 問題。

      目前已有一類模型具備完善的視覺問答工具體系,即視覺語言模型(VLM)。在世界建模任務(wù)中,VLM 具有兩大優(yōu)勢:

      • 一是,它們通過大規(guī)模預(yù)訓(xùn)練獲得了強(qiáng)大的視覺問答能力與廣泛的泛化能力;
      • 二是,它們編碼了關(guān)于任務(wù)與場景語義特征的先驗(yàn)知識。

      這些優(yōu)勢使得前沿的 VLM 能夠提出與任務(wù)相關(guān)的問題,并在給定靜態(tài)觀測時(shí)給出可靠的答案。然而,它們?nèi)狈ξ磥斫Y(jié)果的預(yù)測能力,這限制了它們在決策任務(wù)中的直接應(yīng)用。

      為此,新論文提出了「語義世界模型(Semantic World Model, SWM)」的概念。SVM 是一種具備泛化能力的世界模型,它以動(dòng)作條件的視覺語言模型形式存在,能夠回答關(guān)于未來動(dòng)作語義效果的問題。



      • 論文標(biāo)題:SEMANTIC WORLD MODELS
      • 論文鏈接:https://arxiv.org/pdf/2510.19818
      • 項(xiàng)目鏈接:https://weirdlabuw.github.io/swm/

      與傳統(tǒng)預(yù)測未來幀的世界模型不同,SWM 在給定當(dāng)前觀測(圖像表示)與動(dòng)作序列的情況下,回答關(guān)于未來的自然語言問題。

      如圖 1 所示,模型輸入包括:當(dāng)前觀測、一系列擬執(zhí)行的動(dòng)作,以及一個(gè)關(guān)于未來的自然語言提問。模型通過理解這些動(dòng)作在環(huán)境中將帶來的后果,生成相應(yīng)的文本回答。



      由于 SWM 本質(zhì)上是一個(gè)與任務(wù)無關(guān)的世界模型,它可以在對通用序列數(shù)據(jù)質(zhì)量要求極低的情況下進(jìn)行訓(xùn)練,這些數(shù)據(jù)包括游戲數(shù)據(jù)和非最優(yōu)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)可以很容易地從任何(專家或非專家)數(shù)據(jù)語料庫中獲取,其格式為當(dāng)前觀測結(jié)果、行動(dòng)、(關(guān)于未來的)問題以及預(yù)期答案。

      通過 SWM 來推理未來結(jié)果,AI 就能夠在動(dòng)作空間中進(jìn)行靈活的、開放世界的多任務(wù)規(guī)劃。

      當(dāng)任務(wù)以自然語言描述時(shí),系統(tǒng)可以有兩種方式理解目標(biāo):要么利用預(yù)訓(xùn)練好的 VLM 自動(dòng)解析任務(wù)意圖,要么由人類將任務(wù)拆解成一組文本化的「問題 — 期望答案」對。在得到這組問答之后,SWM 就可以用來規(guī)劃動(dòng)作,使得未來得到這些期望答案的可能性最大化。

      給定自然語言形式的任務(wù)說明,人們既可以利用預(yù)訓(xùn)練的 VLM,也可以手動(dòng)將任務(wù)說明分解為一組問題以及文本形式的預(yù)期答案。有了這個(gè)問答集,SWM 就可以被用來規(guī)劃動(dòng)作,從而極有可能在未來得出這些問題的預(yù)期答案。

      盡管有大量技術(shù)可用于這種規(guī)劃,但本研究表明,它與零階基于采樣的方法以及一階梯度規(guī)劃方法都兼容,這些方法會(huì)針對預(yù)期似然目標(biāo)進(jìn)行優(yōu)化。研究表明,這些規(guī)劃方法在計(jì)算上是可行的,相比常規(guī)的動(dòng)作選擇方法,能在測試時(shí)帶來顯著改進(jìn)。此外,它還展示了此類規(guī)劃方法對多步驟長程問題的可擴(kuò)展性。

      在實(shí)驗(yàn)方面,SWM 在兩個(gè)常用的多任務(wù)仿真環(huán)境 ——Language Table(LangTable)與 OGBench—— 上進(jìn)行了評估。結(jié)果表明:SWM 能夠準(zhǔn)確回答關(guān)于未來結(jié)果的問題,并能泛化到新場景中。SWM 可以與基于采樣的標(biāo)準(zhǔn)規(guī)劃技術(shù)以及基于梯度的改進(jìn)技術(shù)相結(jié)合,通過測試時(shí)優(yōu)化實(shí)現(xiàn)顯著的策略改進(jìn),從而解決各種機(jī)器人任務(wù)。

      綜上所述,SWM 代表了一類新型的世界模型,它利用 VLM 的豐富預(yù)訓(xùn)練知識,實(shí)現(xiàn)了可落地、靈活且可擴(kuò)展的機(jī)器人控制。

      語義世界模型概覽

      下圖 2 展示了語義世界模型的概況。SWM 是一種視覺語言模型,經(jīng)過調(diào)整后能夠回答與未來相關(guān)的問題,這些問題由用于調(diào)整模型的動(dòng)作所決定。通過一系列問題和期望的答案,其預(yù)測可以轉(zhuǎn)化為規(guī)劃信號,并迭代優(yōu)化動(dòng)作序列。



      數(shù)據(jù)集生成

      為了訓(xùn)練一個(gè)能夠回答關(guān)于未來問題的世界模型,本文生成了一個(gè)狀態(tài) - 動(dòng)作 - 問題 - 答案(SAQA)數(shù)據(jù)集。圖 3 展示了該數(shù)據(jù)集中一個(gè)單獨(dú)的狀態(tài)與多個(gè)問題和答案的配對情況。



      架構(gòu)概覽

      SWM 是一個(gè)能夠在給定動(dòng)作條件下回答關(guān)于未來事件問題的模型。具備這種能力的模型本質(zhì)上是一種帶有動(dòng)作條件的視覺問答模型。因此,從大型預(yù)訓(xùn)練視覺語言模型(VLM)出發(fā),將其泛化能力遷移到機(jī)器人任務(wù)中是很自然的做法。這種 SWM 架構(gòu)基于開源的視覺語言模型 PaliGemma。

      該模型包含三個(gè)核心預(yù)訓(xùn)練組件:一個(gè)基于 Transformer 的自回歸語言模型(其 token 嵌入大小為 d_tok)、一個(gè)視覺編碼器 v_?(其特征大小為 d_img)以及一個(gè)投影矩陣。PaliGemma 架構(gòu)建立在兩個(gè)單獨(dú)訓(xùn)練的組件之上:Gemma 大語言模型和 SigLIP 圖像編碼器 V_sc。W 用于從 Z_sc 投影到 Z_LLM,其中 Z_sc 是 v_? 的特征空間,Z_LLM 是大語言模型的輸入 token 嵌入空間。本文使用 PaliGemma 的 30 億參數(shù)檢查點(diǎn)作為基礎(chǔ)模型。



      為了讓基礎(chǔ)模型能夠就「某一特定未來(由行動(dòng)產(chǎn)生)」回答問題,模型必須以這些行動(dòng)為條件。為此,作者引入一個(gè)新的投影矩陣,它將單個(gè)動(dòng)作映射到與 W 投影矩陣類似的潛空間 Z_LLM 中。





      給定數(shù)據(jù)集 D_SAQA 中的一個(gè)元組 (S_i, a_{i:j}, Q_{S_j}, A_{S_j}),輸入序列通過將圖像嵌入、動(dòng)作嵌入和問題 token 嵌入拼接而成:



      隨后,模型以端到端方式微調(diào),通過優(yōu)化標(biāo)準(zhǔn)交叉熵?fù)p失來預(yù)測目標(biāo)答案 A_{S_j}。



      這種訓(xùn)練過程使模型能夠在語言空間中捕捉環(huán)境的動(dòng)態(tài),從而在無需顯式生成像素級表征的情況下回答有關(guān)未來狀態(tài)的問題。

      實(shí)驗(yàn)結(jié)果

      SWM 是否是一個(gè)有效的決策世界模型?

      首先,作者通過在 LangTable 和 OGBench 任務(wù)上將基于采樣的規(guī)劃方法 MPPI 應(yīng)用于 SWM 模型,對 SWM 的規(guī)劃能力進(jìn)行評估。

      如表 2 所示,可以直接在語義世界模型之上使用基于采樣的規(guī)劃方法進(jìn)行規(guī)劃,在兩個(gè)環(huán)境中的到達(dá)和方塊分離任務(wù)上都取得了接近完美的成功率。



      然而,對于大型模型而言,基于采樣的規(guī)劃方法計(jì)算成本高昂,在需要更多樣本的更具挑戰(zhàn)性的任務(wù)上運(yùn)行 MPPI 并不可行。因此,對于更復(fù)雜的任務(wù),考慮這樣一種場景:由一個(gè)基礎(chǔ)策略生成候選軌跡,再利用 SWM 和基于梯度的優(yōu)化對其進(jìn)行細(xì)化。如圖 5 所示,該方法能夠?qū)蜻x軌跡進(jìn)行細(xì)化,并相比基礎(chǔ)策略取得顯著提升。在 LangTable 上,SWM 相比基礎(chǔ)策略的平均性能從 14.4% 提升至 81.6%;在 OGBench 上,從 45.33% 提升至 76%。SWM 在所有任務(wù)上也均優(yōu)于 AVD 和 IDQL 基線,展示了其在規(guī)劃方面的有效性。



      SWM 還通過先選擇子目標(biāo),再圍繞該子目標(biāo)進(jìn)行規(guī)劃,展現(xiàn)出處理更長程任務(wù)的能力。如表 1 所示,在多步任務(wù)上,SWM 的平均策略改進(jìn)幅度達(dá) 52.0%,優(yōu)于 AVD 基線。



      次優(yōu)數(shù)據(jù)是否能提高建模性能?

      從表 3 可以看出,混入次優(yōu)數(shù)據(jù)比僅使用專家數(shù)據(jù)進(jìn)行訓(xùn)練能提高準(zhǔn)確率。SWM 僅通過次優(yōu)數(shù)據(jù)訓(xùn)練也能達(dá)到中等水平的性能,這表明次優(yōu)數(shù)據(jù)在訓(xùn)練語義世界模型方面是多么有效。



      SWM 是否保留了基礎(chǔ) VLM 的泛化能力?

      為了衡量 VLM 預(yù)訓(xùn)練對泛化能力的影響,作者在組合式和場景分布外環(huán)境中對 SWM 進(jìn)行了評估,相關(guān)環(huán)境如圖 6 所示。



      為了衡量語義組合泛化能力,在 LangTable 環(huán)境中引入了一個(gè)新的彩色方塊,并修改了現(xiàn)有的方塊顏色 - 形狀組合。表 4 顯示,在這些條件下,與基礎(chǔ)策略相比,SWM 平均提高了 20.0%。這一性能表明,SWM 能夠保留部分預(yù)訓(xùn)練知識,從而實(shí)現(xiàn)組合泛化。



      為了測試對背景變化的魯棒性,作者將 OGBench 的背景顏色改為一種新的組合。與基礎(chǔ)策略相比,SWM 的性能再次提升了 20%,并且能夠泛化到這些條件,而 AVD 方法則無法做到這一點(diǎn)。

      模型的內(nèi)部表征是否關(guān)注與任務(wù)相關(guān)的信息?

      為了理解模型所學(xué)的表征,作者從模型的一個(gè)中間層可視化了從語言 token 到圖像 patch 的注意力圖。如圖 7 所示,模型會(huì)根據(jù)語言提示正確關(guān)注圖像中與任務(wù)相關(guān)的位置。例如,當(dāng)被問到「紅色的月亮是否在接觸藍(lán)色的立方體?」時(shí),與這些物體對應(yīng)的圖像 patch 上的注意力得分更高。盡管從未在涉及兩個(gè)以上物體的問題上進(jìn)行過微調(diào),但研究發(fā)現(xiàn),當(dāng)被問及此類問題時(shí),該模型能夠正確關(guān)注三個(gè)物體。這表明該模型繼承了預(yù)訓(xùn)練 VLM 的泛化能力。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國乒教練調(diào)整內(nèi)幕揭曉,王勵(lì)勤棄用兩位功臣?改革力度超出預(yù)期

      國乒教練調(diào)整內(nèi)幕揭曉,王勵(lì)勤棄用兩位功臣?改革力度超出預(yù)期

      海闊山遙YAO
      2025-11-05 11:54:46
      女子申請改名多次被拒,“我的名字”誰說了算?

      女子申請改名多次被拒,“我的名字”誰說了算?

      環(huán)球網(wǎng)資訊
      2025-11-05 10:51:03
      邵佳一成為國足主帥的背后:決策權(quán)不在中國足協(xié),宋凱如釋重負(fù)

      邵佳一成為國足主帥的背后:決策權(quán)不在中國足協(xié),宋凱如釋重負(fù)

      姜大叔侃球
      2025-11-05 19:20:12
      3次精準(zhǔn)預(yù)言俄烏走向,這位歷史老師的眼光有多毒?

      3次精準(zhǔn)預(yù)言俄烏走向,這位歷史老師的眼光有多毒?

      麥大人
      2025-11-05 15:45:51
      連爆大冷!世界第1第3出局,墨菲6-2勝衛(wèi)冕冠軍,8強(qiáng)對陣具體如下

      連爆大冷!世界第1第3出局,墨菲6-2勝衛(wèi)冕冠軍,8強(qiáng)對陣具體如下

      小火箭愛體育
      2025-11-05 22:45:41
      偉大1-0!亞洲球隊(duì)逆襲:歐冠歷史首勝 僅建隊(duì)11年 現(xiàn)場萬人狂歡

      偉大1-0!亞洲球隊(duì)逆襲:歐冠歷史首勝 僅建隊(duì)11年 現(xiàn)場萬人狂歡

      侃球熊弟
      2025-11-06 03:41:47
      廣東人注意:接到這個(gè)電話,別掛!

      廣東人注意:接到這個(gè)電話,別掛!

      南粵女聲
      2025-11-05 12:00:26
      網(wǎng)傳康熙是洪承疇的私生子?基因檢測驚曝清宮秘聞,專家回應(yīng)了!

      網(wǎng)傳康熙是洪承疇的私生子?基因檢測驚曝清宮秘聞,專家回應(yīng)了!

      你食不食油餅
      2025-11-05 20:06:29
      NBA新秀榜:探花埃奇庫姆居首,11號秀考沃德第二,弗拉格第三

      NBA新秀榜:探花埃奇庫姆居首,11號秀考沃德第二,弗拉格第三

      懂球帝
      2025-11-06 08:14:10
      超230萬人想看,預(yù)測票房160億,《哪吒2》全冠地位不保了

      超230萬人想看,預(yù)測票房160億,《哪吒2》全冠地位不保了

      影視高原說
      2025-11-05 18:19:17
      上海律師帶小三孕檢新后續(xù):空姐是10年白月光,婆婆態(tài)度讓人寒心

      上海律師帶小三孕檢新后續(xù):空姐是10年白月光,婆婆態(tài)度讓人寒心

      壹月情感
      2025-11-04 22:50:11
      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      在孟加拉國,我不是在旅游,我是在見證什么叫真正的人口壓力

      詩意世界
      2025-11-05 18:18:26
      “父親偷看女兒洗澡”后續(xù):爸爸揭露真相,女孩追悔莫及

      “父親偷看女兒洗澡”后續(xù):爸爸揭露真相,女孩追悔莫及

      觀世記
      2025-11-05 20:19:25
      房貸斷供率暴漲130%,失控恐懼下的樓市即將進(jìn)入的周期終局

      房貸斷供率暴漲130%,失控恐懼下的樓市即將進(jìn)入的周期終局

      重遠(yuǎn)投資觀
      2025-11-05 13:00:18
      共和黨在美國四個(gè)州的選舉中大敗!特朗普中期選舉堪憂

      共和黨在美國四個(gè)州的選舉中大敗!特朗普中期選舉堪憂

      項(xiàng)鵬飛
      2025-11-05 20:53:35
      阿里高管空降山姆引爆退卡潮,網(wǎng)友一片抵制,山姆員工天塌了?

      阿里高管空降山姆引爆退卡潮,網(wǎng)友一片抵制,山姆員工天塌了?

      眼光很亮
      2025-11-05 11:43:46
      政府關(guān)門30多天終于釀成大禍?一架波音飛機(jī)撞向大樓,現(xiàn)場十分慘烈

      政府關(guān)門30多天終于釀成大禍?一架波音飛機(jī)撞向大樓,現(xiàn)場十分慘烈

      博覽歷史
      2025-11-05 18:24:37
      茍如虎跨省履新上海市楊浦區(qū)副區(qū)長

      茍如虎跨省履新上海市楊浦區(qū)副區(qū)長

      魯中晨報(bào)
      2025-11-06 07:11:04
      李春平死了

      李春平死了

      霹靂炮
      2025-11-05 22:34:23
      手機(jī)狀態(tài)欄變“廣告位”?網(wǎng)友炸鍋,運(yùn)營商回應(yīng)情況屬實(shí)

      手機(jī)狀態(tài)欄變“廣告位”?網(wǎng)友炸鍋,運(yùn)營商回應(yīng)情況屬實(shí)

      雷科技
      2025-11-05 16:49:49
      2025-11-06 08:40:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11656文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認(rèn)輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      記者問了歐盟一個(gè)“有趣”的問題 然后被解雇了

      頭條要聞

      記者問了歐盟一個(gè)“有趣”的問題 然后被解雇了

      體育要聞

      贏下皇馬,會(huì)是利物浦的轉(zhuǎn)折點(diǎn)嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財(cái)經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      時(shí)尚
      教育
      房產(chǎn)
      游戲
      親子

      中國色特別策劃 | 故宮技藝與古意新生

      教育要聞

      83歲還在學(xué)英語?ta們告訴你堅(jiān)持的意義。

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      晨報(bào)|《胡鬧廚房》改編真人秀 暴雪嘉年華即將開票

      親子要聞

      一個(gè)媽媽已然開竅了的9種表現(xiàn)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产综合精品2020| 久久精品av国产一区二区| 亚洲精品无码高潮喷水A| 亚洲性日韩精品一区二区| 国产精品一区二区久久精品无码| 佳木斯市| 国产美女被遭强高潮免费一视频 | 午夜福利精品国产二区| 极品尤物一区二区三区| 色就色偷拍综合一二三区| 平泉县| 国产老熟女国语免费视频| 毛片av在线尤物一区二区| 中文字幕 日韩 人妻 无码| 国产又大又黑又粗免费视频| 久热久精久品这里在线观看| 亚洲一本二区偷拍精品| 国产精品久线在线观看| 少妇私密会所按摩到高潮呻吟| 奇米四色7777中文字幕| 国产精品日韩专区第一页| 人妻系列无码专区免费| а∨天堂一区中文字幕| 国产成人综合久久亚洲精品| 亚洲国产成人午夜在线一区| 欧美熟妇乱子伦XX视频| 国产成a人亚洲精v品无码性色| 狠狠色狠狠色五月激情| AV喷水高潮喷水在线观看COM| 国产成人精品电影在线观看| 久久一日本综合色鬼综合色| 国产在线观看免费人成视频| 亚洲va久久久噜噜噜久久狠狠| 国产午夜精品无码一区二区| 偷偷做久久久久免费网站| 性做久久久久久久久| 日韩精品一区二区在线看| 亚洲天堂男人的天堂在线| 亚洲avav天堂av在线网爱情| 精品久久欧美熟妇www| 成人一区二区三区久久精品|