![]()
谷歌剛剛放出了其最先進(jìn)的機(jī)器人具身推理模型——Gemini Robotics-ER 1.5。這是首個(gè)被廣泛開放給所有開發(fā)者的Gemini機(jī)器人系列模型,它將作為機(jī)器人的高級推理大腦
Gemini Robotics-ER 1.5(簡稱 Gemini Robotics-Embodied Reasoning)是一種視覺-語言模型 (VLM),可將 Gemini 的智能體功能引入機(jī)器人技術(shù)領(lǐng)域。Gemini Robotics-ER 1.5 是一款思考型模型,能夠推理物理世界、原生調(diào)用工具,并規(guī)劃邏輯步驟來完成任務(wù)
雖然 Gemini Robotics-ER 1.5 與其他 Gemini 模型類似,但它是專門為增強(qiáng)機(jī)器人感知能力和現(xiàn)實(shí)世界互動能力而構(gòu)建的。它通過以下方式提供高級推理功能來解決物理問題:解讀復(fù)雜的視覺數(shù)據(jù)、執(zhí)行空間推理,以及根據(jù)自然語言命令規(guī)劃行動
在操作方面,Gemini Robotics-ER 1.5 旨在與現(xiàn)有的機(jī)器人控制器和行為配合使用。它可以按順序調(diào)用機(jī)器人的 API,使模型能夠編排這些行為,以便機(jī)器人完成長時(shí)程任務(wù)
借助 Gemini Robotics-ER 1.5,可以構(gòu)建以下機(jī)器人應(yīng)用:
讓人們能夠使用自然語言分配復(fù)雜的任務(wù),從而使機(jī)器人更易于使用
通過使機(jī)器人能夠推理、適應(yīng)和響應(yīng)開放式環(huán)境中的變化,提高機(jī)器人的自主性
Gemini Robotics-ER 1.5 為各種機(jī)器人任務(wù)提供統(tǒng)一的模型:定位和識別對象
1.準(zhǔn)確地指向并定義環(huán)境中各種項(xiàng)目的邊界框。了解對象關(guān)系
2.推理空間布局和環(huán)境背景信息,以便做出明智的決策。規(guī)劃抓取和軌跡
3.生成用于操縱物體的抓取點(diǎn)和軌跡。解讀動態(tài)場景
4.分析視頻幀,以跟蹤對象并了解一段時(shí)間內(nèi)的動作。編排長時(shí)程任務(wù)
5.將自然語言命令分解為一系列邏輯子任務(wù),并對現(xiàn)有的機(jī)器人行為進(jìn)行函數(shù)調(diào)用。人機(jī)交互
6.通過文本或語音理解以自然語言給出的指令
![]()
Gemini Robotics-ER 1.5預(yù)覽版現(xiàn)已開放。可以通過以下方式開始體驗(yàn):
啟動 Google AI Studio 來實(shí)驗(yàn)該模型。
閱讀開發(fā)者文檔獲取完整的快速入門和API參考
https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn
官方的 Colab notebook 查看實(shí)際應(yīng)用案例
https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch
完整技術(shù)報(bào)告:
https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
這個(gè)模型專為那些對機(jī)器人來說極具挑戰(zhàn)性的任務(wù)而設(shè)計(jì)。
想象一下,你對一個(gè)機(jī)器人說:“請把這些物品分類到正確的廚余、可回收和普通垃圾桶里。”
要完成這個(gè)任務(wù),機(jī)器人需要:
1.上網(wǎng)查找本地的垃圾分類指南。
2.理解眼前的各種物品。
3.根據(jù)本地規(guī)則規(guī)劃出分類方法。
4.執(zhí)行所有步驟,完成投放。
像這樣的日常任務(wù),大多需要結(jié)合上下文信息并分多步才能完成。
Gemini Robotics-ER 1.5正是首個(gè)為這種具身推理(embodied reasoning)而優(yōu)化的思考模型。它在學(xué)術(shù)基準(zhǔn)和內(nèi)部基準(zhǔn)測試中都達(dá)到了業(yè)界頂尖水平
![]()
Gemini Robotics-ER 1.5有哪些新能力?
Gemini Robotics-ER 1.5專為機(jī)器人應(yīng)用進(jìn)行了目標(biāo)性微調(diào),并引入了多項(xiàng)新功能:
快速強(qiáng)大的空間推理:以Gemini Flash模型的低延遲,實(shí)現(xiàn)頂尖的空間理解能力。該模型擅長生成語義精確的2D坐標(biāo)點(diǎn),這些坐標(biāo)點(diǎn)基于對物品尺寸、重量和功能可供性的推理,從而支持如“指出所有你能拿起的物體”這類指令,實(shí)現(xiàn)精確、快速的交互
協(xié)調(diào)高級智能體行為:利用先進(jìn)的空間和時(shí)間推理、規(guī)劃和成功檢測能力,可靠地執(zhí)行長周期任務(wù)循環(huán)(例如,“按照這張照片重新整理我的書桌”)。它還能原生調(diào)用谷歌搜索和任何第三方自定義函數(shù)(例如,“根據(jù)本地規(guī)定將垃圾分類”)
靈活的思考預(yù)算:開發(fā)者現(xiàn)在可以直接控制模型的延遲與準(zhǔn)確性之間的權(quán)衡。這意味著,對于像規(guī)劃多步組裝這樣的復(fù)雜任務(wù),你可以讓模型“思考更長時(shí)間”;而對于探測或指向物體等需要快速反應(yīng)的任務(wù),則可以要求更快的響應(yīng)
改進(jìn)的安全過濾器:模型在語義安全方面進(jìn)行了改進(jìn),能更好地識別并拒絕生成違反物理約束的計(jì)劃(例如,超出機(jī)器人的有效載荷能力),讓開發(fā)者可以更自信地進(jìn)行構(gòu)建
智能大腦
你可以將Gemini Robotics-ER 1.5視為機(jī)器人的高級大腦。它能理解復(fù)雜的自然語言指令,對長周期任務(wù)進(jìn)行推理,并協(xié)調(diào)復(fù)雜的行為。
當(dāng)收到一個(gè)像“把桌子收拾干凈”這樣的復(fù)雜請求時(shí),Gemini Robotics-ER 1.5能將其分解成一個(gè)計(jì)劃,并調(diào)用正確的工具來執(zhí)行,無論是機(jī)器人的硬件API、專門的抓取模型,還是用于運(yùn)動控制的視覺-語言-行為模型(VLA)。
高級空間理解能力
為了與物理世界互動,機(jī)器人必須能夠感知和理解其所處的環(huán)境。Gemini Robotics-ER 1.5經(jīng)過微調(diào),能夠生成高質(zhì)量的空間結(jié)果,為物體提供精確的2D坐標(biāo)點(diǎn)
在指向精度方面,Gemini Robotics-ER 1.5是目前最精確的視覺語言模型
![]()
例如,在2D坐標(biāo)點(diǎn)生成任務(wù)中,給定一張廚房場景的圖片,模型可以提供每個(gè)物品的位置
![]()
提示:
指出圖中的以下物品:洗潔精、碗碟架、水龍頭、電飯煲、獨(dú)角獸。坐標(biāo)點(diǎn)格式為[y, x],數(shù)值歸一化到0-1000。只包括圖中實(shí)際存在的物品。
值得注意的是,提示要求模型只標(biāo)記圖中出現(xiàn)的物品,這可以防止模型產(chǎn)生幻覺(比如為不存在的“獨(dú)角獸”生成坐標(biāo)),使其始終基于視覺現(xiàn)實(shí)

時(shí)間推理能力
真正的時(shí)空推理不僅要定位物體,還要理解物體與行為之間隨時(shí)間展開的關(guān)系。
Gemini Robotics-ER 1.5通過處理視頻來理解物理世界中的因果關(guān)系。
例如,在一個(gè)視頻中,機(jī)械臂先將一支綠色記號筆放入木盤,再將藍(lán)色和紅色的筆放入筆筒。當(dāng)我們要求模型按順序描述任務(wù)步驟時(shí),它給出了完全正確的答案

提示:
詳細(xì)描述完成任務(wù)的每一步。按時(shí)間戳分解,以json格式輸出,包含 "start_timestamp", "end_timestamp" 和 "description" 鍵。
響應(yīng):
[ { "start_timestamp": "00:02", "end_timestamp": "00:13", "description": "左機(jī)械臂從桌上拿起綠色記號筆,并將其放入木盤中。" }, { "start_timestamp": "00:15", "end_timestamp": "00:22", "description": "左機(jī)械臂從桌上拿起藍(lán)色筆,并將其放入黑色網(wǎng)狀筆筒中。" }, { "start_timestamp": "00:23", "end_timestamp": "00:28", "description": "右機(jī)械臂從桌上拿起紅色筆,并將其放入黑色網(wǎng)狀筆筒中,完成了整理書寫工具的任務(wù)。" } ]模型甚至可以根據(jù)要求,對特定時(shí)間段(如第15秒到22秒)進(jìn)行更細(xì)致的逐秒分解,輸出結(jié)果在時(shí)間上非常精確

基于可操作性推理來協(xié)調(diào)長周期任務(wù),
當(dāng)啟用思考功能時(shí),模型可以對復(fù)雜的指向和邊界框查詢進(jìn)行推理。下面是一個(gè)制作咖啡的例子,展示了模型如何理解完成任務(wù)所需的“如何做”和“在哪里做”
![]()
1. 問: 我應(yīng)該把杯子放在哪里來沖咖啡?
答: 模型:在咖啡機(jī)下方標(biāo)記出一個(gè)邊界框
2. 問: 咖啡膠囊應(yīng)該放在哪里?
答: 模型:在咖啡機(jī)頂部的膠囊倉位置標(biāo)記出邊界框
3. 問: 現(xiàn)在,我需要關(guān)上咖啡機(jī)。請繪制一條由8個(gè)點(diǎn)組成的軌跡,指示蓋子把手應(yīng)如何移動以關(guān)閉它
答: 模型:生成了一條從開啟到關(guān)閉位置的精確路徑
4. 問: 我喝完咖啡了。現(xiàn)在應(yīng)該把杯子放在哪里清洗?
答: 模型:在水槽中標(biāo)記了一個(gè)點(diǎn)
通過結(jié)合規(guī)劃和空間定位,模型可以生成“空間錨定”計(jì)劃,將文本指令與物理世界中的具體位置和動作聯(lián)系起來

靈活的思考預(yù)算
下圖展示了調(diào)整Gemini Robotics-ER 1.5模型思考預(yù)算對延遲和性能的影響
![]()
模型的性能隨著思考token預(yù)算的增加而提升。對于像物體檢測這樣的簡單空間理解任務(wù),很小的預(yù)算就能達(dá)到高性能;而更復(fù)雜的推理任務(wù)則需要更大的預(yù)算
這使得開發(fā)者可以在需要低延遲響應(yīng)的任務(wù)和需要高精度結(jié)果的挑戰(zhàn)性任務(wù)之間取得平衡。開發(fā)者可以通過請求中的thinking_config選項(xiàng)來設(shè)置思考預(yù)算,甚至禁用它
參考:
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.