科幻！谷歌放出Gemini Robotics-ER 1.5：機(jī)器人有了真正的思考力

2025-09-27 08:47:40　來源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

谷歌剛剛放出了其最先進(jìn)的機(jī)器人具身推理模型——Gemini Robotics-ER 1.5。這是首個(gè)被廣泛開放給所有開發(fā)者的Gemini機(jī)器人系列模型，它將作為機(jī)器人的高級推理大腦

Gemini Robotics-ER 1.5（簡稱 Gemini Robotics-Embodied Reasoning）是一種視覺-語言模型 (VLM)，可將 Gemini 的智能體功能引入機(jī)器人技術(shù)領(lǐng)域。Gemini Robotics-ER 1.5 是一款思考型模型，能夠推理物理世界、原生調(diào)用工具，并規(guī)劃邏輯步驟來完成任務(wù)

雖然 Gemini Robotics-ER 1.5 與其他 Gemini 模型類似，但它是專門為增強(qiáng)機(jī)器人感知能力和現(xiàn)實(shí)世界互動能力而構(gòu)建的。它通過以下方式提供高級推理功能來解決物理問題：解讀復(fù)雜的視覺數(shù)據(jù)、執(zhí)行空間推理，以及根據(jù)自然語言命令規(guī)劃行動

在操作方面，Gemini Robotics-ER 1.5 旨在與現(xiàn)有的機(jī)器人控制器和行為配合使用。它可以按順序調(diào)用機(jī)器人的 API，使模型能夠編排這些行為，以便機(jī)器人完成長時(shí)程任務(wù)

借助 Gemini Robotics-ER 1.5，可以構(gòu)建以下機(jī)器人應(yīng)用：

讓人們能夠使用自然語言分配復(fù)雜的任務(wù)，從而使機(jī)器人更易于使用

通過使機(jī)器人能夠推理、適應(yīng)和響應(yīng)開放式環(huán)境中的變化，提高機(jī)器人的自主性

Gemini Robotics-ER 1.5 為各種機(jī)器人任務(wù)提供統(tǒng)一的模型：定位和識別對象

1.準(zhǔn)確地指向并定義環(huán)境中各種項(xiàng)目的邊界框。了解對象關(guān)系

2.推理空間布局和環(huán)境背景信息，以便做出明智的決策。規(guī)劃抓取和軌跡

3.生成用于操縱物體的抓取點(diǎn)和軌跡。解讀動態(tài)場景

4.分析視頻幀，以跟蹤對象并了解一段時(shí)間內(nèi)的動作。編排長時(shí)程任務(wù)

5.將自然語言命令分解為一系列邏輯子任務(wù)，并對現(xiàn)有的機(jī)器人行為進(jìn)行函數(shù)調(diào)用。人機(jī)交互

6.通過文本或語音理解以自然語言給出的指令

Gemini Robotics-ER 1.5預(yù)覽版現(xiàn)已開放。可以通過以下方式開始體驗(yàn)：

啟動 Google AI Studio 來實(shí)驗(yàn)該模型。
閱讀開發(fā)者文檔獲取完整的快速入門和API參考

https://ai.google.dev/gemini-api/docs/robotics-overview?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch&hl=zh-cn

官方的 Colab notebook 查看實(shí)際應(yīng)用案例

https://github.com/google-gemini/cookbook/blob/main/quickstarts/gemini-robotics-er.ipynb?utm_source=gemini-robotics-er-1.5&utm_medium=blog&utm_campaign=launch

完整技術(shù)報(bào)告：

https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf

這個(gè)模型專為那些對機(jī)器人來說極具挑戰(zhàn)性的任務(wù)而設(shè)計(jì)。

想象一下，你對一個(gè)機(jī)器人說：“請把這些物品分類到正確的廚余、可回收和普通垃圾桶里。”

要完成這個(gè)任務(wù)，機(jī)器人需要：
1.上網(wǎng)查找本地的垃圾分類指南。
2.理解眼前的各種物品。
3.根據(jù)本地規(guī)則規(guī)劃出分類方法。
4.執(zhí)行所有步驟，完成投放。

像這樣的日常任務(wù)，大多需要結(jié)合上下文信息并分多步才能完成。

Gemini Robotics-ER 1.5正是首個(gè)為這種具身推理（embodied reasoning）而優(yōu)化的思考模型。它在學(xué)術(shù)基準(zhǔn)和內(nèi)部基準(zhǔn)測試中都達(dá)到了業(yè)界頂尖水平

Gemini Robotics-ER 1.5有哪些新能力？

Gemini Robotics-ER 1.5專為機(jī)器人應(yīng)用進(jìn)行了目標(biāo)性微調(diào)，并引入了多項(xiàng)新功能：

快速強(qiáng)大的空間推理：以Gemini Flash模型的低延遲，實(shí)現(xiàn)頂尖的空間理解能力。該模型擅長生成語義精確的2D坐標(biāo)點(diǎn)，這些坐標(biāo)點(diǎn)基于對物品尺寸、重量和功能可供性的推理，從而支持如“指出所有你能拿起的物體”這類指令，實(shí)現(xiàn)精確、快速的交互

協(xié)調(diào)高級智能體行為：利用先進(jìn)的空間和時(shí)間推理、規(guī)劃和成功檢測能力，可靠地執(zhí)行長周期任務(wù)循環(huán)（例如，“按照這張照片重新整理我的書桌”）。它還能原生調(diào)用谷歌搜索和任何第三方自定義函數(shù)（例如，“根據(jù)本地規(guī)定將垃圾分類”）

靈活的思考預(yù)算：開發(fā)者現(xiàn)在可以直接控制模型的延遲與準(zhǔn)確性之間的權(quán)衡。這意味著，對于像規(guī)劃多步組裝這樣的復(fù)雜任務(wù)，你可以讓模型“思考更長時(shí)間”；而對于探測或指向物體等需要快速反應(yīng)的任務(wù)，則可以要求更快的響應(yīng)

改進(jìn)的安全過濾器：模型在語義安全方面進(jìn)行了改進(jìn)，能更好地識別并拒絕生成違反物理約束的計(jì)劃（例如，超出機(jī)器人的有效載荷能力），讓開發(fā)者可以更自信地進(jìn)行構(gòu)建

智能大腦

你可以將Gemini Robotics-ER 1.5視為機(jī)器人的高級大腦。它能理解復(fù)雜的自然語言指令，對長周期任務(wù)進(jìn)行推理，并協(xié)調(diào)復(fù)雜的行為。

當(dāng)收到一個(gè)像“把桌子收拾干凈”這樣的復(fù)雜請求時(shí)，Gemini Robotics-ER 1.5能將其分解成一個(gè)計(jì)劃，并調(diào)用正確的工具來執(zhí)行，無論是機(jī)器人的硬件API、專門的抓取模型，還是用于運(yùn)動控制的視覺-語言-行為模型（VLA）。

高級空間理解能力

為了與物理世界互動，機(jī)器人必須能夠感知和理解其所處的環(huán)境。Gemini Robotics-ER 1.5經(jīng)過微調(diào)，能夠生成高質(zhì)量的空間結(jié)果，為物體提供精確的2D坐標(biāo)點(diǎn)

在指向精度方面，Gemini Robotics-ER 1.5是目前最精確的視覺語言模型

例如，在2D坐標(biāo)點(diǎn)生成任務(wù)中，給定一張廚房場景的圖片，模型可以提供每個(gè)物品的位置

提示：

指出圖中的以下物品：洗潔精、碗碟架、水龍頭、電飯煲、獨(dú)角獸。坐標(biāo)點(diǎn)格式為[y, x]，數(shù)值歸一化到0-1000。只包括圖中實(shí)際存在的物品。

值得注意的是，提示要求模型只標(biāo)記圖中出現(xiàn)的物品，這可以防止模型產(chǎn)生幻覺（比如為不存在的“獨(dú)角獸”生成坐標(biāo)），使其始終基于視覺現(xiàn)實(shí)

時(shí)間推理能力

真正的時(shí)空推理不僅要定位物體，還要理解物體與行為之間隨時(shí)間展開的關(guān)系。

Gemini Robotics-ER 1.5通過處理視頻來理解物理世界中的因果關(guān)系。

例如，在一個(gè)視頻中，機(jī)械臂先將一支綠色記號筆放入木盤，再將藍(lán)色和紅色的筆放入筆筒。當(dāng)我們要求模型按順序描述任務(wù)步驟時(shí)，它給出了完全正確的答案

提示：

詳細(xì)描述完成任務(wù)的每一步。按時(shí)間戳分解，以json格式輸出，包含 "start_timestamp", "end_timestamp" 和 "description" 鍵。

響應(yīng)：

[   {     "start_timestamp": "00:02",     "end_timestamp": "00:13",     "description": "左機(jī)械臂從桌上拿起綠色記號筆，并將其放入木盤中。"   },   {     "start_timestamp": "00:15",     "end_timestamp": "00:22",     "description": "左機(jī)械臂從桌上拿起藍(lán)色筆，并將其放入黑色網(wǎng)狀筆筒中。"   },   {     "start_timestamp": "00:23",     "end_timestamp": "00:28",     "description": "右機(jī)械臂從桌上拿起紅色筆，并將其放入黑色網(wǎng)狀筆筒中，完成了整理書寫工具的任務(wù)。"   } ]

模型甚至可以根據(jù)要求，對特定時(shí)間段（如第15秒到22秒）進(jìn)行更細(xì)致的逐秒分解，輸出結(jié)果在時(shí)間上非常精確

基于可操作性推理來協(xié)調(diào)長周期任務(wù)，

當(dāng)啟用思考功能時(shí)，模型可以對復(fù)雜的指向和邊界框查詢進(jìn)行推理。下面是一個(gè)制作咖啡的例子，展示了模型如何理解完成任務(wù)所需的“如何做”和“在哪里做”

1. 問：我應(yīng)該把杯子放在哪里來沖咖啡？
答：模型：在咖啡機(jī)下方標(biāo)記出一個(gè)邊界框
2. 問：咖啡膠囊應(yīng)該放在哪里？
答：模型：在咖啡機(jī)頂部的膠囊倉位置標(biāo)記出邊界框
3. 問：現(xiàn)在，我需要關(guān)上咖啡機(jī)。請繪制一條由8個(gè)點(diǎn)組成的軌跡，指示蓋子把手應(yīng)如何移動以關(guān)閉它
答：模型：生成了一條從開啟到關(guān)閉位置的精確路徑
4. 問：我喝完咖啡了。現(xiàn)在應(yīng)該把杯子放在哪里清洗？
答：模型：在水槽中標(biāo)記了一個(gè)點(diǎn)

通過結(jié)合規(guī)劃和空間定位，模型可以生成“空間錨定”計(jì)劃，將文本指令與物理世界中的具體位置和動作聯(lián)系起來

靈活的思考預(yù)算

下圖展示了調(diào)整Gemini Robotics-ER 1.5模型思考預(yù)算對延遲和性能的影響

模型的性能隨著思考token預(yù)算的增加而提升。對于像物體檢測這樣的簡單空間理解任務(wù)，很小的預(yù)算就能達(dá)到高性能；而更復(fù)雜的推理任務(wù)則需要更大的預(yù)算

這使得開發(fā)者可以在需要低延遲響應(yīng)的任務(wù)和需要高精度結(jié)果的挑戰(zhàn)性任務(wù)之間取得平衡。開發(fā)者可以通過請求中的thinking_config選項(xiàng)來設(shè)置思考預(yù)算，甚至禁用它

參考：

https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.