![]()
新智元報道
編輯:犀牛
【新智元導讀】國內首個利用世界模型生成數據實現真機泛化的端到端VLA具身基礎模型GigaBrain-0重磅發布。
近日,在湖北武漢東湖高新區,極佳視界與湖北人形機器人創新中心完成戰略合作簽約,并聯合發布端到端VLA「具身基礎模型」GigaBrain-0。
這是國內首個利用「世界模型」生成數據實現真機泛化的視覺-語言-動作(VLA)基礎模型,旨在通過世界模型為中心,無論在數據側還是模型側,徹底改變通用機器人大腦的開發方式。
GigaBrain-0擁有當前最先進的VLA模型架構,同時支持圖像、點云、文本、本體狀態的輸入,輸出結構化的任務規劃和運動規劃,并在大規模的數據上完成預訓練,可以實現更精準的移動導航和長序列的復雜操作。
搭配極佳視界自研「世界模型平臺GigaWorld」,構建最完整的具身數據體系,可以快速實現多種本體上復雜的機器人移動操作任務。后續GigaBrain-0將全面開源。
![]()
項目鏈接:https://gigabrain0.github.io/
論文鏈接:https://arxiv.org/pdf/2510.19430
01 核心算法架構升級
針對當前機器人操作中的精準度不足和推理能力不足的問題,GigaBrain-0重點提升了3D空間感知能力和結構化的推理能力,通過引入這兩項關鍵能力,GigaBrain-0可以完成更精準的移動導航和更長序列的復雜操作,具備更強泛化性,全球首次通過一腦多形、一段式端到端全身控制模型、一鏡到底完成衣物整理類復雜、柔性、長程移動操作任務!
1. 3D空間感知能力:加入Depth輸入,更精準的移動導航
GigaBrain-0通過加入深度信息的輸入,提升了物體3D位置和空間3D布局的感知能力,這兩點對于精確的雙臂操作和精確的移動導航至關重要。
2. 結構化推理能力:更穩定的長程、復雜任務表現
GigaBrain-0通過引入子目標拆解和機械臂末端軌跡輸出,改進了自身在開放場景中的任務規劃和運動規劃能力,極大提升了復雜、長程任務的成功率:
子目標拆解:模型在推理過程中,可以同時輸出子任務的自然語言描述,讓GigaBrain-0對于長程任務的分解更合理。
末端軌跡輸出:模型在推理過程中,增加了機械臂末端執行器運動路徑在圖像平面上2D投影的輸出,增強GigaBrain-0整體的全局動作規劃能力。
02 全球首個「世界模型」驅動的
最全數據體系
世界模型無論在數據側還是模型側,對于具身智能都有極其關鍵的價值。極佳視界通過「世界模型」為中心,打造了全球首個最全具身智能數據體系,具體包括:
Sim2Real Transfer Data: 利用Isaac Sim等仿真環境合成多樣化的機器人操作數據,通過GigaWorld的Sim2Real變換,實現逼真的外觀渲染,同時保留原始場景幾何和動作語義。
Real2Real Transfer Data: 將真實世界機器人采集的視頻重新渲染成外觀幾何上不同但物理上合理的變體,通過文本提示來控制前景及背景的材質、表面紋理、光照條件,同時保持機器人動作和交互的一致性。這有效地將真實數據的多樣性提高了約10倍。
View Transfer Data: 利用GigaWorld的3D空間場景重建能力,將單個真實采集的數據片段生成新視角的數據片段。
Video Generation Data: GigaWorld可以根據單個輸入圖像和不同的文本提示生成多樣化的具身機器人操作視頻,并通過逆動力學模型推斷出相應的機器人動作序列,合成訓練數據。
Human Transfer Data: 通過視頻變換和運動學重定向,將大規模第一人稱視頻中的人手替換為機械臂,生成穩定且可由機器人執行的動作序列。
我們在多個任務上驗證了世界模型生成數據對于具身機器人真機操作任務的價值,結果表明通過增加世界模型生成的數據進行預訓練和后訓練,GigaBrain-0的真機操作成功率可以持續提升,并且全球首次實現了連續柔性復雜長程操作的開放世界泛化。
同時,通過混合世界模型生產的數據和真機采集數據,GigaBrain-0可以快速完成特定本體上的任務適配和泛化。
通過「世界模型」驅動的具身最全數據體系,極佳視界將持續迭代具身大模型,加速走向物理世界通用智能。
03 高效的一腦多形跨本體適配
極佳視界聯合湖北人形機器人創新中心共同完成大規模預訓練數據的采集,數據覆蓋了工業、商業、辦公、家居、實驗室這5類場景,細分為超市、酒店大堂、咖啡店、奶茶店、便利店、餐廳、倉庫搬運、工業流水線、茶水間、住宅、公寓家居、會議室、辦公室工位、實驗室這14個具體場景。
結合場景豐富的預訓練數據和先進的模型架構,GigaBrain-0擁有優秀的任務規劃能力,進一步借助「極佳世界模型平臺」,極佳視界可以在不同的本體上快速實現復雜的機器人操作任務。
極佳視界聯合湖北人形機器人創新中心,全球首次基于高集成度人形機器人本體,一鏡到底實現實時、長程、復雜、柔性操作!
接下來雙方將有更深入的合作。
04 實驗結果
GigaBrain-0通過真實機器人實驗進行了評估,包括靈巧操作任務(如疊衣服、整理卷紙)、長程任務(如收拾桌面、倒飲料)和移動操作任務(如搬運箱子、拾取衣物)。
實驗結果表明,GigaBrain-0的成功率顯著優于現有SOTA方法。
![]()
關于極佳
極佳視界專注「世界模型平臺 x 具身基礎模型」,雙輪閉環走向物理世界通用智能。
在「世界模型」方向,極佳視界是國內技術創新和產業落地的領跑者,相關產品技術廣泛應用于自動駕駛、具身智能、內容創作等相關方向。
在「具身大腦」方向,極佳視界通過全球領先的「世界模型平臺」提供大規模高質量閉環數據,相比純真機數據訓練效率提升1-2個數量級以上,同時真機效果達到國內領先。
極佳視界由黃冠博士帶領團隊于2023年創立,是國內第一家專注「世界模型 x 具身大腦」方向的科技公司。
公司核心團隊包括清華、北大、中科院、中科大、WashU、CMU等全球知名院校頂尖研究人員,以及來自微軟、三星、地平線、百度、博世、NBC環球影業等全球知名企業高管,核心團隊兼具業內領先的研究能力和大規模的產業落地經驗。
極佳視界是國內少有在「世界模型」和「具身大腦」方向都擁有世界級綜合實力的團隊,在自動駕駛世界模型方向已經和多個頭部主機廠達成簽約合作,在具身世界模型、具身大腦等方向已經和多個具身本體、終端公司達成簽約合作,應用于科研、教育、展覽、數據采集、工業、服務、家庭等多個場景。
極佳視界致力通過「世界模型平臺 x 具身基礎模型」,創造物理世界通用智能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.