![]()
VLA(Visual-Language-Action)大模型到底能跑多快?在這篇 RT-VLA(Real-time VLA)論文中,來自 Dexmal 原力靈機(jī)(由范浩強(qiáng)等人聯(lián)合創(chuàng)立的具身智能公司)的研究者公布了一個(gè)反直覺的發(fā)現(xiàn):它可以非常快!
具體而言,對(duì)于常用的 Pi0 級(jí)別的模型(30 億參數(shù)),在單張消費(fèi)級(jí)顯卡 RTX 4090 上最快可以跑到 30fps。這和大家對(duì)于 VLA 模型動(dòng)輒要幾十甚至上百毫秒的刻板印象形成鮮明對(duì)比。
為實(shí)現(xiàn)這點(diǎn),研究者深入分析 Pi0 的模型結(jié)構(gòu),通過一系列優(yōu)化把用時(shí)從開始的 100+ ms 進(jìn)行數(shù)倍縮減(針對(duì)雙視角,甚至已經(jīng)達(dá)到 27ms),顯著強(qiáng)于 openpi 里采用的基于 jax 的自動(dòng)優(yōu)化的結(jié)果。
此外,研究者基于現(xiàn)有結(jié)果探討了未來的“實(shí)時(shí)”運(yùn)行的 VLA 結(jié)構(gòu),設(shè)計(jì)出一個(gè)有潛力最高實(shí)現(xiàn) 480Hz 閉環(huán)控制的算法框架。目前,優(yōu)化后的代碼已在 GitHub 開源,全部實(shí)現(xiàn)均打包為一個(gè)只依賴于 torch 和 triton 的單一文件,大家可在自己的項(xiàng)目里 “開箱即用”。這是Dexmal 原力靈機(jī)繼開源一站式 VLA 工具箱 Dexbotic之后的又一開源代碼工作。
![]()
- 論文名稱:Running VLAs at Real-time Speed
- 論文鏈接:https://arxiv.org/abs/2510.26742
- GitHub:https://github.com/Dexmal/realtime-vla
解決什么痛點(diǎn)?
現(xiàn)在機(jī)器人 VLA 大模型動(dòng)輒幾十億參數(shù),雖然有不錯(cuò)的泛化能力,但是延遲問題總是繞不過。即使是在高端推理顯卡上,高達(dá)百毫秒級(jí)別的推理時(shí)間讓機(jī)器人的實(shí)時(shí)控制困難重重,就像一個(gè)人看見東西后要愣一下才做出動(dòng)作。
如果我們能夠把模型運(yùn)行到和相機(jī)一樣快的頻率(25fps、30fps 甚至 50fps),那么就可以在完全不丟幀的情況下處理視覺信息,讓 VLA 模型的實(shí)時(shí)運(yùn)行成為可能。
如何實(shí)現(xiàn)?
![]()
Pi0 模型計(jì)算流程圖示,它主要包括 1 個(gè)視覺編碼器,1 個(gè)編碼器和 1 個(gè)解碼器;所有這些又可進(jìn)一步分解為一系列的矩陣乘法和標(biāo)量運(yùn)算。
對(duì)于 Transformer 這類模型,當(dāng)它進(jìn)行單次推理(比如只處理一個(gè)問題或一張圖片)時(shí),其內(nèi)部計(jì)算過程實(shí)際上是由一長(zhǎng)串零碎的 “矩陣計(jì)算小任務(wù)” 組成;而像 Pi0 這種采用 “流匹配” 技術(shù)的模型,需要反復(fù)迭代十次才能得出最終結(jié)果,每一次迭代本身就包含幾十層計(jì)算。這樣算下來,整個(gè)推理過程涉及數(shù)百層、上千個(gè)操作。任務(wù)如此零碎,讓計(jì)算優(yōu)化變得異常困難。
本文研究者通過深入分析模型推理過程中的計(jì)算問題,融合和并行優(yōu)化每一個(gè)計(jì)算步驟,清除了推理方面的大部分障礙,再加上其他方面的優(yōu)化,最終把整個(gè) VLA 模型跑進(jìn)了所需的時(shí)間之內(nèi)。
這就像給了 VLA 大模型一份 “高性能 AI 大腦調(diào)校指南” ;它通過一系列深入的底層優(yōu)化,把笨重的 AI 大模型變成能跑實(shí)時(shí)任務(wù)的 “閃電俠”,并在此基礎(chǔ)上,構(gòu)想出一個(gè)能同時(shí)具備條件反射、視覺反饋和智能思考的下一代機(jī)器人控制系統(tǒng)。
效果展示
![]()
上圖所示的任務(wù)是抓取一支自由下落的筆。 這個(gè)任務(wù)對(duì)反應(yīng)時(shí)間的要求極為苛刻。機(jī)器人觀察到筆開始下落后,必須在極短的時(shí)間內(nèi)做出反應(yīng)并在正確的時(shí)間啟動(dòng)抓取動(dòng)作,快一點(diǎn)或者慢一點(diǎn)都會(huì)導(dǎo)致任務(wù)失敗。
最終呈現(xiàn)的效果是 從 “看到筆” 到 “執(zhí)行抓取” 的端到端總反應(yīng)時(shí)間被縮短到 200 毫秒以內(nèi),這大概對(duì)應(yīng)到一個(gè) 30 cm 左右的最短下落距離。而人類在這個(gè)任務(wù)上的一般表現(xiàn)也不過如此。
下一步規(guī)劃
![]()
基于上述取得的成果,研究者設(shè)計(jì)了一套完整的、圍繞 GPU 打造的機(jī)器人控制框架,它能驅(qū)動(dòng) VLA 大模型,像 “直播” 一樣對(duì)機(jī)器人進(jìn)行流式的實(shí)時(shí)控制,讓機(jī)器人擁有 3 種不同速度的 “反應(yīng)神經(jīng)”:
- 超快反應(yīng)(480Hz):處理來自力傳感器等高速信號(hào)。就像你的手一碰到燙的東西會(huì)瞬間縮回,不需要經(jīng)過大腦思考。這部分由模型的 “解碼器” 負(fù)責(zé),能每秒生成 480 次控制指令。
- 視覺反應(yīng)(30Hz):處理來自攝像頭的畫面。就像你看著球飛過來,用眼睛跟蹤并判斷落點(diǎn)。這部分由模型的 “編碼器” 負(fù)責(zé)。
- 智能思考(<1Hz):處理語言理解和任務(wù)規(guī)劃。就像你在執(zhí)行任務(wù)時(shí),還能分心聽一下隊(duì)友的指令或者自己琢磨一下策略。這部分速度最慢,但賦予了機(jī)器人更高的智能。
通過分析與實(shí)驗(yàn),這個(gè)框架下一步規(guī)劃最高能以 480Hz 的頻率生成機(jī)器人控制信號(hào);這個(gè)速度,已經(jīng)摸到了實(shí)現(xiàn)基于力反饋進(jìn)行控制的門檻。
未來展望
機(jī)器人有沒有可能達(dá)到 “又聰明又快” 的效果?這篇文章只是一個(gè)起點(diǎn)。針對(duì)未來不斷增加中的邊緣計(jì)算算力,研究者展望了更進(jìn)一步的可能性:
- “眼睛” 最快能有多快?從 30fps 到 60fps,甚至 120fps,是否有更多的任務(wù)變得可行?
- “大腦” 最大能有多大?在實(shí)時(shí)性約束下,我們是否可以從 3B 模型,走向 7B,13B 模型,甚至更大模型?
- “反應(yīng)” 速度的極限在哪里?在 VLA 框架下,我們是否還可以建立亞毫秒、甚至微秒級(jí)的反饋回路?
從這篇文章出發(fā),一個(gè)能夠參與實(shí)時(shí)控制 VLA 的世界的大門正在被打開。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.