當(dāng)自動(dòng)駕駛機(jī)器人行駛在城市的人行道場(chǎng)景,算法會(huì)有效還是失靈呢?
這是一種比行駛在道路上更復(fù)雜、更具有不可預(yù)測(cè)情況的現(xiàn)實(shí)場(chǎng)景:一方面,機(jī)器人面對(duì)使用電動(dòng)輪椅的老人、遛狗的人、嬰兒推車、突然沖出馬路的孩子等復(fù)雜的情況;另一方面,人行道還可能出現(xiàn)坑洼、斜坡等路況。
最近,DeepTech 關(guān)注到美國(guó)加州大學(xué)洛杉磯分校(UCLA,University of California,Los Angeles)副教授周博磊加入美國(guó)機(jī)器人初創(chuàng)公司 Coco Robotics,并在該公司新成立的 Physical AI Lab 擔(dān)任首席 AI 科學(xué)家。我們通過與周博磊的交流,試圖從產(chǎn)學(xué)研方面揭開人行道自動(dòng)駕駛的“神秘面紗”。
![]()
(來源:周博磊)
![]()
從模擬到現(xiàn)實(shí):讓自動(dòng)駕駛走在人行道
周博磊先后在上海交通大學(xué)和香港中文大學(xué)獲得學(xué)士和碩士學(xué)位,然后在美國(guó)麻省理工學(xué)院獲得博士學(xué)位。此前,他曾在香港中文大學(xué)擔(dān)任助理教授,并憑借“使人工智能模型更易于人類理解和信賴”,成為 2020 年《麻省理工科技評(píng)論》“35 歲以下科技創(chuàng)新者”亞太區(qū)入選者之一。目前,周博磊實(shí)驗(yàn)室的研究方向是計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí),致力于城市機(jī)器人交互,并于近期將研究方向聚焦于人行道自動(dòng)駕駛方向。
他早期研究的類別激活映射(CAM,Class Activation Mapping)技術(shù) [1] 和網(wǎng)絡(luò)剖析(Network Dissection)[2] 等一系列工作,可應(yīng)用于自動(dòng)駕駛、醫(yī)學(xué)影像診斷和醫(yī)療保健等領(lǐng)域,為目前的研究理念打下了堅(jiān)實(shí)的基礎(chǔ)。無論是設(shè)計(jì)模型、部署模型,還是訓(xùn)練模型,模型的可解釋性都是一個(gè)非常重要的因素。在機(jī)器人應(yīng)用中,當(dāng)機(jī)器人在現(xiàn)實(shí)生活中做出錯(cuò)誤決策后,如何分析它的行為是值得深入研究的課題之一。
在如今的大模型研究中,可解釋性已自成體系,即訓(xùn)練好大模型后,能否理解其學(xué)到的知識(shí),以及為什么會(huì)輸出這樣的結(jié)果。周博磊對(duì) DeepTech 表示:“我們希望在獲得 AI 模型后,能夠提升它的可解釋性。因?yàn)榭山忉屝圆粌H在于理解模型,還在于提升它與人類交互的能力。只有理解模型的運(yùn)作,才能實(shí)現(xiàn)人與 AI 共同操作,從而達(dá)到更透明的相互理解與協(xié)作。”
在該實(shí)驗(yàn)室最近的工作中,研究人員利用 Coco Robotics 贈(zèng)予實(shí)驗(yàn)室的送貨機(jī)器人小車做了相關(guān)研究工作。例如,發(fā)表在 CVPR 2025 的論文《Vid2Sim:基于視頻的逼真交互式城市導(dǎo)航模擬》(Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation)[3]。通過拍攝一段視頻,可將其重建成一個(gè)交互式環(huán)境,然后在該環(huán)境中訓(xùn)練 Coco 小車,進(jìn)而能夠直接在現(xiàn)實(shí)生活中部署。結(jié)果顯示,Vid2Sim 顯著提高了數(shù)字孿生和現(xiàn)實(shí)世界中的城市導(dǎo)航性能,成功率分別提高了 31.2% 和 68.3%。
![]()
(來源:https://arxiv.org/abs/2501.06693)
在另一項(xiàng)發(fā)表于 CVPR 2025 的論文《通過可擴(kuò)展的城市模擬實(shí)現(xiàn)自主微移動(dòng)》(Towards Autonomous Micromobility through Scalable Urban Simulation)中 [4],也研究了人行道機(jī)器人。研究人員利用 AI 代理協(xié)助人類操控小型出行設(shè)備(micromobility),為提升安全性和效率提供了一種可行的解決方案。他們構(gòu)建了一種高性能機(jī)器人學(xué)習(xí)平臺(tái) URBAN-SIM,用于在交互式城市場(chǎng)景中大規(guī)模訓(xùn)練具身代理。此外,他們還針對(duì)四種機(jī)器人設(shè)計(jì)了涵蓋 8 個(gè)場(chǎng)景的三項(xiàng)任務(wù),包括輪式機(jī)器人(Coco Robotics 的送貨機(jī)器人)、四足機(jī)器人(Unitree Go2)、輪腿機(jī)器人(Unitree B2-W)和人形機(jī)器人(Unitree G1)。
![]()
(來源:https://arxiv.org/abs/2505.00690)
![]()
介于家庭機(jī)器人和車道自動(dòng)駕駛之間的應(yīng)用場(chǎng)景
Coco Robotics 以實(shí)現(xiàn)配送機(jī)器人“最后一公里”為目標(biāo),其成立于 2020 年,聯(lián)合創(chuàng)始人兼 CEO 扎克·拉什(Zach Rash)和聯(lián)合創(chuàng)始人兼 CTO 布拉德·斯奎恰里尼(Brad Squicciarini)都是 UCLA 的校友。該公司在種子輪融資時(shí)獲得了 OpenAI 的 CEO 山姆·奧特曼的支持,并與 OpenAI 一直保持?jǐn)?shù)據(jù)方面的合作。在如今的大模型和 AI 浪潮中,Coco Robotics 的優(yōu)勢(shì)之一在于,其基于自身機(jī)器人小車送餐業(yè)務(wù)能夠像特斯拉那樣每天積累大量新的視頻數(shù)據(jù),而不是像其他大模型公司那樣下載通用的互聯(lián)網(wǎng)數(shù)據(jù)。
從美國(guó)市場(chǎng)來看,目前聚焦人行道自動(dòng)駕駛機(jī)器人的主要公司“各有千秋”,除了 Coco Robotics 還包括 Starship Technologies 和 Serve Robotics。Starship Technologies 成立于 2014 年,專注于校園內(nèi)餐廳的機(jī)器人配送業(yè)務(wù),并在美國(guó)、英國(guó)、芬蘭等國(guó)家的相關(guān)城市開展業(yè)務(wù)。Serve Robotics 公司自 2021 年從 Uber 分拆而來,已于 2024 年在納斯達(dá)克上市。
周博磊與 Coco Robotics 的合作一方面源于雙方技術(shù)發(fā)展方向的契合,另一方面也基于他們此前的合作。
盡管周博磊實(shí)驗(yàn)室之前做過自動(dòng)駕駛的相關(guān)研究,但缺少自動(dòng)駕駛真車,也沒有場(chǎng)地做真車實(shí)驗(yàn),更沒有數(shù)據(jù)和計(jì)算資源和大型自動(dòng)駕駛公司競(jìng)爭(zhēng)。因此,他們切換了研究場(chǎng)景,轉(zhuǎn)而研究人行道上的機(jī)器人——既能研究機(jī)器人學(xué)習(xí)課題,又可以在真實(shí)世界中做實(shí)驗(yàn)。與此同時(shí),Coco Robotics 正處于 AI 轉(zhuǎn)型階段,隨著其基于遠(yuǎn)程遙控配送車的業(yè)務(wù)發(fā)展成熟,公司計(jì)劃向用 AI 模型補(bǔ)充和降低人工操作的方向轉(zhuǎn)型。
需要了解的是,機(jī)器人研究中常見的劃分方向是機(jī)械臂或家庭環(huán)境下的機(jī)器人方向,以及自動(dòng)駕駛方向。現(xiàn)階段,特定場(chǎng)景下的道路自動(dòng)駕駛技術(shù)已基本接近實(shí)現(xiàn),人們可使用 Waymo 和蘿卜快跑等自動(dòng)駕駛服務(wù)平臺(tái)在國(guó)內(nèi)外的相關(guān)城市打車出行。而人行道自動(dòng)駕駛是介于家庭機(jī)器人和車道自動(dòng)駕駛之間的過渡場(chǎng)景。該場(chǎng)景下的機(jī)器人需要完成的不僅是簡(jiǎn)單的視覺識(shí)別任務(wù),還需要充分整合感知、理解、判斷、決策和行動(dòng),這也是決定著 AI 是否能走進(jìn)現(xiàn)實(shí)世界的關(guān)鍵因素。更重要的是,其還需要機(jī)器人和人類進(jìn)行更有效的安全交互。周博磊進(jìn)一步說道:“如果能解決好人行道上的機(jī)器人技術(shù)問題,它也可以應(yīng)用到送貨之外的其他方向,比如為人形機(jī)器人提供城市導(dǎo)航模塊,為電動(dòng)輪椅提供自動(dòng)駕駛能力等。”
為更好地解決上述問題,新成立的 Physical AI Lab 將圍繞三個(gè)方向開展研究:一是從數(shù)據(jù)層面,基于 Coco Robotics 累積的真實(shí)數(shù)據(jù)訓(xùn)練出適用于城市人行道的、配送機(jī)器人的基礎(chǔ)模型或者移動(dòng)性基礎(chǔ)模型。“這相當(dāng)于特斯拉基礎(chǔ)款的 Autopilot 功能,它可以在高速等相對(duì)簡(jiǎn)單的情況下實(shí)現(xiàn)自動(dòng)駕駛,然后把這個(gè)模型整合到現(xiàn)有的操作流程中。”周博磊說。二是通過仿真重建出與真實(shí)情況高度契合的虛擬環(huán)境對(duì)模型進(jìn)行訓(xùn)練,以進(jìn)一步提升機(jī)器人的決策和因果推斷能力。三是讓模型能從人類的操作中持續(xù)學(xué)習(xí),將 AI 模型與人類操控者更好地協(xié)作整合
需要了解的是,這并不意味著在短時(shí)間內(nèi)完全實(shí)現(xiàn)自動(dòng)化,而是通過人機(jī)協(xié)作共同完成人行道導(dǎo)航任務(wù):在較簡(jiǎn)單的人行道情況下,由 AI 操作系統(tǒng);而在過馬路等較復(fù)雜的情況下,則由人接手操作。他表示:“現(xiàn)階段的遙控操作是一個(gè)操作者對(duì)應(yīng)操作一輛送貨車。我們希望在兩三年內(nèi)可以發(fā)展到一個(gè)操作者結(jié)合 AI 模型能同時(shí)操作 3 到 4 輛送貨車,這將大大節(jié)省人力成本。”
![]()
產(chǎn)學(xué)研結(jié)合的雙贏路徑
從周博磊這次與 Coco Robotics 的攜手,我們可以看到產(chǎn)學(xué)研緊密結(jié)合的一種雙贏合作路徑:公司可提供資金、通過業(yè)務(wù)積累的海量數(shù)據(jù)和實(shí)驗(yàn)平臺(tái),但面臨招聘全職 AI 研究員工成本高和 AI 技術(shù)迭代慢的問題;而實(shí)驗(yàn)室由于沒有真實(shí)數(shù)據(jù),很難開展相關(guān)研究。通過合作,實(shí)驗(yàn)室的學(xué)生們可利用公司提供的真實(shí)世界數(shù)據(jù)和硬件平臺(tái)開展研究、發(fā)表論文。尤為重要的是,相關(guān)研究成果開源發(fā)布后,能夠進(jìn)一步促進(jìn)和回饋整個(gè)社區(qū)的技術(shù)發(fā)展。
周博磊指出,城市人行道自動(dòng)駕駛領(lǐng)域目前尚處于技術(shù)早期階段。在接下來的幾年中,隨著技術(shù)的發(fā)展、數(shù)據(jù)的積累和研究的深入,非常有可能有一條穩(wěn)定的技術(shù)路線“突出重圍”。
參考資料:
1.https://arxiv.org/abs/1512.04150
2.https://arxiv.org/abs/1704.05796
3.https://arxiv.org/abs/2501.06693
4.https://arxiv.org/abs/2505.00690
5.https://techcrunch.com/2025/06/11/sam-altman-backed-coco-robotics-raises-80m/
6.https://www.cocodelivery.com/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.