網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斑馬智行行業(yè)真首發(fā)座艙端側(cè)大模型

2025-10-21 11:20:17　來(lái)源: 燃擎頻道

北京舉報(bào)

分享至

在今年的阿里巴巴云棲大會(huì)上，斑馬智行推出了行業(yè)首個(gè)全模態(tài)座艙端側(cè)大模型。

相較于行業(yè)主流的云端大模型+端側(cè)小模型的解決方案，端側(cè)大模型解決方案有哪些不一樣的特點(diǎn)呢？

有熱點(diǎn)要蹭，沒(méi)有熱點(diǎn)創(chuàng)造熱點(diǎn)也要蹭是汽車行業(yè)宣發(fā)人員的基本功。

最近，伴隨著以人形機(jī)器人為代表的具身智能的日益火熱，已經(jīng)開(kāi)始有人將智能電動(dòng)汽車稱為最大的具身智能體了。

汽車和具身智能乍一聽(tīng)隔得有點(diǎn)遠(yuǎn)，但其實(shí)也不算強(qiáng)蹭熱點(diǎn)。

因?yàn)椋瑥暮诵牡母拍钌峡矗呱碇悄苤傅氖蔷邆洹案兄?決策-執(zhí)行”閉環(huán)，能跟物理環(huán)境實(shí)時(shí)交互的物理實(shí)體。

對(duì)應(yīng)到智能電動(dòng)汽車上，自動(dòng)駕駛系統(tǒng)可以通過(guò)攝像頭、激光雷達(dá)等傳感器感知車輛周圍環(huán)境。

通過(guò)大算力的計(jì)算平臺(tái)給出安全、舒適、擬人、高效的決策，再通過(guò)線控化的驅(qū)動(dòng)、制動(dòng)、轉(zhuǎn)向系統(tǒng)控制車輛的行駛動(dòng)作，妥妥的一個(gè)具備感知、思考和行動(dòng)能力的智能物理實(shí)體。

除了始終占據(jù)輿論C位的自動(dòng)駕駛，在智能電動(dòng)汽車?yán)铮硗庖粋€(gè)同樣具備感知-決策-行動(dòng)能力的具身智能體是智能座艙。

在過(guò)去幾年的時(shí)間里，各路專家多次宣傳汽車正在從單純的出行工具向自主移動(dòng)的第三空間演變，“自主移動(dòng)”對(duì)應(yīng)的是自動(dòng)駕駛，“第三空間”對(duì)應(yīng)的恰是智能座艙。

端到端大模型的出現(xiàn)、天然具備端到端感知-決策-行動(dòng)閉環(huán)的VLA和世界模型讓自動(dòng)駕駛系統(tǒng)化身為負(fù)責(zé)出行任務(wù)的具身智能體。

同樣，斑馬智行的Auto Omni全模態(tài)端側(cè)大模型也使得智能座艙初步具有了具身智能的雛形。

端側(cè)大模型意味著座艙第一次同時(shí)在本地具備了大腦+小腦能力，在主流的云端大模型+車端小模型模式下，智能座艙只是一個(gè)依賴云端的割裂式指令執(zhí)行器。

在端側(cè)大模型的模式下，智能座艙則化身成為可端到端地提供本地化服務(wù)的出行智能伙伴。

從指令執(zhí)行到智能伙伴，座艙第一次躋身了具身智能的大家庭！

車企們時(shí)時(shí)刻刻把“用戶體驗(yàn)優(yōu)先”掛在嘴邊，鑒于人機(jī)交互直接關(guān)系到用戶能否順暢、自然、高效地獲取服務(wù)并與車輛溝通。

于是，最能決定用戶體驗(yàn)的人車交互幾乎成了智能座艙功能的全部。在過(guò)去的十幾年里，人車交互經(jīng)歷了按鍵-帶觸控的二維圖形界面-語(yǔ)音2D交互-三維空間自然交互的演變。

伴隨著多模態(tài)大模型技術(shù)的進(jìn)步，人和汽車之間的交互快速?gòu)亩S平面和單模態(tài)輸入走向三維空間和全模態(tài)自然交互。

古早的按鍵和圖形用戶界面被動(dòng)跟隨用戶結(jié)構(gòu)化的指令，小模型時(shí)代的語(yǔ)音助手可以理解非結(jié)構(gòu)化的自然語(yǔ)言，但只能被動(dòng)理解用戶的意圖、執(zhí)行用戶的指令。

進(jìn)入多模態(tài)大模型時(shí)代之后，基于單一模態(tài)的獨(dú)立感知走向了基于多種模態(tài)的融合感知，在更多模態(tài)和維度下，座艙能夠更自然地理解用戶的意圖和上下文。

而且，在可主動(dòng)感知用戶情緒和狀態(tài)的多種傳感器的幫助下，智能座艙開(kāi)始具備主動(dòng)感知的能力，驅(qū)使著智能座艙由被動(dòng)智能轉(zhuǎn)向主動(dòng)智能。

不過(guò)，在行業(yè)主流的云端大模型+車端小模型模式下，云端大模型和車端小模型之間需要以結(jié)構(gòu)化的信息接口傳遞人、車、環(huán)境的信息，不僅存在信息壓縮和損失。

而且，由于隱私、流量的原因，不能或很難將全部的車內(nèi)外環(huán)境、車輛狀態(tài)、面部表情、手勢(shì)動(dòng)作、對(duì)話內(nèi)容發(fā)送到云端，信息的壓縮、模態(tài)的缺失意味著充當(dāng)大腦的云端大模型無(wú)法實(shí)現(xiàn)語(yǔ)音、視覺(jué)等模式的原生深度融合，最終導(dǎo)致無(wú)法實(shí)現(xiàn)對(duì)用戶意圖的精準(zhǔn)理解和主動(dòng)服務(wù)。

斑馬智行的Auto Omni可以端到端地同時(shí)處理文本、圖像、聲音、視頻等多種信息，從而以無(wú)縫的多模態(tài)融合實(shí)現(xiàn)了精準(zhǔn)的意圖理解和深度的場(chǎng)景化主動(dòng)服務(wù)。

在目前的AI領(lǐng)域，具身智能和Agent成了兩個(gè)最為火熱的發(fā)展方向。具身智能負(fù)責(zé)解決物理世界的問(wèn)題，Agent負(fù)責(zé)解決數(shù)字世界的問(wèn)題。

Agent的核心目的是替代在移動(dòng)互聯(lián)時(shí)代發(fā)展起來(lái)的APP。

使用APP時(shí)，需要用戶事先學(xué)習(xí)了解APP的使用規(guī)則，主動(dòng)查找、打開(kāi)、操作，到了安全相關(guān)的汽車場(chǎng)景下，車載APP只能被動(dòng)響應(yīng)、一步一步地等待用戶指令的一系列劣勢(shì)被進(jìn)一步放大了。

于是，在智能體Agent近一年來(lái)爆火的情況下，AI Agent自然而然地成了智能座艙的下一個(gè)發(fā)展方向。

在APP時(shí)代，需要用戶主動(dòng)發(fā)現(xiàn)、下載并打開(kāi)不同的APP，在各為信息孤島、將數(shù)據(jù)和服務(wù)封裝在內(nèi)的多個(gè)APP之間手動(dòng)操作才能兌現(xiàn)某種服務(wù)。

而在Agent時(shí)代，用戶只需通過(guò)自然語(yǔ)言提出目標(biāo)，之后便會(huì)有一個(gè)被稱為超級(jí)AI助手的主Agent去協(xié)調(diào)背后多個(gè)垂直、專業(yè)的服務(wù)Agent來(lái)自動(dòng)完成任務(wù)。

想象一下，用戶說(shuō)出訂一杯咖啡、點(diǎn)一個(gè)披薩的需求后，座艙Agent自主規(guī)劃任務(wù)的步驟，自動(dòng)串接拉通多個(gè)垂類Agent，像人類助理那樣完成點(diǎn)餐任務(wù)。

不僅能實(shí)現(xiàn)效率的急速提升，還可以在出行場(chǎng)景下解放用戶的雙手和大腦，從而保證行車的安全。

不過(guò)，APP的Agent化固然是未來(lái)的重要趨勢(shì)，但目前整個(gè)行業(yè)仍處于早期探索和攻堅(jiān)階段。

沒(méi)有金剛（參數(shù)丨圖片）鉆兒，就不要攬瓷器活，雖然有一些新勢(shì)力車企豪言做出了座艙Agent。

但是，顯然只有已經(jīng)建立了深入滲透的開(kāi)放生態(tài)、并與廣泛的第三方服務(wù)商達(dá)成了合作的企業(yè)才能真正克服跨應(yīng)用服務(wù)調(diào)用的各種挑戰(zhàn)。

國(guó)內(nèi)這樣的角色只有作為AI軟件生態(tài)服務(wù)商和聯(lián)合運(yùn)營(yíng)商的阿里巴巴、騰訊兩家。斑馬智行背靠阿里巴巴，自然有這個(gè)底氣宣傳行業(yè)首發(fā)。

斑馬智行Auto Omni同時(shí)瞄準(zhǔn)具身智能和Agent兩個(gè)方向，以多模態(tài)能力實(shí)現(xiàn)對(duì)用戶復(fù)雜意圖的深刻理解，通過(guò)Agent調(diào)用一系列原子能力或元服務(wù)自動(dòng)執(zhí)行。

可以肯定，自26年起，沒(méi)有端側(cè)多模態(tài)+Agent能力，就不能算合格的智能座艙大模型了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.