![]()
在今年的阿里巴巴云棲大會(huì)上,斑馬智行推出了行業(yè)首個(gè)全模態(tài)座艙端側(cè)大模型。
相較于行業(yè)主流的云端大模型+端側(cè)小模型的解決方案,端側(cè)大模型解決方案有哪些不一樣的特點(diǎn)呢?
有熱點(diǎn)要蹭,沒(méi)有熱點(diǎn)創(chuàng)造熱點(diǎn)也要蹭是汽車行業(yè)宣發(fā)人員的基本功。
最近,伴隨著以人形機(jī)器人為代表的具身智能的日益火熱,已經(jīng)開(kāi)始有人將智能電動(dòng)汽車稱為最大的具身智能體了。
![]()
汽車和具身智能乍一聽(tīng)隔得有點(diǎn)遠(yuǎn),但其實(shí)也不算強(qiáng)蹭熱點(diǎn)。
因?yàn)椋瑥暮诵牡母拍钌峡矗呱碇悄苤傅氖蔷邆洹案兄?決策-執(zhí)行”閉環(huán),能跟物理環(huán)境實(shí)時(shí)交互的物理實(shí)體。
對(duì)應(yīng)到智能電動(dòng)汽車上,自動(dòng)駕駛系統(tǒng)可以通過(guò)攝像頭、激光雷達(dá)等傳感器感知車輛周圍環(huán)境。
通過(guò)大算力的計(jì)算平臺(tái)給出安全、舒適、擬人、高效的決策,再通過(guò)線控化的驅(qū)動(dòng)、制動(dòng)、轉(zhuǎn)向系統(tǒng)控制車輛的行駛動(dòng)作,妥妥的一個(gè)具備感知、思考和行動(dòng)能力的智能物理實(shí)體。
![]()
除了始終占據(jù)輿論C位的自動(dòng)駕駛,在智能電動(dòng)汽車?yán)铮硗庖粋€(gè)同樣具備感知-決策-行動(dòng)能力的具身智能體是智能座艙。
在過(guò)去幾年的時(shí)間里,各路專家多次宣傳汽車正在從單純的出行工具向自主移動(dòng)的第三空間演變,“自主移動(dòng)”對(duì)應(yīng)的是自動(dòng)駕駛,“第三空間”對(duì)應(yīng)的恰是智能座艙。
![]()
端到端大模型的出現(xiàn)、天然具備端到端感知-決策-行動(dòng)閉環(huán)的VLA和世界模型讓自動(dòng)駕駛系統(tǒng)化身為負(fù)責(zé)出行任務(wù)的具身智能體。
同樣,斑馬智行的Auto Omni全模態(tài)端側(cè)大模型也使得智能座艙初步具有了具身智能的雛形。
端側(cè)大模型意味著座艙第一次同時(shí)在本地具備了大腦+小腦能力,在主流的云端大模型+車端小模型模式下,智能座艙只是一個(gè)依賴云端的割裂式指令執(zhí)行器。
在端側(cè)大模型的模式下,智能座艙則化身成為可端到端地提供本地化服務(wù)的出行智能伙伴。
![]()
從指令執(zhí)行到智能伙伴,座艙第一次躋身了具身智能的大家庭!
車企們時(shí)時(shí)刻刻把“用戶體驗(yàn)優(yōu)先”掛在嘴邊,鑒于人機(jī)交互直接關(guān)系到用戶能否順暢、自然、高效地獲取服務(wù)并與車輛溝通。
于是,最能決定用戶體驗(yàn)的人車交互幾乎成了智能座艙功能的全部。在過(guò)去的十幾年里,人車交互經(jīng)歷了按鍵-帶觸控的二維圖形界面-語(yǔ)音2D交互-三維空間自然交互的演變。
伴隨著多模態(tài)大模型技術(shù)的進(jìn)步,人和汽車之間的交互快速?gòu)亩S平面和單模態(tài)輸入走向三維空間和全模態(tài)自然交互。
![]()
古早的按鍵和圖形用戶界面被動(dòng)跟隨用戶結(jié)構(gòu)化的指令,小模型時(shí)代的語(yǔ)音助手可以理解非結(jié)構(gòu)化的自然語(yǔ)言,但只能被動(dòng)理解用戶的意圖、執(zhí)行用戶的指令。
進(jìn)入多模態(tài)大模型時(shí)代之后,基于單一模態(tài)的獨(dú)立感知走向了基于多種模態(tài)的融合感知,在更多模態(tài)和維度下,座艙能夠更自然地理解用戶的意圖和上下文。
而且,在可主動(dòng)感知用戶情緒和狀態(tài)的多種傳感器的幫助下,智能座艙開(kāi)始具備主動(dòng)感知的能力,驅(qū)使著智能座艙由被動(dòng)智能轉(zhuǎn)向主動(dòng)智能。
![]()
不過(guò),在行業(yè)主流的云端大模型+車端小模型模式下,云端大模型和車端小模型之間需要以結(jié)構(gòu)化的信息接口傳遞人、車、環(huán)境的信息,不僅存在信息壓縮和損失。
而且,由于隱私、流量的原因,不能或很難將全部的車內(nèi)外環(huán)境、車輛狀態(tài)、面部表情、手勢(shì)動(dòng)作、對(duì)話內(nèi)容發(fā)送到云端,信息的壓縮、模態(tài)的缺失意味著充當(dāng)大腦的云端大模型無(wú)法實(shí)現(xiàn)語(yǔ)音、視覺(jué)等模式的原生深度融合,最終導(dǎo)致無(wú)法實(shí)現(xiàn)對(duì)用戶意圖的精準(zhǔn)理解和主動(dòng)服務(wù)。
斑馬智行的Auto Omni可以端到端地同時(shí)處理文本、圖像、聲音、視頻等多種信息,從而以無(wú)縫的多模態(tài)融合實(shí)現(xiàn)了精準(zhǔn)的意圖理解和深度的場(chǎng)景化主動(dòng)服務(wù)。
在目前的AI領(lǐng)域,具身智能和Agent成了兩個(gè)最為火熱的發(fā)展方向。具身智能負(fù)責(zé)解決物理世界的問(wèn)題,Agent負(fù)責(zé)解決數(shù)字世界的問(wèn)題。
![]()
Agent的核心目的是替代在移動(dòng)互聯(lián)時(shí)代發(fā)展起來(lái)的APP。
使用APP時(shí),需要用戶事先學(xué)習(xí)了解APP的使用規(guī)則,主動(dòng)查找、打開(kāi)、操作,到了安全相關(guān)的汽車場(chǎng)景下,車載APP只能被動(dòng)響應(yīng)、一步一步地等待用戶指令的一系列劣勢(shì)被進(jìn)一步放大了。
于是,在智能體Agent近一年來(lái)爆火的情況下,AI Agent自然而然地成了智能座艙的下一個(gè)發(fā)展方向。
![]()
在APP時(shí)代,需要用戶主動(dòng)發(fā)現(xiàn)、下載并打開(kāi)不同的APP,在各為信息孤島、將數(shù)據(jù)和服務(wù)封裝在內(nèi)的多個(gè)APP之間手動(dòng)操作才能兌現(xiàn)某種服務(wù)。
而在Agent時(shí)代,用戶只需通過(guò)自然語(yǔ)言提出目標(biāo),之后便會(huì)有一個(gè)被稱為超級(jí)AI助手的主Agent去協(xié)調(diào)背后多個(gè)垂直、專業(yè)的服務(wù)Agent來(lái)自動(dòng)完成任務(wù)。
![]()
想象一下,用戶說(shuō)出訂一杯咖啡、點(diǎn)一個(gè)披薩的需求后,座艙Agent自主規(guī)劃任務(wù)的步驟,自動(dòng)串接拉通多個(gè)垂類Agent,像人類助理那樣完成點(diǎn)餐任務(wù)。
不僅能實(shí)現(xiàn)效率的急速提升,還可以在出行場(chǎng)景下解放用戶的雙手和大腦,從而保證行車的安全。
![]()
不過(guò),APP的Agent化固然是未來(lái)的重要趨勢(shì),但目前整個(gè)行業(yè)仍處于早期探索和攻堅(jiān)階段。
沒(méi)有金剛(參數(shù)丨圖片)鉆兒,就不要攬瓷器活,雖然有一些新勢(shì)力車企豪言做出了座艙Agent。
但是,顯然只有已經(jīng)建立了深入滲透的開(kāi)放生態(tài)、并與廣泛的第三方服務(wù)商達(dá)成了合作的企業(yè)才能真正克服跨應(yīng)用服務(wù)調(diào)用的各種挑戰(zhàn)。
國(guó)內(nèi)這樣的角色只有作為AI軟件生態(tài)服務(wù)商和聯(lián)合運(yùn)營(yíng)商的阿里巴巴、騰訊兩家。斑馬智行背靠阿里巴巴,自然有這個(gè)底氣宣傳行業(yè)首發(fā)。
斑馬智行Auto Omni同時(shí)瞄準(zhǔn)具身智能和Agent兩個(gè)方向,以多模態(tài)能力實(shí)現(xiàn)對(duì)用戶復(fù)雜意圖的深刻理解,通過(guò)Agent調(diào)用一系列原子能力或元服務(wù)自動(dòng)執(zhí)行。
可以肯定,自26年起,沒(méi)有端側(cè)多模態(tài)+Agent能力,就不能算合格的智能座艙大模型了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.