前段時間,華為車BU CEO靳玉志在媒體訪談時表示,華為不看好友商的VLA技術路線,世界行為模型WA才是最終通往L4的正確方案。
一石激起千重浪,WA真的比VLA更加強悍?它們的異同是什么?
在數字世界里,大語言模型無所不能,吊打專業寫手,碾壓高端碼農。
在物理世界里,引入了視覺、語音模態的多模態大模型崢嶸初露,似乎還行。
但和其在數字世界里大殺四方的表現和強大威力比起來,面向物理世界的AI大模型的水平真的不行。
![]()
之所以出現如此尷尬的脫節局面,是因為語言智能在大量的文本、互聯網視頻數據上訓練而來,脫胎于數字世界,故而能閑庭信步、比較從容地應用于數字世界。
但是,互聯網對真實物理世界進行了高度的抽象,只是對物理世界的簡化和側面的描述,由互聯網數據壓縮而來的語言智能自然缺乏對物理世界的深刻理解能力。
借用人工智能之父圖靈的話來說,具備抽象計算能力的語言智能跟物理世界需要的具身智能本身就是AI領域中兩條截然不同的路徑。
![]()
這種巨大的分野導致的后果就是,大語言模型在面對物理世界時,體現不出令人滿意的智能。
前段時間,初步嘗到了VLA方案甜頭的理想汽車智能駕駛負責人郎咸朋表示,跟VLA方案相比,傳統端到端方案就像猴子開車。
言外之意,VLA司機大模型的自動駕駛能力超越了猴子開車。
這番表態迅即引來地平線智能駕駛負責人蘇菁的批評。
蘇菁表示,現有的任何技術范式下,AI系統都無法達到猴子的智能水平。
![]()
蘇菁此言并非嘩眾取寵,持類似觀點的還有AI三巨頭之一的楊立昆。
自大語言模型問世之起,楊立昆就一直在批評基于統計和預測的大語言模型存在諸多缺陷,力推基于物理規律理解的世界模型,并認為在物理世界里,能夠開發出像貓或老鼠一樣聰明的系統,就算是AI領域的一大進步了。
![]()
所以,從這個角度出發,理想和小鵬VLA的核心是大語言模型,華為WA的核心是世界模型,這是兩條不同的路徑。
反過來想,總是反過來想。大語言模型無所不能,為什么頭部自動駕駛玩家離L4還那么遙遠?
人形機器人泡沫滔天,怎么還停步在翻跟頭、跑酷、拋手絹這樣中看不中用的階段?
人形機器人還處于孕育初期,暫且不談,就逐步走入成熟期的自動駕駛而言,其當下未能突破L3的根源在于,之前的智駕系統并不具備全面的、準確的場景理解能力。
![]()
自動駕駛系統從L2到L3的演進,其核心的跨越主要體現在對車輛周圍環境的場景理解能力上。
感知能力是場景理解的前提,L2++追求的是對各種標準物體和異形障礙物的感知,以BEV統一了感知,以OCC增強了空間感知能力,并在感知的基礎上建立了對車輛周圍環境的靜態理解。
到了L3階段,需要進一步由物體感知走向場景理解。
不僅要看到是什么,更要理解為什么、接下來會怎么樣。
這樣才能構建出一個動態的、基于預判的環境模型,基于和其它道路使用者及交通參與者的交互與博弈,給出智能和擬人化的決策。
![]()
場景理解能力最直接的用武之地便是盲區識別和防御性駕駛。
無論是地平線HSD這類基于強化學習的一段式端到端方案、小鵬與理想的VLA方案還是華為的世界行為模型,最近這段時間的宣傳都把重點放在了基于對存在安全隱患的盲區場景的理解做出的防御性駕駛策略上面。
![]()
小鵬和理想選擇VLA的根本原因也是因為VLA方案的確具備比傳統端到端方案更加強大的場景理解能力。
和基于預訓練的大語言模型相比,VLA既擁有了大語言模型的常識,經強化學習后,又增加了基于思維鏈CoT的推理能力,可以幫助自動駕駛系統從物體感知走向場景理解。
![]()
不過,VLA的場景理解能力即便能夠應對L3,卻未必可以走向L4階段。
多問一句,永遠多問一句。
接著上面的話題繼續追問下去,既然場景理解能力是自動駕駛的關鍵,那么,場景理解背后的核心又是什么?其實是理解物理世界的規律。
VLA和WA最核心的區別就在對真實物理世界規律的理解與駕駛本質的表達上面。
![]()
我們可以套用在中國士大夫群體里流傳很廣的《楞嚴經》里的話,來理解VLA和WA的區別。
楞嚴經有云,“如人以手,指月示人,彼人因指,當應看月。”
意思就是說,我們通過佛經文字這根手指見證到如如不動的自心本體這個月亮,此時要舍棄掉這些文字,安住在本體之上。
![]()
套用過來,內嵌大語言模型的VLA就是這個手指,它通過人類熟悉的語言符號系統作為中間媒介,來理解駕駛環境,推理駕駛行為。
世界行為模型則是這輪明月,它摒棄了語言的中間層,直接學習到物理世界的底層規律和對應行為。
![]()
從效果上來看,VLA將視覺、語音Token到文本模態,強行借用大語言模型的理解和推理能力,可以實現比傳統端到端方案更加出色的表現。
但是,它無法精確地傳達物理世界所有復雜、連續和細微的信息,比如精確的深度、速度和力學關系,而且轉換過程可能引入幻覺或誤差。
相比之下,世界行為模型直接編碼和響應物理規律,可以以更精準的物理一致性,更直接地基于對物理世界的預測和理解實現更精確、更可靠的控制。
![]()
從部署上看,VLA模型需要通過語言層將車周環境轉換成語言和語義,再結合知識和推理,將語義轉換成控制動作,步驟多、延遲高。
世界行為模型不需要將車周景象轉換成文字再思考,延遲低、效率高。先看手指再看月亮,確實遠不如直接凝視月亮更有效率!
華為的世界行為模型是不是比友商的VLA更加強悍,現在還不好給出過于武斷的判斷。
不過,有一個事實似乎也在證明世界行為模型更加接近自動駕駛的終極答案,那就是,自動駕駛領域的全球標桿特斯拉走的也是這條路線。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.