![]()
VLA 是“唯一能把長尾一口氣吃掉”的可行框架
文/林書
編輯/劉宇翔
2025年 8 月的最后一個星期,中國智能駕駛被驟然按下快進鍵——從算法底座到整車 OTA,行業在短短幾天內,呈現出了“VLA齊爆發”的景觀。
VLA,即Vision-Language-Action,視覺-語言-行動模型。VLA的快速商業化落地,正在重新定義“高階智駕”的技術門檻。
首先是理想汽車借純電旗艦 i8 上市窗口,首次向全量用戶推送「VLA 司機大模型」;元戎啟行于 8 月 26 日正式發布自研 VLA 大模型,推出名為 DeepRoute IO 2.0 的新平臺,確定將在 5 款車型上使用,覆蓋累計約 20 萬臺車。
緊接著,小鵬汽車在 8 月 27 日的新 P7 發布會上端出新一代 VLA 架構,宣稱時延 < 100 ms、規劃幀率 20 Hz,刷新量產天花板。
與此同時,華為代表的另一大路線——WA(世界行為模型),也正在緊密地醞釀中。ADS 4.0 將在 9 月隨問界 M9 年度改款 OTA,試圖重新劃定城區智駕的體驗基線。
![]()
而之所以“VLA 上車潮”發生在 2025 年,從商業的角度來看,是因為今年處于城市 NOA 規模化交付(L2++)與 Robotaxi 商業化(L4)之間的“空檔期”。誰先完成 VLA 量產,誰就能在下一階段用戶體驗與融資敘事上占據先手,錯過 2025,技術紅利將被稀釋,成本優勢也將被供應鏈攤平。
VLA掀起的新一輪競爭,不僅將決定中國車企的未來競爭地位,更可能引發整個智駕產業的重新洗牌。
01
新的門檻
如果要對VLA路線的技術優勢,做一個簡單的概述,這樣的優勢大致就是:
與傳統端到端路線相比,VLA通過用語言和文字這一中間環節,將具象化的路況、圖像,進行歸類,并進行“抽象化”,而不只是單純地對看過的數據“死記硬背”,從而讓模型能取得更好的泛化能力。
同時,在具備思維鏈(CoT)能力后,VLA模型能分解駕駛決策為邏輯連貫的中間步驟,增強決策邏輯性、系統可解釋性及泛化能力。
當人類駕駛員面對突發路況時,會本能地完成"觀察→判斷→動作"的連貫認知過程。
![]()
VLA(視覺-語言-動作模型)正是通過模擬這一邏輯,構建起“視覺感知-語言推理-動作輸出”的閉環系統,實現對幾十秒長時序路況的預判能力,尤其在施工路段等長尾場景中展現出更強的泛化能力。
然而,由于多了“語言”這一層數據,VLA 對算力與數據的胃口,已把“上車”門檻抬高到傳統方案無法企及的高度。算力側,訓練端需吞吐 22 T token 級多模態數據,單次訓練即等價于 DeepSeek-V3 1.5 倍規模;
數據側,VLA 需同步采集并標注視覺-語言-動作三元組,理想訓練所用的數據,90 % 來自 29.3 億 km 實車日志,10 % 由生成式仿真補足,長尾極端場景(雨夜、施工、異形障礙物)需額外 5-10 倍數據密度才能收斂,導致單車數據成本與端到端時代相比陡然增加。
在算力方面,理想、小鵬分別動用 13 EFLOPS 與 8 EFLOPS 云端集群,僅千卡周級調度才能滿足 30 B-72 B 參數模型的收斂窗口。公開數據顯示,國內中小車企云端訓練集群普遍停留在 0.2–0.6 EFLOPS,僅為理想 5.39 EFLOPS 的十分之一,更遑論特斯拉 Dojo 年底 100 EFLOPS 的量級。
以哪吒為例,其烏蘭察布 GPU 集群峰值 180 PFLOPS,尚不足以在 30 天內完成一次 7 B 參數 VLA 模型收斂;若租用公有云,按當前 A100/H100 現貨價折算,單次訓練即需 1.2–1.5 億元人民幣,相當于其 2024 年全年研發預算的 40 %。
這意味著,VLA 的量產落地是“千卡訓練云+千 TOPS 車端+千億級數據”三線并進的極限工程,任何一環缺口都會把 ROI 拉成負值。
對于年銷量僅十余萬輛的中小車企而言,如此高昂的投入難以通過規模化攤薄,且失敗風險高企。正如元戎啟行CEO周光指出,一家智駕公司需交付10萬輛級量產車,才具備搭建VLA架構的基本數據基礎。
更重要的是,從規則時代到 VLA 的躍遷并不是一次可折疊的跨越,而是一段必須在工程實踐中逐級“淬火”的鏈式反應。
02
行業洗牌
在VLA路線所需的高昂成本面前,中小車企面臨的生存困境愈發明顯,除了算力與數據方面的差距外,從規則時代到端到端1.0積累的先發優勢構建的技術護城河,也是多數二線品牌難以復現的關鍵環節。
最初,規則算法用顯式代碼與人工先驗,把駕駛任務拆解為可驗證的模塊,給團隊留下可解釋、可追責的體系化思維與場景分類框架;
進入端到端 1.0 后,系統首次用大規模標注數據替代人工規則,逼迫組織完成數據閉環、工具鏈、DevOps 的原始積累,同時暴露出長尾場景對數據密度的極端需求;
最終在邁向 VLA 時,團隊需要把前兩階段沉淀的工程學積累整體遷移到新框架里,才能形成“視覺—語言—行動”的高度統一。
![]()
理想汽車李想也曾直言,若企業連規則算法都做不好,則根本無從知曉如何訓練VLA模型。
在這樣的差距下,VLA路線的降臨,無疑會讓行業迎來一次“大洗牌”。中低端車企、品牌,要么難以在新時代生存,要么只能淪為“方案外購者”,或成為車企的富士康”,成為低端代工,利潤被芯片廠和算法公司兩頭吃。
在端到端1.0時代,雖然絕大多數中低端車在“數據-模型-芯片”三件套中,極少能完全自研,本質上是“拼積木”式集成。
但過去車企可以掏錢買 Orin、買算法、買標注,大家都能活得不錯。
例如哪吒、零跑、寶駿等普遍采用英偉達 Orin-X 或地平線征程 5 的“公版域控”;數據方面,零跑 C10 的 2.1 億公里有效里程中,60 % 標注任務由 Momenta、覺非科技完成;
但是到了端到端2.0時代,“外包式生存”在 2.0 時代被上游供應商自己“關門”了——由于VLA路線導致的算力、數據成本驟增,現在這三樣變成了“限量款”,而且限量權掌握在極少數巨頭手里。
例如英偉達今年首批Thor-U的40 萬片產能,早已被理想、蔚來、小鵬在 2024 年就簽完長期鎖價鎖量協議,拿走 32 萬片,只留 8 萬片現貨需要溢價 30 % 競拍。
![]()
原本“誰掏錢誰就能買到”的開放供應鏈,在 2025 年因為芯片缺貨、模型架構改變導致的算法改捆綁、被壓縮成“少數玩家內部閉環”,中小車企連“買方案”這條退路都被截斷。
再此情況下,中小車企面臨的生存困境愈發明顯,當頭部企業通過"芯片-數據-模型"的閉環能力構建起技術壁壘時,中小車企便陷入一個死循環:買芯片沒配額,買模型要持續分成,攢數據沒錢也沒人。
中小車企唯一還能做的,就是融入供應鏈,把整車制造、沖壓焊接、總裝測試這些傳統環節做到極致良率和極致成本——這正是富士康在手機行業扮演的角色。
03
頭部之變
盡管現在的VLA模型十分火熱,但在智駕方面,并不是所有車企都認可這一路線。
除了VLA路線,目前華為和蔚來主推的是另一條路線:世界模型(WA)。其核心思路,是“海量使用云端模擬的數據、來讓大模型‘理解’世界而學會駕駛”。
例如華為的World Action Model模型(WA),用擴散生成模型批量“造”Corner case,
也就是通過AI生成的大量的視頻案例,來讓模型明白何為物理規則。
![]()
而蔚來的NIO World Model(NWM),則通過將激光雷達+視覺壓縮成 3D token;再通過自回歸模型一次推演 5 秒后的多幀場景,從而“想象”出從未見過的路況。
而WA與VLA兩條路線的區別,或許可以概述為:世界模型是“理想主義的未來豪賭”,VLA是“實用主義的當下生存”。
但在華為看來,語言模型擅長文本推理,卻缺乏對三維空間的精確感知與運動推演能力。
而車,畢竟是在真實空間中運動的物體,毫厘之差可能就意味著風險。
唯有讓模型真正理解物理規則,才能從根本上解決端到端模型“只會模仿、不會思考”的瓶頸。
但盡管世界模型看上去更“終極”,但VLA這條更“務實”的路線,對理想、小鵬等車企來說,仍然有著“改命”的意義。
![]()
一方面,2024 年理想以 50 萬輛交付量登頂新勢力,但單車毛利率從 21.5% 下滑至 19.8%,增程市場被華為、蔚來、小鵬全面圍剿(如華為問界 M8、蔚來樂道直指 L7/L8)。對理想來說,冰箱彩電大沙發已不再亮眼,必須用智能化重新定義產品。
而小鵬目前在純電市場追趕比亞迪、特斯拉,其正在推進的機器人也需要通用 AI 基座。小鵬選擇 VLA 混合架構,本質是“一箭雙雕”:其72B 云端基座模型,本質是 VLA 的超大型版本,既服務汽車,也為將來的機器人鋪路。
對二者來說,VLA 是“唯一能把長尾一口氣吃掉”的可行框架,并且,理想、小鵬積累的數據密度已經足夠讓 VLA 越過“冷啟動死亡谷”,這是后來者無法復制的壁壘。
從市場的角度看,雖然華為與 Momenta 已占據 2025 年智駕市場 90% 份額。這樣的雙寡頭地位難以撼動。且華為現在的智駕地位,靠的不是單模型大小、強弱,而是“數據 + 軟硬一體 + 車廠”綁定三位一體的護城河。
然而,VLA大模型的普及,會顯著改變競爭格局,形成技術路線分化、市場份額重組。
傳統智駕模型是:你給多少場景、多少樣本,模型就記住多少,每新增一個少見場景都得補數據。華為在這層面確實通過規模碾壓了競爭對手。
但是 VLA 模型不同。它的魔力在于多模態學習和推理能力——一方面通過“視覺 + 語言 + 行為”三種輸入,讓模型“理解”得更深刻,不只是記住,而是學會類人推理;這使理想、小鵬等車企,在長尾場景上也能獲得接近華為的表現。
所以,在新一輪的智駕競爭中,現有的格局不會立刻翻盤,但 VLA 已經打開了一個新的窗口。
可以說,隨著新一輪技術升級的到來,中小車企的危局,以及頭部之間差距的縮小,將成為一種愈發顯著的趨勢。
2025年既可能華為、特斯拉的“巔峰時刻”,也可能是理想、小鵬等VLA實踐者的“逆襲元年”。
在這場智能主權的爭奪中,只有那些率先突破核心壁壘、構建差異化優勢的企業,才能最終殺出重圍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.