
![]()
查理·芒格說,每個成功人士都是一個永不疲倦的學習機器。
自動駕駛要進一步向L3、L4升級,同樣離不開持續不斷的學習。
在自動駕駛領域,正確的學習方式正是模仿學習和強化學習。
隨著自動駕駛算法由分模塊方案向端到端范式演變,模仿學習的概念開始浮出水面。
端到端架構的核心是用單一的模型實現傳感器輸入到控制指令及行車軌跡的直接映射,模仿學習的核心恰是以傳感器輸入作為機器學習的輸入特征,以行車軌跡作為機器學習的監督標簽,從而學習出傳感器輸入到駕駛軌跡的映射關系。
![]()
當然,從時間線上來看,模仿學習概念的誕生早于端到端方案。
早在分模塊 架構時代,決策規劃子模塊由基于規則的代碼形式向神經網絡逐漸演變之時,就在采用模仿學習的方式進行神經網絡化決策規劃子模塊的訓練。
只不過,當時的輸入是BEV、OCC特征而非原始傳感器信號。
端到端架構的出現為模仿學習提供了更加完整的數據閉環,也成為高效訓練端到端形式自動駕駛算法的核心手段。
![]()
在人工智能領域,模仿學習是一種通過觀察和模仿專家行為來學習技能的機器學習方法,在自動駕駛領域,模仿學習即自動駕駛系統在海量“傳感器輸入-行駛軌跡”數據中模仿學習人類駕駛員的駕駛行為。
![]()
模仿學習的作用體現在四個方面。
一,通過高效地利用人類駕駛經驗,減少了決策失誤,提升了系統安全;
二,模仿學習人類駕駛,更加自然、擬人化,帶給人更加舒適的體感和駕駛體驗;
三,通過多場景訓練,模仿學習可以在部分程度上適應未曾訓練過的環境,泛化能力顯著高于規則方案;
四,在數據閉環的加持下,模仿學習低成本地利用海量真實駕駛數據,顯著降低規則系統的開發成本。
![]()
正是基于這一系列優點,模仿學習成了自動駕駛系統訓練的主要手段。
佛說,萬法皆空,因果不空,由此可見,在這個錯綜復雜的人類社會和交通、金融、教育等諸多系統里,因果關系有多重。
由于缺乏環境獎勵信號和獎勵機制,模仿學習很容易因為多因交互、因果方向倒置、錯誤歸因等諸多原因而混淆了因果關系。
找不到明確、正確的因果關系,就很難找到通向成功的路徑。
所以,對自動駕駛系統訓練而言,模仿學習最大的固有缺陷就是,很難洞察人類駕駛員各種駕駛行為的因果關系和決策邏輯。
這種知其然而不知其所以然,會在很多場景下引發風險。
![]()
模仿學習的第二個缺陷是由訓練數據集偏差導致的分布偏移,這是導致模型泛化性下降的核心問題之一。
其本質在于訓練數據的特征分布、標簽關聯、數據結構等概率分布與實際場景數據的概率分布存在不一致,導致模型在訓練數據中學習到的模式無法有效地遷移到實際的場景中。
很顯然,不只是自動駕駛系統,所有AI系統都或多或少地存在分布偏移的問題,即當實際所面臨的場景是訓練數據分布外的場景時,模型的表現會顯著下降。
![]()
不過,對于依賴模仿學習的自動駕駛而言,分布偏移的問題更嚴重。
因為,自動駕駛是典型的當前動作會影響后續狀態的馬爾科夫決策過程,一旦系統中引入了微小的誤差,進入了相對于訓練數據集陌生的狀態時,自動駕駛系統誤差就會隨時間呈指數級放大。
駕駛場景和交通參與者的行為具有高度的隨機性,在存在大量長尾場景的真實駕駛環境面前,模仿學習會進一步暴露數據覆蓋不足的缺陷。
模仿學習的第三個缺陷在于被動學習人類行為,無法主動探索未知狀態空間,所以很難突破人類駕駛能力的上限。
時代在進步,社會在發展,為了克服模仿學習的缺陷,自動駕駛系統的訓練也來到了模仿學習+強化學習的混合學習階段。
針對模仿學習只能在輸入和輸出之間經過映射建立關聯卻無法準確地捕捉因果關系的缺陷,強化學習通過設計多目標獎勵函數,強制模型學習動作與結果之間的因果鏈,通過顯示建模狀態和動作之間的因果結構,過濾掉虛假的關聯。
![]()
為了解決模仿學習的分布偏移問題,強化學習利用世界模型在云端主動生成實車采集數據中未覆蓋的極端場景庫,以數據增強覆蓋長尾問題,突破模仿學習的數據覆蓋瓶頸。
![]()
至于模仿學習本質上是通過監督訓練復現人類駕駛數據中的行為模式,所以無法突破人類駕駛能力上限的問題,強化學習可以通過在世界模型建立的虛擬訓練場中反復試錯,不斷探索,優化系統決策,進而突破人類上限。
![]()
強化學習通過獎勵機制和因果推理、數據生成和增強、仿真試錯和持續探索克服了模仿學習的三大缺陷。
不過,強化學習和模仿學習之間并非非此即彼的替代關系,而是協同應用、再接再厲的合作關系。
先依靠模仿學習范式對人類駕駛軌跡數據的監督學習,快速掌握基礎駕駛能力,避免強化學習早期探索的高風險和低效率問題。
然后,基于強化學習覆蓋更多的長尾場景,并基于環境反饋和獎勵信號進行策略的優化,突破人類能力的天花板。
![]()
類比大模型訓練過程分為預訓練和后訓練兩個階段,可以認為,模仿學習進行的是預訓練,高效利用數據,并保障性能和安全的基準線。
強化學習進行的是后訓練,建構因果推理能力,突破性能的天花板。
模擬學習可以高效地實現人類駕駛行為在神經網絡系統中的復現,強化學習可以通過自主策略的優化克服模仿學習場景覆蓋不足、能力無法突破人類上限的局限。
1+1=3,基于模仿學習和強化學習的混合訓練策略正在推動自動駕駛行業邁入更美好的明天!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.