![]()
過去十年,深度學習模型的規模從上百萬參數的卷積網絡擴展到上千億參數的大語言模型,性能突飛猛進。然而,我們對這些模型為何有效仍缺乏系統性的理解。一個關鍵但常被忽視的原因在于:在神經網絡中,存在大量 “不同卻等價” 的參數配置 —— 它們實現相同的模型函數,卻讓優化與泛化的分析變得格外復雜。
近日,加州大學圣地亞哥分校與美國東北大學的研究人員發布了一篇綜述,系統梳理了這一現象背后的數學結構:神經網絡參數空間中的對稱性(parameter space symmetry)。這篇長達三十頁的論文揭示了對稱性如何塑造損失地形、影響優化與訓練動力學,并為理解深度學習提供了一個統一的幾何視角。
![]()
- 論文鏈接:https://arxiv.org/abs/2506.13018
- 作者主頁:https://b-zhao.github.io/
什么是參數空間對稱性?
在一個神經網絡中,不同的參數組合可能產生完全相同的輸出。最直觀的例子是神經元置換:交換隱藏層中兩個神經元及其對應的輸入 / 輸出權重,網絡實現的函數不變。
![]()
圖1置換對稱:交換隱藏層兩個單元及其關聯權重,函數保持不變
這類保持函數不變的參數變換,被稱為參數空間對稱性 (parameter space symmetry)。
數學上,它是一組使損失函數 L (θ) 保持不變的變換 g,即 L (g ? θ) = L (θ)。這些變換構成一個群 (group),并在參數空間中定義了等價軌道 (orbit):同一軌道上的參數都表示同一個模型函數。這個視角為理解極小值的連通性、平坦性與優化動態提供了統一語言。
除了離散的置換對稱外,幾乎所有常見的神經網絡架構都還具有連續對稱性:
- ReLU 網絡與 BatchNorm / LayerNorm 等歸一層具有正縮放對稱;
- 線性層和注意力機制具有一般線性(GL)對稱;
- Softmax 函數具有平移對稱;
- 其他結構(如徑向激活函數、RBF 網絡)也呈現出旋轉或尺度類對稱。
![]()
圖 2 (左)ReLU 的縮放對稱:對輸入權重與偏置按對角矩陣 g 縮放,同時將輸出權重乘以 g 的逆矩陣,函數保持不變。(右)自注意力的一般線性對稱:鍵 (WK) 與查詢 (WQ) 的線性變換 g 可以互相抵消,輸出結果不變。
更重要的是,復雜的現代架構,如 Transformer,其對稱性是其各組件對稱性的組合。例如,多頭注意力機制同時具有每個頭內部的廣義線性對稱性、頭之間的排列對稱性,以及與輸出投影層相關的另一組線性對稱性。
從平坦極小值到模式連通性:對稱性如何塑造損失地形
對稱性讓優化空間既復雜又有規律。
連續對稱性(如縮放)會將一個孤立的極小值點 “拉伸” 成一個連續、平坦的極小值流形。沿著這個流形移動,損失值保持不變。這意味著網絡的許多平坦方向并非來自更好的泛化,而是由結構對稱性決定的。因此,傳統用平坦度衡量泛化能力的指標需要謹慎解讀。
另外,實踐中觀察到的 “模式連通性”—— 即獨立訓練得到的模型往往能通過低損耗路徑連接 —— 其背后也部分源于連續對稱性。對稱性天然地在參數空間中創造出連接功能等價參數的連續路徑,從而解釋了模型融合(model fusion)為何能有效。
![]()
圖 3 連續對稱性與平坦極小值:不同的參數 θ,g1 ? θ,g2 ? θ 具有相同的損失值,構成一條由對稱變換生成的平坦軌跡。
離散對稱性(如神經元置換)則會在參數空間的不同位置復制出大量功能完全相同的極小值 “副本”。這使損失地形更加復雜,其極小值的數量隨網絡寬度呈階乘級增長。
從幾何到算法:利用對稱性的優化方法
在對稱群的作用下,即使兩組參數具有相同的損失值,它們的梯度方向和大小也可能不同(圖 4 左)。這意味著,即使兩組參數在函數意義上等價,它們的訓練軌跡仍可能完全不同(圖 4 右)。
![]()
圖 4 相同的損失值可能對應著不同的梯度和訓練軌跡
這種 “等損失、不同梯度” 的現象為算法設計帶來了新的可能。部分優化方法嘗試在等價軌道中主動尋找梯度更優的點,以加快收斂或改善最終解的性質(圖 5 左);另一些方法則追求對稱不變性,讓優化結果對初始點的等價變換不敏感(圖 5 右)。
![]()
圖 5 兩類應用對稱性的優化算法
前者將對稱性視為可用的自由度,后者將其作為應被約簡的冗余。無論哪種思路,都表明對稱性是理解和改進優化算法的重要線索。
從對稱到守恒:學習動力學的新理解
連續對稱性往往對應著守恒量(conserved quantities)—— 類似物理中的諾特定理。
在梯度流(gradient flow)中,對稱性使得某些量在訓練過程中保持恒定。例如,線性網絡中相鄰層的 Gram 矩陣差、ReLU 網絡中輸入輸出權重的范數差。
這些守恒量揭示了訓練過程的穩定性,也幫助解釋優化的隱式偏置(implicit bias):
不同的初始化對應不同的守恒量值,進而影響最終的收斂點和泛化性能。也就是說,參數空間的對稱結構決定了學習軌跡與結果的統計分布。
![]()
圖 6 對稱性與守恒量的關系。(左)對稱方向與守恒量的梯度 ?Q 都與 ?L 正交,位于損失水平集的切平面上。(右)守恒量在訓練中保持不變,從而為梯度流軌跡與最終極小值提供了參數化坐標。
跨空間的聯系:參數、表征與數據中的對稱
參數空間中的對稱性并非孤立存在,而是與數據空間和內部表征空間的對稱緊密相連。
當數據分布本身具有某種對稱性(如旋轉、平移或翻轉)時,訓練得到的模型參數往往會繼承并反映這些結構。
此外,在 “權重空間學習”(Weight Space Learning)等新興方向中,神經網絡參數本身被作為輸入數據。此時,對稱性成為新的 “數據結構”,支持了等變元網絡(equivariant meta-network)在模型性質分析和生成中的廣泛應用。
![]()
圖 7 對稱不變與對稱等變的元網絡:等變元網絡可直接在模型權重上進行學習,被用于在預測模型的泛化能力,學習優化中的權重更新,以及生成滿足特定特征的新模型等任務。
展望:一個正在形成的研究領域
參數空間中的對稱性廣泛存在,為深度學習提供了一種新的數學語言,將模型的復雜行為與群論和幾何中的成熟工具聯系起來。
這一視角正在影響多個領域的實踐:從加速優化與改善泛化,到模型融合、量化和采樣,再到新興的權重空間學習與生成模型設計。對稱性正在從理論概念轉化為可操作的算法原則。
當然,對稱性并非理解神經網絡的唯一路徑。但正如物理、神經科學等學科為機器學習帶來了新方法一樣,數學化的視角讓我們得以在這個完全人工的系統中尋找結構與規律,并由此開拓新的學習理論與算法思路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.