![]()
【本文翻譯自nearlyright.com】
還記得那條人人遵守的“機器學習鐵律”嗎?模型太大必然過擬合,只會死記硬背、學不到東西。這不是傳說,而是寫進教科書的定律——三個世紀以來的統計理論都這么說。
直到有一天,這條“神圣不可侵犯”的規則被打破了。
現在,擁有數千億甚至數萬億參數的神經網絡驅動著 ChatGPT,破解蛋白質結構,還引發了一場高達數千億美元的全球 AI 軍備競賽。而真正發生轉變的,不只是算力,而是我們對“學習本質”的重新理解。
這個故事揭示了一項劃時代的 AI 突破,它的誕生源自一群敢于挑戰領域基礎假設的“異端”。
300 年的偏差-方差法則,是怎么倒下的
在很長一段時間里,偏差-方差權衡(bias-variance tradeoff)被視為學習理論的基石:模型太簡單,看不到重點;模型太復雜,記住的只是噪聲。
想象一個小學生在學加法。他有兩個選擇:要么理解進位規則和位值原理,要么死記硬背所有題目和答案。后者在做作業時可能無懈可擊,但一到考試就全軍覆沒。
傳統理論認為,神經網絡尤其容易“走歪路”。參數越多,越容易記住全部訓練數據而無法泛化。于是學術界的共識變成了:模型要小巧精致,結構要嚴控,正則化必須到位。誰要是提出“加點參數”來解決問題,簡直是學術異端。
異端的反叛,撞出了“雙重下降”
但就在 2019 年,一群研究者反其道而行之。他們不僅不在模型“剛好”學會時停下,反而繼續擴大規模,一路沖向“理論高危區”。
結果呢?模型不僅沒崩塌,反而“第二次變強”。
這一現象被稱為“double descent”(雙重下降):模型先是如理論所預言地過擬合,誤差上升,但接著神奇地誤差又開始下降,仿佛它穿越了過擬合的深淵,達到了新境界。提出者 Mikhail Belkin 等人坦言,這與經典偏差-方差理論“背道而馳”。
OpenAI 后續的研究顯示,這種好處不止出現在一個模型里,而是普遍存在于不同任務和規模上。大模型不僅學得多,還開始具備“舉一反三”的能力——只看幾個例子就能學會一項新任務。
從那一刻起,整個行業徹底掉頭:Google、Microsoft、Meta、OpenAI 紛紛豪擲數十億美元,一路堆參數。GPT 模型從 1.17 億擴張到 1750 億。“模型越大越好”從昔日的笑談,變成今天的行業信條。
但問題來了:這一切,為什么行得通?
“彩票假說”:為什么大模型反而學得更好
謎底來自 MIT 的 Jonathan Frankle 和 Michael Carbin。他們研究的是“剪枝”技術——也就是在訓練之后刪掉那些沒用的權重。沒想到,他們發現了大模型的秘密。
他們發現,每一個大模型中都藏著一個“中獎小模型”(winning ticket)——一小部分神經元構成的子網絡,性能可以媲美整個大模型。他們甚至能刪掉 96% 的參數而不損失精度。換句話說,大多數參數根本沒用。
關鍵在于,這些“中獎票”只有在初始隨機權重保持不變時才有效。一旦你換了初始化方式,即便保留架構,也會一敗涂地。
于是,“lottery ticket hypothesis”(彩票假說)誕生了:大模型不是靠復雜解取勝,而是靠參數數量帶來的機會空間。每一個子網絡就是一張彩票,大部分注定落空,但參數足夠多,總有一張是贏家。
整個訓練過程,就是一場規模空前的彩票抽獎:模型里已有成千上萬個不同起點的小網絡,訓練過程挑出那張“天選之票”,其余統統淘汰。
這個觀點讓傳統學習理論與實踐奇跡和解了:大模型之所以有效,不是因為它違反了規則,而是它在一個我們原本沒意識到的層次上“玩轉了規則”。奧卡姆剃刀依然成立——最簡單的解釋才是最優的。規模只是為了更高效地找到這些簡單解。
重新定義“智能”
如果“學習”就是在廣袤的可能空間中尋找最優雅的解釋,那“智能”本身也就可以被重新定義了。
人腦有 860 億個神經元、萬億級連接,怎么看都是“過擬合怪獸”。但我們卻能憑幾個例子學會一個全新概念,并推而廣之。彩票假說指出,人腦的這種“冗余”正是為了讓你有更高的幾率抽中那個最簡潔的解法。
智能,不是記住所有答案,而是發現規律的能力。大規模參數帶來的不是儲存空間,而是搜索空間。
科學進步的本質:敢于懷疑“看似永恒”的法則
這場關于神經網絡的發現,也提供了科學哲學上的啟發:我們很多時候不是在推翻原理,而是在揭示它們運行得比我們以為的更深、更復雜。
想想大陸漂移,最初被視為荒唐,直到板塊構造解釋一切;量子力學看似不合常理,直到實驗證明一切真實存在。最深刻的進展,往往始于“敢于嘗試看起來不應該成功的事”。
彩票假說也沒有推翻傳統學習理論,而是賦予它新的維度。偏差-方差權衡還在,只是我們現在知道,它是在更高維度上發生作用。
這也意味著,當前的“大模型路線”是有效的,但也不是無限擴展的萬能鑰匙。越往后,抽中大獎的邊際收益越小。像 Yann LeCun 這樣的大牛也提醒我們,僅靠規模,語言模型也許永遠無法真正理解人類語言,因為它們缺乏根本性的架構突破。
AI 革命的真相:原來最重要的不是算力,而是懷疑精神
AI 的這次進化,不只是一次技術飛躍,更是一次思想解放。
真正帶來改變的,是那群“明知不可為而為之”的研究者。他們挑戰了教科書、質疑了公理,最終發現:所謂的規則,其實并沒有錯,只是它們的運行方式遠比我們設想得更優雅、更復雜。
在這個構建于數學確定性的學科里,最重要的突破,卻來自于對“未知”的勇敢擁抱。
【注:】
盡管“偏差-方差權衡”這一術語直到 20 世紀后半葉才逐漸標準化,但它背后的數學思想,早在18 世紀就已萌芽。1763 年,Bayes 定理為后來的統計推理奠定了基礎,使我們能夠用數據來更新信念;而Laplace在 1780 年代至 1810 年代之間的研究,則首次明確提出:模型若過于復雜,容易捕捉噪聲而非信號——必須在擬合度與簡潔性之間保持平衡。
這一思想,正是現代“偏差-方差權衡”原則的雛形。從那個時代開始,統計學就逐漸形成了這樣一種哲學:最好的模型不是記住所有細節,而是用最簡潔的方式解釋世界。
也就是說,當 AI 研究人員在 2019 年挑戰“模型越大越糟”的共識時,他們不是在反對幾百年來的統計智慧,而是在揭示這些原則在更復雜系統中依舊成立,只是以更微妙的方式運行。
本文由「AI 范兒」出品
我每天都在更新,如果你覺得這些內容對你有用,
那我們就加個關注、交個朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.