網易首頁 > 網易號 > 正文申請入駐

Andrej Karpathy回應強化學習之父Sutton最新觀點「LLM是“死路一條”」

2025-10-02 08:06:35　來源: AI寒武紀

江蘇舉報

分享至

國慶節快樂！大家從sora 2的震驚中緩過來沒？

前幾天我寫了一篇文章，介紹了圖靈獎獲得者，強化學習之父Richard Sutton最新采訪觀點，老爺子認為當前熱門的大語言模型是“死路一條”。他的核心觀點是，LLMs 的架構從根本上缺乏從實際互動（on-the-job）中持續學習的能力。無論我們如何擴大其規模，它們本質上仍然是在模仿人類數據，而不是通過與世界直接互動來理解世界并實現目標，老爺子的作為大神和先驅思考都是終極問題，就像老爺子自己說的他是古典主義者。詳細請看我之前的文章

今天AI大神Andrej Karpathy分享了他對 Sutton老爺子觀點的看法，總體上Karpathy認同老爺子對當前LLM研究的批評，并且認為老爺子的觀點有趣且具有啟發性，但當前的LLM更像是一個向現實妥協的東西，Karpathy對此進行了詳細解讀，并提出了一個比喻：當今的LLM研究并非在創造“動物”，而是在召喚“幽靈“，至于如何理解“動物”和“幽靈“且看下文分解，哈哈

Andrej Karpathy首先點明了一個背景：Sutton的“苦澀教訓”（The Bitter Lesson）一文，如今已成為前沿LLM圈子里的“圣經”。研究者們會經常討論某個方法或想法是否足夠“bitter lesson pilled”（意即一個方法能夠隨著算力的增加而自然受益），以此作為判斷其是否有效或值得追求的依據

這背后的基本假設是，LLM本身就是“苦澀教訓”的絕佳范例——看看LLM的縮放定律（scaling laws）就知道了，只要把算力放在X軸上，性能指標就會一路向右上角增長

然而，有趣的是，Sutton本人作為理論的提出者，卻并不確定LLM是否真的符合“苦澀教訓”

Sutton指出，LLM是在巨型數據集上訓練的，而這些數據本質上是人類數據，這意味著它有兩個特點：1）由人類生成；2）數量有限。當數據耗盡時該怎么辦？如何避免人類偏見？

這就很有趣了：信奉‘苦澀教訓’的LLM研究者們，貌似被‘苦澀教訓’的作者本人給打臉了

Sutton老爺子的“古典主義”愿景：構建“兒童機器”

Karpathy分析，在某種意義上，采訪老爺子的Dwarkesh（代表LLM研究者觀點）和Sutton有點雞同鴨講。因為Sutton心中有一個完全不同的AI架構，而LLM打破了其許多原則

Sutton稱自己為古典主義者，并援引了艾倫·圖靈最初構建“兒童機器”的構想——一個能夠通過與世界動態互動、從經驗中學習的系統

在這個構想中，沒有模仿網頁內容的巨型預訓練階段。也沒有監督微調，Sutton指出這在動物界是不存在的（這是一個微妙但正確的觀點：動物可能會觀察演示，但它們的行為不會被其他動物直接強行控制或遙控操作）

Sutton還強調了一個重要觀點：即使你只是將預訓練視為強化學習微調之前的先驗知識初始化，這種方法也已經被人類偏見所“污染”，從根本上偏離了軌道。他以AlphaZero（從未見過人類棋局）擊敗AlphaGo（從人類棋局中初始化）為例

在Sutton的世界觀里，AI的一切都源于與世界的強化學習互動。獎勵函數部分來自環境，部分是內在驅動的，例如“樂趣”、“好奇心”，以及與世界模型預測質量相關的因素。并且，智能體在測試時默認是始終在學習的，而不是訓練一次就部署

總的來說，Sutton更關心我們與動物界的共同點，而非我們與它們的區別。他有名言：“如果我們理解了一只松鼠，那我們幾乎就大功告成了。”

Karpathy的觀點：預訓練是我們蹩腳的進化

對于Sutton的觀點，Karpathy分享了自己的看法

首先，他認為Sutton的批評并非毫無道理。當前的前沿LLM確實是高度復雜的產物，每個階段都充滿了人性的參與——基礎（預訓練數據）是人類文本，微調數據是人類策劃的，強化學習的環境組合也是由人類工程師調整的

我們確實沒有一個真正單一、干凈、完全符合“苦澀教訓”、可以“一鍵啟動”并讓其從純粹的經驗中自動學習的算法

那么，這樣的算法存在嗎？

Karpathy提到了兩個常被用來證明其可能性的范例：

第一個是AlphaZero的成功。它完全從零開始，沒有任何人類監督就學會了下圍棋。但圍棋的環境過于簡單和封閉，很難將其類比到混亂的現實世界。在算法和分類學上，它本質上只是一個更難的井字游戲

第二個例子是動物，比如松鼠。對此，Karpathy個人也持保留態度。因為動物的產生是通過一種與我們在工業界實際可用的計算過程和約束截然不同的方式

動物的大腦在出生時遠非一張白紙。首先，很多通常被歸因于學習的東西，在他看來更像是“成熟”。其次，即使是明確屬于“學習”而非“成熟”的部分，也更像是在一個強大預設基礎上的“微調”

他舉例說：一頭小斑馬出生后幾十分鐘內，就能在稀樹草原上奔跑并跟隨母親。這是一個高度復雜的感官-運動任務，Karpathy認為這絕不可能是在“白板一塊”的基礎上從零開始實現的。動物大腦及其數十億參數，其強大的初始化信息被編碼在DNA的ATCG序列中，并通過進化的“外循環”優化進行了訓練。如果小斑馬像一個隨機初始化的強化學習策略那樣亂動肌肉，它根本活不長

由此類比，我們現在的AI也擁有數十億參數的神經網絡。這些參數同樣需要豐富、高信息密度的監督信號。我們不可能重新運行一次進化。但我們確實擁有堆積如山的互聯網文檔

Karpathy承認，這基本上是動物界所沒有的監督學習。但它是一種實用的方法，可以為數十億參數收集足夠的軟約束，從而避免從零開始

他給出了一個精辟的總結：“預訓練是我們蹩腳的進化（Pretraining is our crappy evolution）。” 它是解決冷啟動問題的一個候選方案，之后再通過更正確的框架（如強化學習）進行微調——這正是當前最先進的LLM實驗室普遍在做的事情

召喚”幽靈”，而非創造“動物”

Karpathy認為，我們仍然值得從動物身上汲取靈感。LLM智能體在算法上仍然缺少許多可以從動物智能中借鑒的強大思想。同時，“苦澀教訓”仍然是正確的，但他更將其視為一個值得追求的柏拉圖式理想，而非在現實世界中必然能達到的目標。

這就引出了我們目前的處境。

Karpathy直言，今天的前沿LLM研究，并非在創造“動物”，而是在召喚幽靈

你可以將“幽靈”視為智能空間中一種截然不同的存在。它們被人類性所混雜，并被人類徹底地工程化。它們是一種不完美的復制品，一種人類文檔的統計蒸餾，外加一些點綴

它們并非柏拉圖式的“苦澀教訓”產物，但與之前的許多方法相比，或許可以算是“實踐上”的“苦澀教訓”產物

Karpathy推測，隨著時間的推移，我們或許可以進一步微調我們的“幽靈”，讓它們越來越像“動物”；這可能不是根本性的不兼容，而只是智能空間中的初始化問題

但同樣很有可能的是，它們會進一步分化，最終變得永久不同、不像動物，但仍然極具幫助并能真正改變世界

這可能是：幽靈之于動物，如同飛機之于鳥類。

最后，Karpathy總結道，Sutton的這期播客對于前沿LLM研究人員來說是一次扎實的“real talk”，他們可能過于沉浸在“利用模式”（exploit mode）中了。我們可能還不夠遵循“苦澀教訓”，很有可能存在比窮盡地構建和優化基準測試更強大的思想和范式。

而動物，或許就是一個很好的靈感來源。比如：內在動機、樂趣、好奇心、賦能、多智能體自我博弈、文化等等。這需要我們發揮想象力

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.