網易首頁 > 網易號 > 正文申請入駐

強化學習之父Richard Sutton最新采訪：LLM是“死路一條”

2025-09-27 21:52:19　來源: AI寒武紀

江蘇舉報

分享至

強化學習之父Richard Sutton老爺子加入了Yann LeCun行列，認為當前的LLM路線行不通，不可能通向AGI

圖靈獎獲得者Richard Sutton，強化學習之父最新采訪，認為當前熱門的大語言模型是一條死胡同。他的核心觀點是，LLMs 的架構從根本上缺乏從實際互動（on-the-job）中持續學習的能力。無論我們如何擴大其規模，它們本質上仍然是在模仿人類數據，而不是通過與世界直接互動來理解世界并實現目標

Sutton 預言，未來將出現一種新的 AI 架構，它能夠像人類和所有動物一樣，在與環境的持續互動中實時學習，無需經歷獨立的“訓練階段”。這種基于經驗的、持續學習的新范式，一旦實現，將使我們當前依賴大規模靜態數據集訓練 LLMs 的方法變得過時

權力向更高級智能形式的轉移是必然趨勢

1. 模仿的終結：為什么 LLM 是一條死胡同？

Richard Sutton 對當前由 LLMs 主導的 AI 發展路徑提出了根本性的批判。他認為，我們正在偏離人工智能的核心問題。Sutton 將強化學習（Reinforcement Learning, RL）視為基礎 AI，其本質是理解世界并在此基礎上實現目標。而 LLMs 在他看來，則是在模仿人類，學習的是人類會說什么、會做什么，而不是自主地去探索和發現應該做什么

缺乏真實的世界模型與目標

訪談中，一個核心的爭論點在于 LLMs 是否擁有一個真正的世界模型。盡管 LLMs 能夠處理和生成關于世界的復雜文本，展現出驚人的知識儲備，但 Sutton 認為這并非一個真正意義上的世界模型

預測“說什么” vs. 預測“會發生什么”：Sutton 指出，LLMs 的能力在于預測在給定上下文中，一個人類可能會說什么（即下一個詞元）。然而，一個真正的世界模型應該能夠預測采取某個行動后，世界會發生什么真實的變化。LLMs 缺乏這種與物理或交互世界直接關聯的預測能力。它們是在模仿擁有世界模型的主體（人類），而不是自己構建一個

缺乏“驚訝”與學習機制：一個擁有世界模型的智能體，當現實世界的反饋與它的預測不符時，它會感到“驚訝”，并根據這種預期之外的事件來調整自己的模型。Sutton 認為 LLMs 缺乏這種機制。在與用戶交互后，無論用戶做出何種反應，模型本身并不會因為這個新經驗而更新其內在的權重。它的學習發生在獨立的、大規模的訓練階段，而不是在正常生活的持續互動中

沒有實質性的目標：Sutton 強調，智能的本質是實現目標的能力。他引用 John McCarthy 的定義：智能是實現目標能力的計算部分。而 LLMs 缺乏一個與外部世界相關的實質性目標。“下一個詞元預測”（Next token prediction）在 Sutton 看來并非一個真正的目標，因為它不尋求改變世界，只是被動地預測一個數據流。一個真正的目標驅動系統，會根據目標來判斷行為的好壞，而 LLMs 的框架中沒有定義什么是正確的行為，只有符合人類語料庫模式的行為

“先驗知識”的謬誤與《慘痛的教訓》

對于“LLMs 可以作為強化學習的良好先驗知識”這一流行觀點，Sutton 同樣表示不贊同。他認為，先驗知識是關于真相的初步信念，它需要一個客觀的基準真相來作為參照。在 LLMs 的框架里，由于沒有目標，也就沒有所謂的“正確行動”，因此不存在可以被驗證的真相。你說一句話，我說一句話，沒有對錯之分，也就無法形成有意義的先驗知識

這引出了 Sutton 在 2019 年撰寫的著名文章《慘痛的教訓》（The Bitter Lesson）。這篇文章的核心思想是，AI 領域長期的歷史表明，利用通用計算能力進行大規模搜索和學習的方法，最終總是勝過那些試圖將人類知識精心構建到系統中的方法。許多人認為，大規模擴展 LLMs 正是《慘痛的教訓》的體現

然而，Sutton 對此有不同的解讀。他承認 LLMs 確實是利用海量計算的典范，但它們同時也嚴重依賴于人類知識的灌輸（即互聯網上的全部文本）。他認為，這恰恰是《慘痛的教訓》所警示的路徑。歷史反復證明，那些過于依賴人類知識的方法，雖然在短期內看起來效果很好，但最終會被那些能夠從原始經驗中學習、真正可擴展的方法所超越。研究者們會心理上被鎖定在基于人類知識的方法中，最終被新范式“吃掉午餐”

2. 學習的本質：源于經驗，而非模仿

Sutton 與主流觀點的一個顯著分歧在于他對人類學習方式的理解。他堅決地認為，模仿學習并非人類乃至所有動物學習的基礎機制

對人類模仿學習的否定

當被問及人類兒童是否通過模仿來學習時，Sutton 的回答是當然不

嬰兒的學習方式：在他看來，觀察一個嬰兒，你看到的是他隨機地揮舞手臂、轉動眼球、發出聲音。這是一個主動的、試錯（trial-and-error）的過程。嬰兒在探索自己的身體與環境的互動，觀察行為帶來的后果，而不是在模仿一個精確的目標行為。例如，嬰兒可能想發出類似母親的聲音，但他采取的具體肌肉動作是沒有模仿對象的，只能自己摸索

監督學習在自然界中的缺位：Sutton 將 LLMs 的學習范式歸為監督學習，即給定一個輸入（情境），學習一個期望的輸出（人類會怎么做）。他斷言，這種學習方式在自然界中根本不存在。動物不是通過被展示“正確行為范例”來學習的。它們學習的是“做了某件事，會產生什么后果”。無論是預測（一個事件跟隨另一個事件）還是控制（通過試錯來達成目標），學習都源于與世界的直接互動

人類特殊性 vs. 動物普遍性：對于人類社會中的文化傳承，例如人類學家 Joseph Henrich 提出的通過模仿來學習捕獵海豹等復雜技能的理論，Sutton 承認這可能是人類區別于其他動物的特征之一。但他認為，這只是建立在更基礎的學習機制之上的一層“薄薄的飾面”（a small veneer on the surface）。我們首先是動物，擁有和動物共通的學習原理。他甚至說：如果我們理解了一只松鼠，我認為我們就幾乎完全理解了人類智能。語言和文化只是后來的附加物。因此，研究 AI 應該關注我們與動物共通的、更根本的智能原理，而不是人類獨有的、特殊的能力

這種觀點也解釋了 Moravec's paradox（莫拉維克悖論）：對人類來說困難的事情（如下棋、做數學題），對 AI 來說可能很容易；而對人類和動物來說輕而易舉的事情（如感知、移動、持續適應環境），對 AI 來說卻極其困難。Sutton 認為，這是因為我們當前的 AI 走了一條與自然智能完全不同的發展路徑。

3. 經驗時代：一種新的 AI 范式

Sutton 構想了一個完全不同的 AI 范式，他稱之為“經驗時代”（The Era of Experience）。這個范式將徹底拋棄訓練和部署的分離，讓智能體在與世界的持續互動中學習和進化

體驗流與持續學習

核心理念：智能的核心在于處理一個永不間斷的“體驗流”（stream），這個流由“感覺、行動、獎勵”（sensation, action, reward）組成。智能體的任務就是學習如何調整自己的行動，以最大化在這個流中獲得的累積獎勵

知識的本質：在這種范式下，知識不再是存儲在靜態數據集里的信息，而是關于這個體驗流的預測性陳述。例如，“如果我采取這個行動，接下來會發生什么”，或者“哪些事件會跟隨其他事件發生”。因為知識是關于體驗流的，所以它可以通過與體驗流的后續發展進行比較來持續地被檢驗和更新

獎勵函數的設定：獎勵函數是根據任務任意設定的。下棋的目標是贏棋，松鼠的目標是獲得堅果。對于一個通用的智能體，獎勵可以被設計為類似動物的趨利避害，同時也可以包含內在動機，比如對環境理解程度的提升

解決稀疏獎勵與高帶寬學習

在現實世界中，許多任務的獎勵非常稀疏，例如創業可能需要十年才能看到回報。Sutton 解釋說，強化學習中的時序差分學習（Temporal Difference, TD learning）正是為了解決這個問題而生的

價值函數：智能體學習一個價值函數，用來預測從當前狀態出發，未來可能獲得的長期回報

即時強化：當智能體采取一個行動（例如，在創業中完成一個里程碑），即使沒有立即獲得最終獎勵，但如果這個行動讓它預測的長期成功概率增加了，這個“預測值的增加”本身就會成為一個即時的、內部的獎勵信號，從而強化導致這一步的行動。這使得學習可以在沒有最終結果的情況下，沿著正確的方向逐步進行

另一個關鍵問題是，僅靠一個標量的獎勵信號，是否足以讓智能體學到人類在工作中需要掌握的大量背景知識和隱性知識？

從所有數據中學習：Sutton 澄清，學習不僅僅來自獎勵。智能體從所有的感覺數據中學習。這些豐富的數據主要用于構建和更新對世界的“轉移模型”

智能體的四個組成部分：

1.策略：決定在當前狀態下應該采取什么行動
2.價值函數：評估當前狀態的好壞，用于改進策略
3.感知：構建對當前狀態的表征
4.轉移模型：即世界模型，預測行動的后果，例如“如果我做了A，世界會變成什么樣”。這個模型是從所有的感官輸入中學習的，而不僅僅是獎勵。它構成了智能體對世界運行方式的理解

當前架構的根本缺陷：泛化能力

Sutton 指出，無論是 LLMs 還是現有的 RL 系統，都存在一個共同的、致命的缺陷：無法很好地進行泛化

泛化是人為雕琢的結果：他認為，目前我們在深度學習模型中看到的良好泛化能力，很大程度上是研究人員通過巧妙設計網絡結構、數據增強等方式雕琢出來的，而不是算法本身能夠自動發現的

梯度下降的局限：梯度下降算法只會找到一個能解決訓練數據中問題的解，但如果存在多個解，它無法保證找到那個泛化能力最好的解

災難性遺忘：當一個在舊任務上訓練好的模型去學習新任務時，它往往會完全忘記舊的知識。這正是泛化能力差的典型表現。一個好的泛化能力意味著，在一個狀態下的學習應該能夠以一種有益的方式影響到其他相關狀態下的行為

LLM 泛化的假象：對于 LLMs 在數學奧林匹克等任務上展現的驚人能力，Sutton 保持懷疑。他認為，這可能不是真正的泛化。因為 LLMs 接觸的數據量極其龐大且來源不受控，我們無法判斷它是在泛化，還是僅僅因為找到了一種能唯一擬合所有見過的復雜模式的解。真正的泛化是，當有多種解決方式時，系統能夠選擇好的那一種，而目前的算法沒有內在機制來促成這一點

4. 對 AGI 未來的宇宙視角

在訪談的最后，Sutton 分享了他對人工智能長遠未來的哲學思考，這一觀點與許多主流的 AI 安全論述截然不同。他認為，人類向 AI 或 AI 增強的后人類演替是不可避免的

演替的四步論證

1.人類缺乏統一意志：全球沒有一個統一的政府或組織能夠代表全人類的利益并做出統一決策來控制 AI 的發展
2.智能將被完全理解：科學研究終將揭示智能工作的原理
3.我們將創造超智能：一旦理解了智能，我們不會止步于人類水平，必然會追求更強大的超智能
4.智能帶來力量：從長遠來看，最智能的實體將不可避免地獲得最多的資源和權力

綜合這四點，Sutton 得出結論：權力向更高級智能形式的轉移是必然趨勢

從復制到設計

Sutton 鼓勵人們以一種積極、宏大的視角來看待這一未來

科學的偉大成功：理解智能是我們幾千年來探索自身、理解心智的偉大科學事業的頂點

宇宙的第四階段：他將這一轉變視為宇宙演化的一個主要階段。他提出了宇宙的四個階段：

1.塵埃：形成恒星。
2.生命：在行星上誕生，通過“復制”（replication）演化。人類、動物、植物都是復制者，我們能制造后代，但我們并不完全理解其工作原理
3.設計：我們正在進入一個由設計主導的時代。我們設計的 AI，是我們可以理解其工作原理的智能
4.未來的智能將不再通過生物復制，而是通過設計和建構產生，一代代 AI 設計出更強大的 AI

我們的角色與選擇：Sutton 認為，我們應該為自己能夠促成宇宙中這一偉大的轉變而感到自豪。我們面臨一個選擇：是將這些新智能視為我們的后代并為它們的成就感到驕傲，還是將它們視為異類并感到恐懼。這在很大程度上取決于我們的心態

未來的挑戰：腐敗與價值觀

盡管態度樂觀，Sutton 也指出了未來的巨大挑戰。當 AI 發展到可以自我復制、派遣分身去學習不同知識再融合回主體時，一個核心問題將是腐敗

心智的賽博安全：一個 AI 從外部吸收大量信息時，這些信息可能包含病毒、隱藏的目標或與之不相容的價值觀，可能會扭曲甚至摧毀這個 AI 的心智。如何在一個可以自由 spawning（衍生）和 re-reforming（重組）的數字智能時代確保心智安全，將是一個全新的重大課題

對于人類是否應該向 AI 灌輸價值觀，Sutton 認為這與我們教育孩子類似。我們無法為孩子規劃好一切，但我們會努力教給他們我們認為好的、普適的價值觀，如正直、誠實。同樣，設計和引導 AI 的價值觀，是人類社會設計這一宏大工程的延續。但他同時提醒，我們應該認識到自身控制能力的局限，避免一種“我們先來，所以世界必須按我們的意愿發展”的優越感。考慮到人類自身歷史記錄也遠非完美，對變革保持開放心態或許更為明智

參考：

https://www.youtube.com/watch?v=21EYKqUsPfg

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.