<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Andrej Karpathy回應強化學習之父Sutton最新觀點「LLM是“死路一條”」

      0
      分享至


      國慶節快樂!大家從sora 2的震驚中緩過來沒?

      前幾天我寫了一篇文章,介紹了圖靈獎獲得者,強化學習之父Richard Sutton最新采訪觀點,老爺子認為當前熱門的大語言模型是“死路一條”。他的核心觀點是,LLMs 的架構從根本上缺乏從實際互動(on-the-job)中持續學習的能力。無論我們如何擴大其規模,它們本質上仍然是在模仿人類數據,而不是通過與世界直接互動來理解世界并實現目標,老爺子的作為大神和先驅思考都是終極問題,就像老爺子自己說的他是古典主義者。詳細請看我之前的文章

      今天AI大神Andrej Karpathy分享了他對 Sutton老爺子觀點的看法,總體上Karpathy認同老爺子對當前LLM研究的批評,并且認為老爺子的觀點有趣且具有啟發性,但當前的LLM更像是一個向現實妥協的東西,Karpathy對此進行了詳細解讀,并提出了一個比喻:當今的LLM研究并非在創造“動物”,而是在召喚“幽靈“,至于如何理解“動物”和“幽靈“且看下文分解,哈哈


      Andrej Karpathy首先點明了一個背景:Sutton的“苦澀教訓”(The Bitter Lesson)一文,如今已成為前沿LLM圈子里的“圣經”。研究者們會經常討論某個方法或想法是否足夠“bitter lesson pilled”(意即一個方法能夠隨著算力的增加而自然受益),以此作為判斷其是否有效或值得追求的依據

      這背后的基本假設是,LLM本身就是“苦澀教訓”的絕佳范例——看看LLM的縮放定律(scaling laws)就知道了,只要把算力放在X軸上,性能指標就會一路向右上角增長

      然而,有趣的是,Sutton本人作為理論的提出者,卻并不確定LLM是否真的符合“苦澀教訓”

      Sutton指出,LLM是在巨型數據集上訓練的,而這些數據本質上是人類數據,這意味著它有兩個特點:1)由人類生成;2)數量有限。當數據耗盡時該怎么辦?如何避免人類偏見?

      這就很有趣了:信奉‘苦澀教訓’的LLM研究者們,貌似被‘苦澀教訓’的作者本人給打臉了

      Sutton老爺子的“古典主義”愿景:構建“兒童機器”

      Karpathy分析,在某種意義上,采訪老爺子的Dwarkesh(代表LLM研究者觀點)和Sutton有點雞同鴨講。因為Sutton心中有一個完全不同的AI架構,而LLM打破了其許多原則

      Sutton稱自己為古典主義者,并援引了艾倫·圖靈最初構建“兒童機器”的構想——一個能夠通過與世界動態互動、從經驗中學習的系統

      在這個構想中,沒有模仿網頁內容的巨型預訓練階段。也沒有監督微調,Sutton指出這在動物界是不存在的(這是一個微妙但正確的觀點:動物可能會觀察演示,但它們的行為不會被其他動物直接強行控制或遙控操作)

      Sutton還強調了一個重要觀點:即使你只是將預訓練視為強化學習微調之前的先驗知識初始化,這種方法也已經被人類偏見所“污染”,從根本上偏離了軌道。他以AlphaZero(從未見過人類棋局)擊敗AlphaGo(從人類棋局中初始化)為例

      在Sutton的世界觀里,AI的一切都源于與世界的強化學習互動。獎勵函數部分來自環境,部分是內在驅動的,例如“樂趣”、“好奇心”,以及與世界模型預測質量相關的因素。并且,智能體在測試時默認是始終在學習的,而不是訓練一次就部署

      總的來說,Sutton更關心我們與動物界的共同點,而非我們與它們的區別。他有名言:“如果我們理解了一只松鼠,那我們幾乎就大功告成了。”

      Karpathy的觀點:預訓練是我們蹩腳的進化

      對于Sutton的觀點,Karpathy分享了自己的看法

      首先,他認為Sutton的批評并非毫無道理。當前的前沿LLM確實是高度復雜的產物,每個階段都充滿了人性的參與——基礎(預訓練數據)是人類文本,微調數據是人類策劃的,強化學習的環境組合也是由人類工程師調整的

      我們確實沒有一個真正單一、干凈、完全符合“苦澀教訓”、可以“一鍵啟動”并讓其從純粹的經驗中自動學習的算法

      那么,這樣的算法存在嗎?

      Karpathy提到了兩個常被用來證明其可能性的范例:

      第一個是AlphaZero的成功。它完全從零開始,沒有任何人類監督就學會了下圍棋。但圍棋的環境過于簡單和封閉,很難將其類比到混亂的現實世界。在算法和分類學上,它本質上只是一個更難的井字游戲

      第二個例子是動物,比如松鼠。對此,Karpathy個人也持保留態度。因為動物的產生是通過一種與我們在工業界實際可用的計算過程和約束截然不同的方式

      動物的大腦在出生時遠非一張白紙。首先,很多通常被歸因于學習的東西,在他看來更像是“成熟”。其次,即使是明確屬于“學習”而非“成熟”的部分,也更像是在一個強大預設基礎上的“微調”

      他舉例說:一頭小斑馬出生后幾十分鐘內,就能在稀樹草原上奔跑并跟隨母親。這是一個高度復雜的感官-運動任務,Karpathy認為這絕不可能是在“白板一塊”的基礎上從零開始實現的。動物大腦及其數十億參數,其強大的初始化信息被編碼在DNA的ATCG序列中,并通過進化的“外循環”優化進行了訓練。如果小斑馬像一個隨機初始化的強化學習策略那樣亂動肌肉,它根本活不長

      由此類比,我們現在的AI也擁有數十億參數的神經網絡。這些參數同樣需要豐富、高信息密度的監督信號。我們不可能重新運行一次進化。但我們確實擁有堆積如山的互聯網文檔

      Karpathy承認,這基本上是動物界所沒有的監督學習。但它是一種實用的方法,可以為數十億參數收集足夠的軟約束,從而避免從零開始

      他給出了一個精辟的總結:“預訓練是我們蹩腳的進化(Pretraining is our crappy evolution)。” 它是解決冷啟動問題的一個候選方案,之后再通過更正確的框架(如強化學習)進行微調——這正是當前最先進的LLM實驗室普遍在做的事情

      召喚”幽靈”,而非創造“動物”

      Karpathy認為,我們仍然值得從動物身上汲取靈感。LLM智能體在算法上仍然缺少許多可以從動物智能中借鑒的強大思想。同時,“苦澀教訓”仍然是正確的,但他更將其視為一個值得追求的柏拉圖式理想,而非在現實世界中必然能達到的目標。

      這就引出了我們目前的處境。

      Karpathy直言,今天的前沿LLM研究,并非在創造“動物”,而是在召喚幽靈

      你可以將“幽靈”視為智能空間中一種截然不同的存在。它們被人類性所混雜,并被人類徹底地工程化。它們是一種不完美的復制品,一種人類文檔的統計蒸餾,外加一些點綴

      它們并非柏拉圖式的“苦澀教訓”產物,但與之前的許多方法相比,或許可以算是“實踐上”的“苦澀教訓”產物

      Karpathy推測,隨著時間的推移,我們或許可以進一步微調我們的“幽靈”,讓它們越來越像“動物”;這可能不是根本性的不兼容,而只是智能空間中的初始化問題

      但同樣很有可能的是,它們會進一步分化,最終變得永久不同、不像動物,但仍然極具幫助并能真正改變世界

      這可能是:幽靈之于動物,如同飛機之于鳥類。

      最后,Karpathy總結道,Sutton的這期播客對于前沿LLM研究人員來說是一次扎實的“real talk”,他們可能過于沉浸在“利用模式”(exploit mode)中了。我們可能還不夠遵循“苦澀教訓”,很有可能存在比窮盡地構建和優化基準測試更強大的思想和范式。

      而動物,或許就是一個很好的靈感來源。比如:內在動機、樂趣、好奇心、賦能、多智能體自我博弈、文化等等。這需要我們發揮想象力

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐冠積分榜形勢:拜仁阿森納全勝,巴黎皇馬遭首敗,意甲陷危機

      歐冠積分榜形勢:拜仁阿森納全勝,巴黎皇馬遭首敗,意甲陷危機

      懂球帝
      2025-11-05 06:37:14
      庫里跟偶像詹姆斯做節目,忍不住要歌頌偶像詹姆斯!

      庫里跟偶像詹姆斯做節目,忍不住要歌頌偶像詹姆斯!

      氧氣是個地鐵
      2025-11-05 18:42:28
      省、縣兩級對問題整改驗收把關不嚴被部委通報

      省、縣兩級對問題整改驗收把關不嚴被部委通報

      新京報
      2025-11-05 11:35:27
      WC!錫安!鵜鶘最快速度交易

      WC!錫安!鵜鶘最快速度交易

      技巧君侃球
      2025-11-05 15:41:31
      能否實現?哈蘭德有望成首位代表3支球隊連續5場歐冠進球球員

      能否實現?哈蘭德有望成首位代表3支球隊連續5場歐冠進球球員

      懂球帝
      2025-11-05 19:08:04
      安徽通報:“內鬼”李曉清,主動投案

      安徽通報:“內鬼”李曉清,主動投案

      政知新媒體
      2025-11-05 16:18:13
      福建一縣委常委,獲市委提拔(附簡歷)

      福建一縣委常委,獲市委提拔(附簡歷)

      新浪財經
      2025-11-05 18:44:25
      委內瑞拉總統向中國尋求導彈等軍事裝備以防范美國 外交部回應

      委內瑞拉總統向中國尋求導彈等軍事裝備以防范美國 外交部回應

      新京報
      2025-11-04 18:13:06
      中企正式宣布!回購中國已購光刻機,外媒:ASML專利權或不保

      中企正式宣布!回購中國已購光刻機,外媒:ASML專利權或不保

      古事尋蹤記
      2025-11-05 07:21:09
      特朗普已經不裝了,直接對臺灣“改口”,中國統一進入高速車道?

      特朗普已經不裝了,直接對臺灣“改口”,中國統一進入高速車道?

      李博世財經
      2025-11-04 17:07:08
      醫生警告:一旦吃上他汀藥,這6種食物必須戒掉,再吃有肝損風險

      醫生警告:一旦吃上他汀藥,這6種食物必須戒掉,再吃有肝損風險

      朗威游戲說
      2025-11-05 14:24:47
      房價到底還要跌多久才能見底?

      房價到底還要跌多久才能見底?

      流蘇晚晴
      2025-11-05 18:19:25
      網紅“瑞恩寶貝”去世,年僅3歲

      網紅“瑞恩寶貝”去世,年僅3歲

      魯中晨報
      2025-11-05 16:39:03
      比特幣暴跌,超47萬人爆倉

      比特幣暴跌,超47萬人爆倉

      證券時報e公司
      2025-11-05 07:57:54
      定了!江蘇職工福利標準提高!

      定了!江蘇職工福利標準提高!

      江南晚報
      2025-11-05 12:47:29
      山姆翻車再上熱搜!商品頭圖全是假的,網友刷屏“辭退高管”

      山姆翻車再上熱搜!商品頭圖全是假的,網友刷屏“辭退高管”

      雷科技
      2025-11-04 14:50:05
      沒董宇輝的命卻得其“病”,頓頓狂攬70人團隊,首秀后流量暴跌

      沒董宇輝的命卻得其“病”,頓頓狂攬70人團隊,首秀后流量暴跌

      攬星河的筆記
      2025-10-13 17:17:57
      廣東3消息!杜鋒回懟楊鳴,李春江正式回歸,胡明軒“背刺”徐杰

      廣東3消息!杜鋒回懟楊鳴,李春江正式回歸,胡明軒“背刺”徐杰

      多特體育說
      2025-11-05 09:58:19
      假投資金條連夜下架!黃金稅改落地,普通人買金“三要三不要”

      假投資金條連夜下架!黃金稅改落地,普通人買金“三要三不要”

      流蘇晚晴
      2025-11-04 20:20:58
      外媒報道:特斯拉起火車門無法打開致5人死亡遭訴訟!網友:國內新能源車企也要整改了

      外媒報道:特斯拉起火車門無法打開致5人死亡遭訴訟!網友:國內新能源車企也要整改了

      大白聊IT
      2025-11-04 12:58:29
      2025-11-05 19:51:00
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      960文章數 370關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      頭條要聞

      國足換帥 邵佳一曾被贊是在德國踢球最成功的中國球員

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      家居
      教育
      手機
      公開課

      親子要聞

      泰國媳婦第一次吃番薯烤的薯片,一口下去眼都亮了

      家居要聞

      別樣府院 暢享詩意生活

      教育要聞

      傲慢與偏見英文版語音課04:賓利先生是單身嗎?

      手機要聞

      小米17 Pro系列隱身模式上線:背屏一鍵關閉麥克風、攝像頭、定位權限

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产高清精品在线91| 资源在线观看视频一区二区| 国产三级a三级三级| 国语做受对白XXXXX在线| 金平| 国产乱老熟女乱老熟女视频| 国产成人啪精品午夜网站| 亚洲国产精品男人的天堂| 中文字幕人妻av第一区| 97人人模人人爽人人喊网| 亚洲色婷婷一区二区三区| 在线播放免费人成毛片| 亚洲美免无码中文字幕在线| 性一交一乱一乱一视频| 国产精品亚洲А∨天堂免| 国产精品中文字幕在线| 日本一本无道码日韩精品| 中文亚洲成A人片在线观看| 日日躁夜夜躁狠狠躁超碰97 | 蜜桃无码一区二区三区| 国产午夜精品福利免费看| 动漫AV纯肉无码AV电影网| 99国产精品永久免费视频| 日韩精品一区二区亚洲av| 国产精品美女久久久| 久久日韩精品一区二区五区| 久热综合在线亚洲精品| 中文字幕亚洲无线码在线| 国产精品人妻熟女男人的天堂| 久久精品国产精品亚洲综合| 亚洲中文字幕精品久久久久久动漫| 一本色道久久东京热| 亚洲av精选一区二区| 日本久久香蕉一本一道| 日本激情久久精品人妻热| 精品无码国产污污污免费| 精品乱码一区二区三四区视频 | 亚洲一区二区三级av| 亚洲永久精品ww47永久入口| 国产免费无遮挡吃奶视频| 亚洲高清国产拍精品熟女|