<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      擴散不死,BERT永生!Karpathy凌晨反思:自回歸時代該終結了?

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】谷歌遺珠與IBM預言:一文點醒Karpathy,擴散模型或成LLM下一步。

      Karpathy難以抵擋的誘惑!

      蘋果的前員工、德克薩斯大學奧斯汀分校(UT Austin)的計算機科學研究生Nathan Barry,得出一個驚人的結論:

      BERT本質上,只是文本擴散中的一步!

      基于「強化版BERT」RoBERTa,他成功地把表示學習算法改造為生成算法:


      看完帖子后,OpenAI創始員工、特斯拉前AI總監Karpathy陷入了沉思:

      人類的思維或許更偏向自回歸一些——一步步推進的感覺。但在我們的思維潛空間里,也很難說就不存在某種更像擴散的機制。

      說不定在這兩者之間,其實可以繼續插值、或者更進一步泛化。

      這部分生成邏輯在LLM架構中,依然是一個相對「可變」的部分。

      不過,Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開發終級實踐項目「100美元帶回家的ChatGPT」,所以他只能「忍痛割愛」:

      現在我必須克制住用擴散模型訓練nanochat的沖動,不能偏離主線去搞支線任務了。


      可以上下滾動的圖片

      谷歌的遺珠

      當第一次讀到語言擴散模型論文時,Nathan Barry驚訝地發現它們的訓練目標只是掩碼語言建模(masked language model,MLM)的一種推廣。


      而自從2018年BERT以來,大家一直早已對掩碼語言建模習以為常。


      預印本:https://arxiv.org/abs/1810.04805

      他腦海里立刻冒出一個想法:我們能不能把類似BERT的模型微調一下,讓它也能做文本生成?

      出于好奇,他做了個快速的驗證實驗。隨后,他發現其實早就有人做過了——DiffusionBERT基本就是這個想法,不過做得更嚴謹。

      值得一提的是,大約3年前,DiffusionBERT由國內高校的研究者提出,100%國產!


      預印本鏈接:https://arxiv.org/abs/2211.15029

      最初,擴散模型在圖像生成領域一炮而紅。

      在圖像生成中,擴散模型會先對圖像逐步添加高斯噪聲(前向過程),然后訓練神經網絡對其進行迭代去噪(反向過程)。


      將這一思路應用于文本領域,意味著我們需要找到方法對文本添加噪聲并在之后分階段消除。

      最簡單的實現方式是基于掩碼的噪聲處理流程:

      • 在前向過程中,初始文本未被破壞。在每一步迭代中,根據預設的調度計劃(從0%到100%),隨機將一定比例的詞語替換為特殊的 標記

      • 在反向(去噪)過程中,訓練模型根據每個 預測正確的原始詞語。這與掩碼語言模型(MLM)類似,但采用了動態掩碼率

      為了解決以往方法存在的問題,BERT提出了掩碼語言建模(Masked LM)。

      具體做法是:對每條訓練輸入序列隨機遮蓋15%的詞語,僅對這些被遮蓋的詞進行預測。用圖示語言來表達就是:


      換句話說,BERT的MLM訓練目標,其實就可以看作是文本擴散的一種特例,只不過它用的是固定的掩碼率。

      而只要我們引入一個從0到1的動態掩碼率范圍,就可以把BERT的訓練目標自然擴展為一個完整的文本生成過程。

      擴展無處不在,自監督模型變生成模型

      2019年發布的RoBERTa模型,是在原始BERT基礎上的一次強化升級。


      預印本:https://arxiv.org/abs/1907.11692

      它調整了超參數、擴大了訓練語料,并簡化了訓練目標——

      只保留MLM(掩碼語言建模),去掉了「下一句預測」任務。

      而Nathan Barry使用HuggingFace的開源庫,加載RoBERTa的預訓練權重、分詞器以及Trainer類,對模型進行微調,數據集選用 WikiText。核心代碼(完整代碼見原文)大致如下:


      在當前實現中,設定了10個擴散步驟,每個訓練批次隨機采樣一個遮蓋比例p,從[1.0, 0.9, ..., 0.1]中選取,然后對該比例的Token進行掩碼處理。這個邏輯封裝在自定義的diffusion_collator中:


      在推理時,從一個長度為256的輸入向量開始:前16個位置是提示詞(prompt)的Token ID,后面240個全是 。然后,逐步減少掩碼比例,每一步都做預測、采樣、重新掩碼。流程如下:


      對應的簡化代碼如下:


      在H200顯卡上,經過30分鐘訓練后,模型基于如下提示詞生成了如下文本:

      ...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

      提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...

      生成的文本看起來出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數據集本身的格式化問題——比如標點符號前后帶空格,連字符「-」被處理成了@-@等。


      數據顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對比13秒)。

      但RoBERTa Diffusion未經優化,如此效果,已令人驚喜。

      這次的概念驗證無疑非常成功——若能結合AR-Diffusion、跳躍步擴散等新興技術并深度優化,生成質量與推理速度都將獲得飛躍提升。

      擴散模型歸來

      通過實驗證明,以RoBERTa為代表的掩碼語言模型(原本專為填空任務設計),將變比率掩碼重構為離散擴散過程,完全可以轉型為全功能生成引擎。

      通過漸進式植入 標記污染文本,并訓練模型在遞增的掩碼強度下迭代去噪,標準MLM目標成功地轉化為漸進式文本生成流程。

      值得注意的是,即使不調整模型架構,僅對訓練目標進行微調后的RoBERTa就能生成視覺連貫的文本。

      這有力印證了一個重要洞見:本質上,BERT系模型就是在固定掩碼率上訓練的文本擴散模型。

      Karpathy點贊了Nathan Barry的短文:

      帖子雖短,卻解釋了文本(離散)擴散模型可以有多簡單。

      許多擴散模型的論文看起來頗為晦澀,但若拋開數學形式的外殼,最終得到的往往是簡潔的基礎算法。


      例如在連續空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質還是經典的Transformer架構,只不過采用了雙向注意力機制——

      根據噪聲調度計劃,在「token畫布」上迭代重采樣和重復掩碼處理所有token,直至最終步生成完整樣本。

      自回歸生成的過程,就像是在Token畫布上不斷.append(token) ,每次只參考左側已有的上下文;

      而擴散式生成,則是在整個Token畫布上反復.setitem(idx, token) ,每次都依賴雙向注意力進行刷新更新。

      從整個大語言模型(LLM)技術棧的角度來看,生成領域仍大有可為,存在著優化與創新的空間。

      今年更早的時候,在2025 I/O大會上,谷歌DeepMind發布了一項實驗性的擴展語言模型——。


      在速度上,擴散語言模型優勢明顯。以至于有網友預測:文本擴展模型就是每個人視而不見的下一步,因為訓練成本太高了!


      而「藍色巨人」IBM的作家也斷言,隨著下一代AI浮現,擴散模型要挑戰GPT。


      參考資料:

      https://nathan.rs/posts/roberta-diffusion/

      https://x.com/karpathy/status/1980347971935068380

      https://x.com/yacinelearning/status/1980351871413022901

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      海港奪冠徹底穩了!不僅因為申花以已無力追趕,而是因為這三點!

      海港奪冠徹底穩了!不僅因為申花以已無力追趕,而是因為這三點!

      田先生籃球
      2025-11-05 11:48:35
      壞消息,勇士隊庫里在戰勝太陽隊后立即被宣布缺席打國王隊的比賽

      壞消息,勇士隊庫里在戰勝太陽隊后立即被宣布缺席打國王隊的比賽

      好火子
      2025-11-05 23:52:39
      醒醒吧!就算臺灣愿意和平回歸,臺灣也不可能允許解放軍對臺駐軍

      醒醒吧!就算臺灣愿意和平回歸,臺灣也不可能允許解放軍對臺駐軍

      近史談
      2025-11-05 19:29:23
      山東菏澤發現堯帝墓,比秦始皇陵早兩千多年,填補了歷史考古空白

      山東菏澤發現堯帝墓,比秦始皇陵早兩千多年,填補了歷史考古空白

      小豫講故事
      2025-11-05 06:00:03
      舅舅借走30萬,7年不還,他兒子當兵政審那天,我一個電話打過去

      舅舅借走30萬,7年不還,他兒子當兵政審那天,我一個電話打過去

      清茶淺談
      2025-10-13 12:51:38
      沉默7天后,歐盟對華攤牌,拒絕承認2758號決議,反制箭在弦上

      沉默7天后,歐盟對華攤牌,拒絕承認2758號決議,反制箭在弦上

      第一心理
      2025-11-05 23:09:03
      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      李云迪再陷桃色風波,女主照片被扒疑似有兩人視頻流出

      挪威森林
      2025-11-02 12:56:16
      賽力斯公布方向盤折疊專利

      賽力斯公布方向盤折疊專利

      界面新聞
      2025-11-04 15:13:11
      汪峰演唱會翻車,葛薈婕補刀:只往女人身上使勁,唱不上去很正常

      汪峰演唱會翻車,葛薈婕補刀:只往女人身上使勁,唱不上去很正常

      木子愛娛樂大號
      2025-11-04 17:40:57
      西部再無全敗隊!鵜鶘最后11-0逆轉黃蜂獲首勝 無錫安8人上雙制勝

      西部再無全敗隊!鵜鶘最后11-0逆轉黃蜂獲首勝 無錫安8人上雙制勝

      醉臥浮生
      2025-11-05 11:36:06
      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      于和偉說:“我上大一,我大姐去世,肺癌,我愣坐著,沒有眼淚”

      百態人間
      2025-11-04 15:58:52
      全運會男籃第二輪比賽,廣東全運男籃對陣江蘇,兩隊陣容實力對比

      全運會男籃第二輪比賽,廣東全運男籃對陣江蘇,兩隊陣容實力對比

      小呫說故事
      2025-11-05 16:46:31
      弗州競選驚爆冷門:瓊斯逆襲,民主黨以64%勝率上演驚天翻盤

      弗州競選驚爆冷門:瓊斯逆襲,民主黨以64%勝率上演驚天翻盤

      老瑋是個手藝人
      2025-11-05 12:59:08
      墨西哥女總統當街遭男子猥褻,險遭親吻

      墨西哥女總統當街遭男子猥褻,險遭親吻

      觀威海
      2025-11-05 10:50:09
      美國前副總統切尼去世

      美國前副總統切尼去世

      政知新媒體
      2025-11-04 21:46:46
      故事:賴昌星自白:我風流一生,但心里只住過兩個人,她勝過結發妻子

      故事:賴昌星自白:我風流一生,但心里只住過兩個人,她勝過結發妻子

      蕭竹輕語
      2025-11-03 17:25:34
      不要對固態電池有太多幻想

      不要對固態電池有太多幻想

      星海情報局
      2025-11-04 14:15:59
      重慶燃氣抄表員不足工人一年凈減121人 整改不力被罰810萬李金陸掌舵17月離任

      重慶燃氣抄表員不足工人一年凈減121人 整改不力被罰810萬李金陸掌舵17月離任

      長江商報
      2025-11-05 09:54:55
      白應蒼被宣判死刑時,仍舊昂首挺胸,毫無悔意,他爹已經屁滾尿流

      白應蒼被宣判死刑時,仍舊昂首挺胸,毫無悔意,他爹已經屁滾尿流

      我心縱橫天地間
      2025-11-05 11:28:28
      阿森納挖到寶了!夏窗新援閃耀歐冠:8次對抗全部成功

      阿森納挖到寶了!夏窗新援閃耀歐冠:8次對抗全部成功

      球事百科吖
      2025-11-05 18:07:05
      2025-11-06 00:04:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      13794文章數 66238關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      頭條要聞

      丈夫突然病亡2天后妻子也離世留下一兒一女 妹妹發聲

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      親子
      藝術
      教育
      房產
      軍事航空

      親子要聞

      溫暖守護小患者 上海這家醫院的眼科有個“兒童樂園”

      藝術要聞

      蒲華:搦管寫竹,墨沈淋漓

      教育要聞

      最新:2026年南京中考體育考試內容及評分標準曝光!

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲综合在线一区二区三区| 国产综合色在线精品| 青草草97久热精品视频| 久久精品视频这里有精品| 吉川爱美一区二区三区视频| 成人深夜节目在线观看| 国产成人一区二区三区视频免费 | 精品久久精品午夜精品久久| AV秘 无码一区二| 国产毛片子一区二区三区| 国产伦码精品一区二区| 天堂亚洲免费视频| 开心五月激情综合久久爱| 无码国产偷倩在线播放| 国产性天天综合网| 久久毛片少妇高潮| 中文字幕人妻精品在线| 91中文字幕在线一区| 中文字幕乱码人妻综合二区三区| 亚洲国产精品18久久久久久| 亚洲最大日韩精品一区| 一区二区三区四区五区自拍| 成人精品天堂一区二区三区| 噜噜噜噜私人影院| 亚洲国产精品午夜福利| 国产精品大全中文字幕| 国产对白老熟女正在播放| 天堂av色综合久久天堂| 亚洲精品美女久久久久9999 | 亚洲日韩AV秘 无码一区二区| 人妻激情偷一区二区三区| 国产内射性高湖| 韩国无码AV片午夜福利| 三级黄色片一区二区三区| 午夜视频免费试看| 老司机亚洲精品一区二区| 国产精品不卡一区二区久久| 内射干少妇亚洲69XXX| 国产精品白浆免费视频| 日本一区二区三区黄色网| 免费网站看sm调教视频|