<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      擴(kuò)散不死,BERT永生!Karpathy凌晨反思:自回歸時(shí)代該終結(jié)了?

      0
      分享至


      新智元報(bào)道

      編輯:KingHZ

      【新智元導(dǎo)讀】谷歌遺珠與IBM預(yù)言:一文點(diǎn)醒Karpathy,擴(kuò)散模型或成LLM下一步。

      Karpathy難以抵擋的誘惑!

      蘋果的前員工、德克薩斯大學(xué)奧斯汀分校(UT Austin)的計(jì)算機(jī)科學(xué)研究生Nathan Barry,得出一個(gè)驚人的結(jié)論:

      BERT本質(zhì)上,只是文本擴(kuò)散中的一步!

      基于「強(qiáng)化版BERT」RoBERTa,他成功地把表示學(xué)習(xí)算法改造為生成算法:


      看完帖子后,OpenAI創(chuàng)始員工、特斯拉前AI總監(jiān)Karpathy陷入了沉思:

      人類的思維或許更偏向自回歸一些——一步步推進(jìn)的感覺。但在我們的思維潛空間里,也很難說(shuō)就不存在某種更像擴(kuò)散的機(jī)制。

      說(shuō)不定在這兩者之間,其實(shí)可以繼續(xù)插值、或者更進(jìn)一步泛化。

      這部分生成邏輯在LLM架構(gòu)中,依然是一個(gè)相對(duì)「可變」的部分。

      不過,Karpathy最近忙于為Eureka Labs的《LLM 101n》課程開發(fā)終級(jí)實(shí)踐項(xiàng)目「100美元帶回家的ChatGPT」,所以他只能「忍痛割愛」:

      現(xiàn)在我必須克制住用擴(kuò)散模型訓(xùn)練nanochat的沖動(dòng),不能偏離主線去搞支線任務(wù)了。


      可以上下滾動(dòng)的圖片

      谷歌的遺珠

      當(dāng)?shù)谝淮巫x到語(yǔ)言擴(kuò)散模型論文時(shí),Nathan Barry驚訝地發(fā)現(xiàn)它們的訓(xùn)練目標(biāo)只是掩碼語(yǔ)言建模(masked language model,MLM)的一種推廣。


      而自從2018年BERT以來(lái),大家一直早已對(duì)掩碼語(yǔ)言建模習(xí)以為常。


      預(yù)印本:https://arxiv.org/abs/1810.04805

      他腦海里立刻冒出一個(gè)想法:我們能不能把類似BERT的模型微調(diào)一下,讓它也能做文本生成?

      出于好奇,他做了個(gè)快速的驗(yàn)證實(shí)驗(yàn)。隨后,他發(fā)現(xiàn)其實(shí)早就有人做過了——DiffusionBERT基本就是這個(gè)想法,不過做得更嚴(yán)謹(jǐn)。

      值得一提的是,大約3年前,DiffusionBERT由國(guó)內(nèi)高校的研究者提出,100%國(guó)產(chǎn)!


      預(yù)印本鏈接:https://arxiv.org/abs/2211.15029

      最初,擴(kuò)散模型在圖像生成領(lǐng)域一炮而紅。

      在圖像生成中,擴(kuò)散模型會(huì)先對(duì)圖像逐步添加高斯噪聲(前向過程),然后訓(xùn)練神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行迭代去噪(反向過程)。


      將這一思路應(yīng)用于文本領(lǐng)域,意味著我們需要找到方法對(duì)文本添加噪聲并在之后分階段消除。

      最簡(jiǎn)單的實(shí)現(xiàn)方式是基于掩碼的噪聲處理流程:

      • 在前向過程中,初始文本未被破壞。在每一步迭代中,根據(jù)預(yù)設(shè)的調(diào)度計(jì)劃(從0%到100%),隨機(jī)將一定比例的詞語(yǔ)替換為特殊的 標(biāo)記

      • 在反向(去噪)過程中,訓(xùn)練模型根據(jù)每個(gè) 預(yù)測(cè)正確的原始詞語(yǔ)。這與掩碼語(yǔ)言模型(MLM)類似,但采用了動(dòng)態(tài)掩碼率

      為了解決以往方法存在的問題,BERT提出了掩碼語(yǔ)言建模(Masked LM)。

      具體做法是:對(duì)每條訓(xùn)練輸入序列隨機(jī)遮蓋15%的詞語(yǔ),僅對(duì)這些被遮蓋的詞進(jìn)行預(yù)測(cè)。用圖示語(yǔ)言來(lái)表達(dá)就是:


      換句話說(shuō),BERT的MLM訓(xùn)練目標(biāo),其實(shí)就可以看作是文本擴(kuò)散的一種特例,只不過它用的是固定的掩碼率。

      而只要我們引入一個(gè)從0到1的動(dòng)態(tài)掩碼率范圍,就可以把BERT的訓(xùn)練目標(biāo)自然擴(kuò)展為一個(gè)完整的文本生成過程。

      擴(kuò)展無(wú)處不在,自監(jiān)督模型變生成模型

      2019年發(fā)布的RoBERTa模型,是在原始BERT基礎(chǔ)上的一次強(qiáng)化升級(jí)。


      預(yù)印本:https://arxiv.org/abs/1907.11692

      它調(diào)整了超參數(shù)、擴(kuò)大了訓(xùn)練語(yǔ)料,并簡(jiǎn)化了訓(xùn)練目標(biāo)——

      只保留MLM(掩碼語(yǔ)言建模),去掉了「下一句預(yù)測(cè)」任務(wù)。

      而Nathan Barry使用HuggingFace的開源庫(kù),加載RoBERTa的預(yù)訓(xùn)練權(quán)重、分詞器以及Trainer類,對(duì)模型進(jìn)行微調(diào),數(shù)據(jù)集選用 WikiText。核心代碼(完整代碼見原文)大致如下:


      在當(dāng)前實(shí)現(xiàn)中,設(shè)定了10個(gè)擴(kuò)散步驟,每個(gè)訓(xùn)練批次隨機(jī)采樣一個(gè)遮蓋比例p,從[1.0, 0.9, ..., 0.1]中選取,然后對(duì)該比例的Token進(jìn)行掩碼處理。這個(gè)邏輯封裝在自定義的diffusion_collator中:


      在推理時(shí),從一個(gè)長(zhǎng)度為256的輸入向量開始:前16個(gè)位置是提示詞(prompt)的Token ID,后面240個(gè)全是 。然后,逐步減少掩碼比例,每一步都做預(yù)測(cè)、采樣、重新掩碼。流程如下:


      對(duì)應(yīng)的簡(jiǎn)化代碼如下:


      在H200顯卡上,經(jīng)過30分鐘訓(xùn)練后,模型基于如下提示詞生成了如下文本:

      ...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

      提示詞為:Following their victory in the French and Indian War, Britain began to assert greater...

      生成的文本看起來(lái)出奇地連貫!其中大部分「怪異之處」, Nathan Barry歸因于WikiText數(shù)據(jù)集本身的格式化問題——比如標(biāo)點(diǎn)符號(hào)前后帶空格,連字符「-」被處理成了@-@等。


      數(shù)據(jù)顯示,GPT-2在輸出連貫性和生成速度方面略勝一籌(約9秒對(duì)比13秒)。

      但RoBERTa Diffusion未經(jīng)優(yōu)化,如此效果,已令人驚喜。

      這次的概念驗(yàn)證無(wú)疑非常成功——若能結(jié)合AR-Diffusion、跳躍步擴(kuò)散等新興技術(shù)并深度優(yōu)化,生成質(zhì)量與推理速度都將獲得飛躍提升。

      擴(kuò)散模型歸來(lái)

      通過實(shí)驗(yàn)證明,以RoBERTa為代表的掩碼語(yǔ)言模型(原本專為填空任務(wù)設(shè)計(jì)),將變比率掩碼重構(gòu)為離散擴(kuò)散過程,完全可以轉(zhuǎn)型為全功能生成引擎。

      通過漸進(jìn)式植入 標(biāo)記污染文本,并訓(xùn)練模型在遞增的掩碼強(qiáng)度下迭代去噪,標(biāo)準(zhǔn)MLM目標(biāo)成功地轉(zhuǎn)化為漸進(jìn)式文本生成流程。

      值得注意的是,即使不調(diào)整模型架構(gòu),僅對(duì)訓(xùn)練目標(biāo)進(jìn)行微調(diào)后的RoBERTa就能生成視覺連貫的文本。

      這有力印證了一個(gè)重要洞見:本質(zhì)上,BERT系模型就是在固定掩碼率上訓(xùn)練的文本擴(kuò)散模型。

      Karpathy點(diǎn)贊了Nathan Barry的短文:

      帖子雖短,卻解釋了文本(離散)擴(kuò)散模型可以有多簡(jiǎn)單。

      許多擴(kuò)散模型的論文看起來(lái)頗為晦澀,但若拋開數(shù)學(xué)形式的外殼,最終得到的往往是簡(jiǎn)潔的基礎(chǔ)算法。


      例如在連續(xù)空間中更接近流匹配的方法,或是像這樣的離散空間方案,其本質(zhì)還是經(jīng)典的Transformer架構(gòu),只不過采用了雙向注意力機(jī)制——

      根據(jù)噪聲調(diào)度計(jì)劃,在「token畫布」上迭代重采樣和重復(fù)掩碼處理所有token,直至最終步生成完整樣本。

      自回歸生成的過程,就像是在Token畫布上不斷.append(token) ,每次只參考左側(cè)已有的上下文;

      而擴(kuò)散式生成,則是在整個(gè)Token畫布上反復(fù).setitem(idx, token) ,每次都依賴雙向注意力進(jìn)行刷新更新。

      從整個(gè)大語(yǔ)言模型(LLM)技術(shù)棧的角度來(lái)看,生成領(lǐng)域仍大有可為,存在著優(yōu)化與創(chuàng)新的空間。

      今年更早的時(shí)候,在2025 I/O大會(huì)上,谷歌DeepMind發(fā)布了一項(xiàng)實(shí)驗(yàn)性的擴(kuò)展語(yǔ)言模型——。


      在速度上,擴(kuò)散語(yǔ)言模型優(yōu)勢(shì)明顯。以至于有網(wǎng)友預(yù)測(cè):文本擴(kuò)展模型就是每個(gè)人視而不見的下一步,因?yàn)橛?xùn)練成本太高了!


      而「藍(lán)色巨人」IBM的作家也斷言,隨著下一代AI浮現(xiàn),擴(kuò)散模型要挑戰(zhàn)GPT。


      參考資料:

      https://nathan.rs/posts/roberta-diffusion/

      https://x.com/karpathy/status/1980347971935068380

      https://x.com/yacinelearning/status/1980351871413022901

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      村里建廣場(chǎng)我贊助40萬(wàn),卻發(fā)現(xiàn)沒我名字我淡定離開,三天后村長(zhǎng)懵了

      村里建廣場(chǎng)我贊助40萬(wàn),卻發(fā)現(xiàn)沒我名字我淡定離開,三天后村長(zhǎng)懵了

      眼淚博物
      2025-08-22 18:21:23
      中國(guó)004航母再傳新動(dòng)態(tài),美國(guó)航母優(yōu)勢(shì)縮水!

      中國(guó)004航母再傳新動(dòng)態(tài),美國(guó)航母優(yōu)勢(shì)縮水!

      楊風(fēng)
      2025-11-03 22:06:19
      北京大院子弟的潛規(guī)則

      北京大院子弟的潛規(guī)則

      壹貳叁的壹
      2023-12-21 10:44:33
      24分大翻盤,東部新王誕生!29分15板12助帶隊(duì)登頂,他只要了1億

      24分大翻盤,東部新王誕生!29分15板12助帶隊(duì)登頂,他只要了1億

      嘴炮體壇
      2025-11-05 11:47:50
      太有修養(yǎng)!全紅嬋一個(gè)動(dòng)作,讓粉絲感動(dòng)到哭,真的太寵粉了

      太有修養(yǎng)!全紅嬋一個(gè)動(dòng)作,讓粉絲感動(dòng)到哭,真的太寵粉了

      手工制作阿殲
      2025-11-05 14:15:47
      胡適評(píng)價(jià)毛主席寫的詞,“沒有一句通的”,那么胡適的水平如何?

      胡適評(píng)價(jià)毛主席寫的詞,“沒有一句通的”,那么胡適的水平如何?

      芊芊之言
      2025-11-04 00:10:09
      高鐵1A座被指面壁座,乘客:體驗(yàn)不佳,中途不得不站立乘車;12306回應(yīng)

      高鐵1A座被指面壁座,乘客:體驗(yàn)不佳,中途不得不站立乘車;12306回應(yīng)

      上觀新聞
      2025-11-05 11:59:04
      原來(lái)升級(jí)矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

      原來(lái)升級(jí)矛盾就是解決的終極手段!網(wǎng)友分享絕了,以牙還牙最管用

      夜深愛雜談
      2025-11-05 07:56:38
      郭德綱霸氣外漏!視察上海德云社,獨(dú)自坐在大廳,周圍的人都站著

      郭德綱霸氣外漏!視察上海德云社,獨(dú)自坐在大廳,周圍的人都站著

      鄭丁嘉話
      2025-11-04 09:45:17
      A媽和杰森吵架,直言壓力很大,杰森身體出問題 連媽媽都跟著擔(dān)心

      A媽和杰森吵架,直言壓力很大,杰森身體出問題 連媽媽都跟著擔(dān)心

      動(dòng)物奇奇怪怪
      2025-11-05 11:01:29
      韓網(wǎng)友提問:在“鐵證”面前,中國(guó)人為何還不承認(rèn)漢字起源于韓國(guó)

      韓網(wǎng)友提問:在“鐵證”面前,中國(guó)人為何還不承認(rèn)漢字起源于韓國(guó)

      戶外小阿隋
      2025-11-05 06:32:52
      康熙駕崩當(dāng)夜,貼身太監(jiān)揭露:龍椅上坐著的是洪承疇與孝莊的骨肉!

      康熙駕崩當(dāng)夜,貼身太監(jiān)揭露:龍椅上坐著的是洪承疇與孝莊的骨肉!

      張道陵秘話
      2025-11-04 18:38:12
      風(fēng)向變了,在文明的地方撒野,野蠻的地方沉默,這屆網(wǎng)友不好帶了

      風(fēng)向變了,在文明的地方撒野,野蠻的地方沉默,這屆網(wǎng)友不好帶了

      眼光很亮
      2025-11-05 13:04:02
      24歲時(shí)迪巴拉身價(jià)高達(dá)1.1億!但如今僅剩800萬(wàn),原因真的太扎心!

      24歲時(shí)迪巴拉身價(jià)高達(dá)1.1億!但如今僅剩800萬(wàn),原因真的太扎心!

      田先生籃球
      2025-11-04 12:16:13
      何猷君奚夢(mèng)瑤逛商場(chǎng)被偶遇,奚夢(mèng)瑤挽著何猷君的胳膊好甜蜜!

      何猷君奚夢(mèng)瑤逛商場(chǎng)被偶遇,奚夢(mèng)瑤挽著何猷君的胳膊好甜蜜!

      鑫鑫說(shuō)說(shuō)
      2025-11-05 10:33:58
      著名專家稱:試管嬰兒都活不過40歲!如今中國(guó)首例過得如何?

      著名專家稱:試管嬰兒都活不過40歲!如今中國(guó)首例過得如何?

      夢(mèng)錄的西方史話
      2025-11-03 17:28:44
      斷供的人多了,銀行都開始急了

      斷供的人多了,銀行都開始急了

      深藍(lán)夜讀
      2025-11-05 10:04:34
      日本人全球最長(zhǎng)壽,這5種食物,他們頓頓都要吃,你吃過幾種

      日本人全球最長(zhǎng)壽,這5種食物,他們頓頓都要吃,你吃過幾種

      削桐作琴
      2025-11-03 19:29:12
      曹沖靠稱象成名,世人都夸他聰明絕頂,司馬懿:其實(shí)他是蠢到家了

      曹沖靠稱象成名,世人都夸他聰明絕頂,司馬懿:其實(shí)他是蠢到家了

      小豫講故事
      2025-11-05 06:00:03
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內(nèi)不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內(nèi)不能站人

      小豫講故事
      2025-11-05 06:00:03
      2025-11-05 14:56:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      13789文章數(shù) 66237關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克萬(wàn)億美元薪酬投票在即,大股東反對(duì)

      頭條要聞

      牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

      頭條要聞

      牛彈琴:美國(guó)上演極致"流氓外交" 讓西方媒體目瞪口呆

      體育要聞

      開拓者的11號(hào)簽,變成了灰熊未來(lái)核心?

      娛樂要聞

      王家衛(wèi)事件再次升級(jí),可憐了這些明星

      財(cái)經(jīng)要聞

      中方官宣!對(duì)美關(guān)稅,調(diào)整!

      汽車要聞

      首家"A+H"豪華新能源車企 賽力斯登陸港交所主板

      態(tài)度原創(chuàng)

      旅游
      數(shù)碼
      藝術(shù)
      本地
      教育

      旅游要聞

      馬耳他旅游會(huì)獎(jiǎng)局榮膺Cvent歐洲卓越獎(jiǎng)

      數(shù)碼要聞

      三星官宣將推 HDR10+ Advanced 視頻標(biāo)準(zhǔn),對(duì)抗杜比視界 2

      藝術(shù)要聞

      持10萬(wàn)比特幣,神秘老板狂砸260億造“福建蘋果總部”,如今卻…

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場(chǎng)盛大的視覺交響

      教育要聞

      25年重慶高考招生大數(shù)據(jù),新增招生院校39所,新增計(jì)劃人數(shù)達(dá)708

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 99久久国产综合精品色| 日韩中文字幕亚洲精品 | 综合偷自拍亚洲乱中文字幕| av永久天堂一区| 高清自拍亚洲精品二区| 亚洲国产精品久久久天堂麻豆宅男 | 国产成人精品亚洲日本片| 蜜臀精品一区二区三区四区| 特级做a爰片毛片免费看无码| 在线中文一区字幕对白| 国产高清精品在线一区二区| 夜鲁鲁鲁夜夜综合视频| 欧美牲交videossexeso欧美 | 99国产欧美另类久久久精品| 免费激情网址| 精品av综合导航| 中文人妻熟妇乱又伦精品| 无码专区视频精品老司机| 日本熟妇hdsex视频| 99久久亚洲综合精品成人网| 国产精品三级中文字幕| 国产香蕉尹人综合在线观看| 亚洲欧美国产日韩天堂区| 在线 欧美 中文 亚洲 精品| 国产区免费精品视频| 国产中文三级全黄| 国内熟妇人妻色在线视频| 大陆一级毛片免费播放| 日本激情久久精品人妻热| 四虎影视一区二区精品 | 成人又黄又爽又色的视频| 国产av第一次处破| 东方四虎在线观看av| 亚洲中文字幕伊人久久无码 | 亚洲精品网站在线观看不卡无广告| 性一交一乱一伦一| 免费国产一级特黄aa大片在线| 国产精品中文第一字幕| 日本一区二区三区专线| 亚洲一区二区三成人精品| 国产精品久久久久久无毒不卡|