<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      金魚損失隨機剔除token,讓AI不再死記硬背

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號 QbitAI

      訓練大模型時,有時讓它“記性差一點”,反而更聰明!

      大語言模型如果不加約束,很容易把訓練數據原封不動地復刻出來。為解決這個問題,來自馬里蘭大學、圖賓根大學和馬普所的研究團隊提出了一個新方法——金魚損失(Goldfish Loss)



      顧名思義,金魚損失就是讓模型像金魚一樣,不去死記每一個細節,而是在損失函數計算時隨機剔除一小部分token。

      由此,模型不再逐字記住訓練集內容,但仍能學會語言規律。

      實驗顯示,LLaMA-2在使用金魚損失后:

      • 記憶化內容顯著減少:模型不再復現訓練數據
      • 下游任務性能幾乎不受影響:仍然能流暢生成文本

      用網友的精辟評論概括就是:dropout,但損失函數!



      在梯度計算中隨機屏蔽部分token

      金魚損失的核心理念非常簡單,就是在模型訓練過程中隨機剔除一部分訓練文本中的tokens,使其不參與損失計算。

      這樣一來,當模型在推理階段遇到這些位置時,就只能“猜測”,而不是逐字逐句復現訓練數據的完整序列。

      此外,為了保證被剔除token的一致性,研究人員設計了一種基于哈希(hashing)的掩碼策略。



      那么,這和同樣是防止模型背會的正則化方法有什么不同呢?

      Dropout這樣的正則化方法為例,它通過在訓練時“加噪聲”來防止模型過度依賴某些參數,從而提高模型舉一反三的能力。

      但這樣做的問題在于:如果只是隨機丟token,那么,每次看到同一段落時,丟掉的地方不一樣,模型累計幾次就能拼湊出完整段落。

      所以,說到底,模型還是靠死記硬背,記住了答案。

      相比之下,金魚損失則用哈希掩碼確保每次遇到同一段落,掩蓋位置都一樣,這就從根本上阻止了模型復現完整訓練文本。

      接下來,我們來看金魚損失具體是怎么做的。

      在傳統的next-token prediction中,模型以序列中的下一個真實token作為目標,輸出預測分布,并基于該分布計算交叉熵損失。



      在金魚損失下,模型雖然也在前向傳播中預測序列里下一個 token。但在計算損失時,會以一定的概率將某些位置的token從損失計算里“抹掉”。

      也就是說,有些真實的下一個token不會作為目標來訓練。



      在這里,研究人員采用了簡單的靜態掩碼(static mask),剔除每序列中的第4個token。

      更進一步,為了確保模型不會從其他地方學到被掩碼的數據(例如不同的文檔會在不同的網頁中反復出現),研究團隊還提出了一種局部化哈希掩碼(localized hashed mask),使得當相同的前h個token出現時,掩蓋模式是相同的(可重復)。

      實驗測試與結果

      為了驗證金魚損失確實能防止記憶化,研究團隊設計了兩種實驗場景:

      一種是極端場景,通過對少量樣本進行多個訓練周期(即重復)來強烈促使記憶化;

      另一種是標準場景,模擬現實模型訓練中使用的批次處理方式 。

      同時,為了評估模型的記憶化程度,研究采用了以下指標:

      • RougeL得分:該指標衡量最長公共(非連續)子序列的長度 。得分為1.0表示完美記憶 。
      • 精確匹配率(Exact Match):該指標衡量正確預測的序列占真實序列的百分比.

      實驗表明,在極端場景下,標準訓練導致模型逐字記憶了100篇文章中的84篇,而金魚損失沒有記憶任何文章



      (注:實驗讓LLaMA-2-7B在《哈利·波特》第一章或100篇維基百科文檔上進一步訓練了100個epoch)

      此外,在標準訓練場景下,金魚損失也明顯減少了模型逐字復現訓練語料庫中目標序列的情況。



      但這里可能有個直覺式的反應——如果讓模型“隨機漏學”一些token,它的能力會不會也隨之降低呢?

      對此,研究人員進行了測試:研究表明,金魚損失模型、標準損失模型和對照模型之間的總體性能沒有系統性差異。



      需要注意的是,金魚損失的核心在于忽略部分token的梯度計算。因此,為了學到足夠的語言模式,模型必須通過更多數據來補償這些空缺,這可能導致計算效率的下降。

      [1]https://arxiv.org/pdf/2406.10209

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      手機中國
      2025-11-05 11:53:09
      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      網傳上海建工集團幾萬員工回家待崗,只發兩三千元還扣社保公積金

      爆角追蹤
      2025-11-05 19:18:19
      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      李湘胖到彎不下脖子,機場罕用便宜貨,被人搭話她不理還嘲諷冷哼

      洲洲影視娛評
      2025-11-04 13:46:08
      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      100%的責任!中國對荷蘭下達“最后通牒”,外媒:這次真的麻煩了

      大衛聊科技
      2025-11-05 13:47:37
      女子申請改名多次被拒,“我的名字”誰說了算?

      女子申請改名多次被拒,“我的名字”誰說了算?

      環球網資訊
      2025-11-05 10:51:03
      辣眼睛!湖南某醫院副院長和主任不雅視頻流出,沙發上藍布引關注

      辣眼睛!湖南某醫院副院長和主任不雅視頻流出,沙發上藍布引關注

      火山詩話
      2025-11-06 05:07:04
      中央紀委國家監委網站最新通報,5人被查

      中央紀委國家監委網站最新通報,5人被查

      魯中晨報
      2025-11-06 08:43:03
      杭州網紅“大逃亡”,網紅之都跌落神壇!

      杭州網紅“大逃亡”,網紅之都跌落神壇!

      財經三分鐘pro
      2025-11-05 13:58:59
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      突發!神舟二十號飛船遭太空垃圾撞擊,將推遲返回!問題大不大?

      科普大世界
      2025-11-05 11:06:27
      董秘翁鑫怡(女,1995年12月出生),被警告+罰款90萬元

      董秘翁鑫怡(女,1995年12月出生),被警告+罰款90萬元

      大風新聞
      2025-11-06 08:28:12
      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      紅軍城爭奪戰結束,俄軍進行最后清剿,大量烏軍投降

      兵國大事
      2025-11-04 17:30:59
      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      “臀大腰粗”的女生怎么穿好看?吊帶背心搭深灰瑜伽褲,高雅自信

      小喬古裝漢服
      2025-09-29 07:55:03
      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新聞多一度丨神二十推遲返回 空間碎片影響有多大?

      新京報
      2025-11-05 18:11:09
      新賽季最大牌外援!NBA超級中鋒第一次來CBA,能否改變爭冠格局?

      新賽季最大牌外援!NBA超級中鋒第一次來CBA,能否改變爭冠格局?

      籃球大陸
      2025-11-06 09:37:58
      翁帆女士受聘頂尖985大學

      翁帆女士受聘頂尖985大學

      雙一流高校
      2025-11-05 18:22:29
      退休多年后才發現:晚年幸不幸福,要看子女有無穩定的工作和婚姻

      退休多年后才發現:晚年幸不幸福,要看子女有無穩定的工作和婚姻

      小馬達情感故事
      2025-11-05 18:00:03
      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      英媒爆猛料!中國用ASML“落后”光刻機造出先進芯片,美方攔不住

      金錯刀
      2025-11-05 12:08:15
      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      354票贊成,15票棄權。泰國為泰黨就這么選出了新老大。

      百態人間
      2025-11-06 05:50:03
      藏不住了!斷供率3.7%引恐慌,中國銀行緊急改報告刪數據

      藏不住了!斷供率3.7%引恐慌,中國銀行緊急改報告刪數據

      麥小柒
      2025-11-05 20:41:11
      2025-11-06 09:47:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      本地
      教育
      健康
      藝術
      軍事航空

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      教育要聞

      小升初幾何題難倒了無數考生,就連學霸也搖頭

      超聲探頭會加重受傷情況嗎?

      藝術要聞

      毛主席書法作品首次在美國現身,內容引人關注!

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新久久国产色av免费看| 久久av高潮av喷水av无码| 国产日韩av免费无码一区二区三区| 国产精品日韩中文字幕熟女| 国产麻豆剧传媒精品国产av| 亚洲中文字幕综合小综合| 亚洲 国产 制服 丝袜 一区 | 欧洲精品久久久AV无码电影| 国产三级精品三级在线看| 日韩少妇内射免费播放| 国产一区二区三区不卡在线看| 亚洲第一成人网站| 成人嫩草研究院久久久精品| 午夜福利激情一区二区三区| 亚洲精品久久一区二区三区四区| 亚洲成女人图区一区二区| av午夜福利一片免费看久久| 成人拍拍拍无遮挡免费视频| 在线视频中文字幕二区| 乱女伦露脸对白在线播放| 亚洲人成小说网站色在线| 婷婷丁香五月亚洲中文字幕| 国产精品自在线拍国产手青青机版| 国产精品日日摸夜夜添夜夜添无码| 日本无产久久99精品久久| 少妇又爽又刺激视频| 宜州市| 久久精品国产福利一区二区| 国产精品一二二区视在线| 欧美精品V欧洲精品| 亚洲成人av在线系列| 精品国产亚洲区久久露脸| 国产成人午夜福利在线小电影| 久久久av男人的天堂| 精品精品久久宅男的天堂| 日本牲交大片免费观看| 久久精品国产亚洲精品色婷婷| 精品国产线拍大陆久久尤物| 欧美一区二区三区欧美日韩亚洲| 国产国拍亚洲精品永久软件| 门头沟区|