<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      微信、清華提出CALM,新范式實現「離散詞元」到「連續向量」轉變

      0
      分享至



      眾所周知,大型語言模型(LLM)的根本運作方式是預測下一個 token(詞元),能夠保證生成的連貫性和邏輯性,但這既是 LLM 強大能力的「靈魂」所在,也是其枷鎖,將導致高昂的計算成本和響應延遲。

      可以說,業界「苦」LLM 效率久矣,為了解決這一瓶頸,研究人員進行了多種嘗試。

      其實從根本上分析,大型語言模型(LLM)的效率是受限于其逐個詞元生成的順序過程。那如果 LLM 預測的不再是「下一個詞元」,而是「若干個詞元」的話,是不是會帶來不一樣的效果?

      為此,騰訊微信 AI 聯合清華大學在新發布論文中提出了一種新方法 ——連續自回歸語言模型(CALM),模型不再預測下一個詞元,而是預測下一個連續向量。

      具體來看,CALM 使用高保真自編碼器將 K 個詞元壓縮成一個連續向量,并能以超過 99.9% 的準確率從中重構原始詞元,將語言建模為一系列連續向量,而非離散詞元,從而將生成步驟的數量減少了 K 倍。

      從效果上來看,這種方法顯著改善性能與計算成本之間的權衡,在更低的計算成本下,性能可以與強大的離散基線模型相媲美。更重要的是,這是一種新的范式,為構建超高效語言模型提供了一種強大且可擴展的途徑。



      • 論文鏈接:https://arxiv.org/pdf/2510.27688

      而論文一經發布,就引起了業界熱議。

      有網友認為,「這可能是人工智能領域的下一個重大范式轉變」「如果這種模型能夠大規模應用,那么現有的所有語言模型都將過時。」



      離散詞元:LLM 的效率瓶頸

      大語言模型(LLMs)的成功與其高昂的計算成本相伴相生。作者認為,其效率問題的根源,在于當前所有模型都遵循的一個基礎范式:在離散的詞元(token)序列上進行自回歸預測。問題的關鍵并非自回歸機制本身,而在于離散詞元的內在局限性。這一局限性體現在兩個層面:

      • 首先,離散詞元的信息密度極低:以一個 32K 大小的詞表為例,每個詞元所承載的信息量僅為 15 比特 (log2 詞表大小)。即使模型擁有強大的推理和表征能力,它在每一步中也只能產出一個信息量極低的單元,這構成了效率的直接瓶頸。
      • 其次,該信息密度難以擴展:若要讓離散詞元承載更豐富的語義(如短語),詞表規模將指數級增長,使得模型在計算上幾乎不可行。離散表示的本質,為單步生成的信息吞吐量設置了上限。

      這揭示了一個根本性的矛盾:模型強大的表征能力,與預測任務的過細粒度之間,形成了「強模型、弱任務」的不匹配。我們擁有了參數規模巨大的模型,其能力卻被束縛在一個低效、冗余的生成框架之中。

      CALM:從離散詞元到連續向量

      CALM 的核心思想是將語言建模的基礎任務從預測離散的詞元,轉向預測連續的向量。這一范式轉移的可行性基于一個高保真度的自編碼器(Autoencoder)。它能將一個由 K 個詞元組成的文本塊壓縮為一個稠密的連續向量,并能以超過 99.9% 的準確率從該向量中重建原始詞元。

      因此,語言模型只需預測代表下一個文本塊的連續向量,即可通過自編碼器還原回 K 個詞元,從而將自回歸生成的總步數減少為原來的 1/K。



      然而,從離散到連續的轉變,也讓一些傳統方法失效,帶來了一系列技術挑戰:

      • 向量表示:如何設計自編碼器,以產出既能無損重建、又平滑魯棒的向量表示,以供下游模型學習?
      • 模型訓練:向量空間是無限且不可數的,無法直接計算概率分布。如何訓練模型來進行向量預測?
      • 性能評估:在無法計算概率的情況下,困惑度不再可用。如何準確地評估模型性能?
      • 可控生成:溫度采樣等控制生成多樣性的技術依賴于對輸出概率的顯式調整。對黑盒采樣的框架,如何實現類似的控制?

      圍繞這些挑戰,作者建立了一套完整的無似然技術體系,使 CALM 這一新范式得以實現。

      自編碼器

      實現 CALM 框架的基礎,是構建一個高保真度的自編碼器,用以建立離散詞元與連續向量之間的雙向映射。它由兩部分組成:

      • 編碼器:將 K 個詞元的文本塊壓縮為一個連續向量。
      • 解碼器:將該向量重建為原始的 K 個詞元。

      這一過程的可行性在于,理論上一個浮點數向量的信息容量遠超離散詞元。在實踐中,作者嘗試將 K=4 個詞元壓縮為向量,僅需 10 個維度便可實現超過 99.9% 的重建準確率。



      考慮到,在 CALM 的實際生成流程中,解碼器所接收的向量并非來自編碼器的「真值」,而是由語言模型預測出的結果。任何生成模型的預測都必然存在誤差。如果自編碼器只考慮重建,它會學到一個極其「脆弱」的映射,導致微小的預測誤差被災難性地放大,解碼出完全無關的文本。

      因此,向量表示必須具備魯棒性(robustness),能夠容忍來自預測結果的合理誤差。

      為實現這一目標,作者的核心策略是將確定性段自編碼器升級為變分式的 VAE,使其學習將詞元塊映射為一個高斯分布,從而平滑向量空間。同時,作者在向量空間上引入 Dropout,迫使自編碼器學習一種冗余的、抗干擾的向量表示。

      綜合這些技術,作者最終構建的自編碼器能將 K=4 的詞元塊映射到一個 128 維的向量中。它能承受標準差約 σ≈0.3 的高斯噪聲,同時依然保持超過 99.9% 的重建準確率。

      模型訓練

      通過自編碼器,原始的離散詞元序列被轉換為一個更緊湊的連續向量序列。因此,語言建模的目標也從預測下一個詞元,演變為預測這個新序列中的下一個向量:



      從離散到連續的轉變,帶來了一個生成建模上的挑戰。標準語言模型依賴 softmax 層計算有限詞表上的概率,但這在無限的連續空間中無法實現。



      效率是此處的關鍵。如果取 Diffusion、flow matching 這類模型作為生成頭,將需要進行多步迭代生成來預測向量,會抵消 CALM 在減少生成步數上的優勢。

      因此,生成頭最好能具備高質量、單步生成的能力。為此,作者采用了一個基于能量分數(Energy Score)的訓練目標。能量分數不依賴于概率密度,而是通過樣本間的距離來評估生成分布的質量。對于模型預測的分布 P 和觀測到的真值 y,其能量分數為:



      該指標巧妙地平衡了兩個目標:第一項驅動多樣性,鼓勵模型生成不同的樣本,防止模式坍塌;第二項驅動準確性,使生成結果逼近真實數據。

      從統計學角度,能量分數是一種嚴格準確的評分規則(strictly proper scoring rule),理論上保證了最大化該分數等同于讓模型學習真實的數據分布。在實踐中,作者通過蒙特卡洛采樣來估計能量分數,并將其作為損失函數來訓練模型。

      在模型結構上,為了使生成頭能夠產出多樣的樣本,其預測同時取決于兩個輸入:來自 Transformer 的確定性隱藏狀態(提供上下文),以及一個額外的隨機噪聲向量(提供隨機性)。通過在生成時采樣不同的噪聲,模型便能從同一個上下文中生成符合條件分布的、多樣的輸出向量。





      性能評估

      由于 CALM 框架無法計算顯式概率,傳統的困惑度(Perplexity)指標不再適用。因此,我們還需要一個無似然(likelihood-free)的評估方法。

      作者引入了經典的Brier Score作為解決方案,這一指標最早由氣象學家 Glenn W. Brier 在 1950 年提出,用來評估天氣預報的準確性,目前已成為評估概率預測校準度(calibration)的標準工具之一。其定義為:



      與困惑度類似,Brier 分數的設計使其僅在模型準確擬合數據分布時才能達到最優,這一點可以從其期望值的分解中看出:



      盡管 Brier 分數的仍由概率定義,但作者指出,它可以通過蒙特卡洛方法進行無偏估計,且僅需從模型中采樣兩個樣本:





      為了構建一個全面的評估指標,作者將 Brier 分數從單個詞元擴展到 n-gram,并最終定義了BrierLM,即 n=1 至 4 的 Brier-n 分數的幾何平均值。BrierLM 是一個通用的評估指標,同樣適用于傳統語言模型。

      通過在標準 Transformer 模型上進行驗證,作者發現BrierLM 與交叉熵損失幾乎線性相關(Pearson 相關系數為 - 0.966),表明 BrierLM 可以作為困惑度在無似然場景下的有效替代。



      可控生成

      最后一個挑戰是實現給定溫度下的可控生成。傳統方法通過調整 logits 來調整輸出的概率分布,但對于像 CALM 這樣只給出采樣器而不提供 logits 的無似然模型,此路不通。



      對于更一般的溫度 T,作者借鑒伯努利工廠(Bernoulli Factory)理論,將此思想推廣為一個通用的拒絕采樣算法。

      然而,純粹的拒絕采樣算法可能因極高的拒絕率而變得低效。為此,作者進一步提出了一種高效的批處理近似(batch approximation)算法。該算法一次性從模型中采樣大量的樣本,然后以組合的方式在批內尋找符合條件的重復樣本。這種方法極大地提升了樣本的利用率。作者證明了該近似算法是漸進無偏的,即隨著批處理大小的增加,其輸出的樣本分布會收斂于精確的目標分布。

      實驗效果

      實驗結果顯示,CALM 能夠建立一個更優的性能 - 計算前沿:例如,一個 371M 參數的 CALM-M 模型,其性能與 281M 的 Transformer 基線相當,但所需的訓練 FLOPs 減少了 44%,推理 FLOPs 減少了 34%。這證明 CALM 通過犧牲少量同規模下的性能,換取了顯著的計算效率提升,從而能在有限的計算預算下達到更高的性能水平。



      實驗進一步驗證了語義帶寬 K 作為一個全新 scale 維度的有效性。作者探究了不同 K 值對模型性能 - 計算權衡的影響。結果顯示,隨著 K 從 1 增加到 4,模型的計算成本幾乎成比例下降,而性能僅有輕微的回落。

      這證明了通過提升單步生成的語義密度,是優化語言模型效率的一條高效路徑。值得注意的是,當 K=1 時,CALM 的性能落后于其離散基線,這表明 CALM 的架構設計仍有未來優化的空間。



      為了驗證生成頭的設計選擇,作者對比了三種連續生成方案:本文使用的能量分數、擴散模型(Diffusion)與流匹配模型(Flow Matching)。實驗表明:

      • 擴散模型在該任務上表現不佳。
      • 流匹配模型雖然初期收斂更快,但最終的性能上限低于能量模型。
      • 能量分數方法不僅達到了最高的性能,且能夠在單步內完成高質量生成,而另外兩者則依賴于迭代采樣。



      結語

      作者也指出了該框架未來的多個關鍵研究方向:首先,作為框架基石的自編碼器可以被設計得更懂「語義」,而不僅是關注重建;核心生成模型也可以探索更強大的端到端架構與訓練目標;在采樣層面,需要研究更輕量高效的算法以降低推理開銷。

      更宏觀地,一個重要的方向是建立包含語義帶寬 K 的全新縮放定律。

      最后,從離散到連續的范式轉移,也要求學術界重新改造現有的算法生態,例如如何將強化學習、知識蒸餾等技術適配到這個無似然的框架中。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1737年,岳鐘琪51歲出獄,從大將軍被貶為平民,回成都老家隱居

      1737年,岳鐘琪51歲出獄,從大將軍被貶為平民,回成都老家隱居

      詩意世界
      2025-11-06 10:58:10
      我代表公司和同學簽1.2億大單,同學說他被裁員,我:合同不簽了

      我代表公司和同學簽1.2億大單,同學說他被裁員,我:合同不簽了

      秋風專欄
      2025-11-04 16:22:01
      完爆胡明軒+碾壓趙睿!廣東“真核”狂轟48+9+6,保送杜鋒進決賽

      完爆胡明軒+碾壓趙睿!廣東“真核”狂轟48+9+6,保送杜鋒進決賽

      緋雨兒
      2025-11-07 12:32:26
      翁帆新住所曝光:家里還掛著楊振寧103歲的生日橫幅

      翁帆新住所曝光:家里還掛著楊振寧103歲的生日橫幅

      金牌娛樂
      2025-11-07 10:48:32
      32歲女子負債30萬快還不上了,工作還是體制內,網友:錢花哪里了

      32歲女子負債30萬快還不上了,工作還是體制內,網友:錢花哪里了

      唐小糖說情感
      2025-11-07 08:47:59
      為什么女朋友覺得年入百萬很簡單?網友:她一定有個做足浴的閨蜜

      為什么女朋友覺得年入百萬很簡單?網友:她一定有個做足浴的閨蜜

      帶你感受人間冷暖
      2025-11-04 16:38:29
      中央定調,退休新政落地,1970年以前出生的更加受益?一起看看

      中央定調,退休新政落地,1970年以前出生的更加受益?一起看看

      好賢觀史記
      2025-11-06 08:21:45
      正式離隊,郭士強發聲,官宣決定,出發美國,籃協看懂了

      正式離隊,郭士強發聲,官宣決定,出發美國,籃協看懂了

      樂聊球
      2025-11-07 09:07:21
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯盟
      2025-08-01 12:21:35
      普京吹上天的核導彈被炸成廢鐵!烏克蘭端了老家,專家:舊貨改裝

      普京吹上天的核導彈被炸成廢鐵!烏克蘭端了老家,專家:舊貨改裝

      芊芊子吟
      2025-11-07 15:50:02
      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      如果在家突發心梗,黃金5分鐘自救法,快了解,關鍵時刻可自救

      風信子的花
      2025-10-24 23:59:39
      廣東陽春市一個裝機容量500千瓦的小水電站拍賣,21人搶669萬成交

      廣東陽春市一個裝機容量500千瓦的小水電站拍賣,21人搶669萬成交

      天天話事
      2025-11-07 08:43:17
      官癮很大?杭州某校讓小學生在門口敬禮迎車輛,涉事校長曾被報道

      官癮很大?杭州某校讓小學生在門口敬禮迎車輛,涉事校長曾被報道

      火山詩話
      2025-11-07 12:14:45
      小米“雙11”戰報奪冠被打臉:自家統計的數據,純屬自娛自樂

      小米“雙11”戰報奪冠被打臉:自家統計的數據,純屬自娛自樂

      吃瓜局
      2025-11-07 14:15:39
      時長17分鐘的不雅視頻在網絡熱傳,矛頭指向兩位醫生,詳情曝出

      時長17分鐘的不雅視頻在網絡熱傳,矛頭指向兩位醫生,詳情曝出

      胡侃社會百態
      2025-11-06 09:33:43
      中美呼吁立即撤僑,中資遭針對性襲擊,美俄歐再次得到血淚教訓

      中美呼吁立即撤僑,中資遭針對性襲擊,美俄歐再次得到血淚教訓

      歷史求知所
      2025-11-07 17:10:03
      起風了!鄭麗文出席統派活動,紀念先烈吳石,藍營掀入黨、歸黨潮

      起風了!鄭麗文出席統派活動,紀念先烈吳石,藍營掀入黨、歸黨潮

      史鹷的生活科普
      2025-11-07 16:46:22
      “吃飯七分飽”被推翻了?醫生:過了52歲,吃飯盡量要做到這3點

      “吃飯七分飽”被推翻了?醫生:過了52歲,吃飯盡量要做到這3點

      小舟談歷史
      2025-10-11 09:14:24
      今晚,北京嚴重擁堵!

      今晚,北京嚴重擁堵!

      美麗大北京
      2025-11-07 11:32:05
      政治和軍事難平衡,波克羅夫斯克不行了,烏軍戰場形勢不盡如人意

      政治和軍事難平衡,波克羅夫斯克不行了,烏軍戰場形勢不盡如人意

      山河路口
      2025-11-07 12:45:23
      2025-11-07 18:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11672文章數 142500關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      白百何回應東京電影節爭議

      財經要聞

      荷蘭政府:安世中國將很快恢復芯片供應

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態度原創

      教育
      時尚
      數碼
      藝術
      軍事航空

      教育要聞

      法治陽光 護航成長——膠州市九龍慧海小學法治副校長聘任暨“防欺凌”專題講座

      有品味的中年阿姨,穿衣搭配都有4個共同點,學會了優雅到老

      數碼要聞

      每碟片3TB!希捷銀河Exos M 30TB硬盤圖賞

      藝術要聞

      Donna Young:美國當代藝術家

      軍事要聞

      中國第三艘航空母艦福建艦入列

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久91精品牛牛| 日韩人妻无码精品久久| 亚洲熟妇无码av另类vr影视 | 亚洲无线一二三四区手机| 夜夜春久久天堂亚洲精品| 灵寿县| 中文字幕第一页国产精品| 亚洲午夜无码久久久久蜜臀av | 国产精品久久久久久福利| 国产老熟女国语免费视频| 最新午夜男女福利片视频| 国产成人8x视频网站入口| 蜜臀av一区二区三区在线| 无码熟妇人妻av影音先锋| 日韩V欧美V中文在线| 午夜激情福利在线免费看| 久久亚洲精品日本波多野结衣| 2020精品自拍视频曝光| 双乳奶水饱满少妇呻吟免费看| 视频一区二区不中文字幕| 97久久精品无码一区二区| 欧美日韩精品一区二区在线观看| 亚洲精品成人一二三专区| 国产精品制服丝袜第一页 | 日韩无套无码精品| 久久天天躁狠狠躁夜夜躁2o2o| 黄色国产精品一区二区三区| 无码成人精品区在线观看| 自拍偷在线精品自拍偷99| 中文字幕av日韩有码| 国偷自产一区二区三区在线视频 | 国产一区二区三区在线看| 国产av无码专区亚洲av软件| 精品国偷自产在线视频99| 97色成人综合网站| 亚洲精品在线少妇内射| 国产成人免费午夜在线观看| 免费无码av片在线观看中文| 亚洲熟女乱一区二区三区| gogogo高清在线播放免费| 99精品久久精品|