![]()
眾所周知,大型語言模型(LLM)的根本運作方式是預測下一個 token(詞元),能夠保證生成的連貫性和邏輯性,但這既是 LLM 強大能力的「靈魂」所在,也是其枷鎖,將導致高昂的計算成本和響應延遲。
可以說,業界「苦」LLM 效率久矣,為了解決這一瓶頸,研究人員進行了多種嘗試。
其實從根本上分析,大型語言模型(LLM)的效率是受限于其逐個詞元生成的順序過程。那如果 LLM 預測的不再是「下一個詞元」,而是「若干個詞元」的話,是不是會帶來不一樣的效果?
為此,騰訊微信 AI 聯合清華大學在新發布論文中提出了一種新方法 ——連續自回歸語言模型(CALM),模型不再預測下一個詞元,而是預測下一個連續向量。
具體來看,CALM 使用高保真自編碼器將 K 個詞元壓縮成一個連續向量,并能以超過 99.9% 的準確率從中重構原始詞元,將語言建模為一系列連續向量,而非離散詞元,從而將生成步驟的數量減少了 K 倍。
從效果上來看,這種方法顯著改善性能與計算成本之間的權衡,在更低的計算成本下,性能可以與強大的離散基線模型相媲美。更重要的是,這是一種新的范式,為構建超高效語言模型提供了一種強大且可擴展的途徑。
![]()
- 論文鏈接:https://arxiv.org/pdf/2510.27688
而論文一經發布,就引起了業界熱議。
有網友認為,「這可能是人工智能領域的下一個重大范式轉變」「如果這種模型能夠大規模應用,那么現有的所有語言模型都將過時。」
![]()
離散詞元:LLM 的效率瓶頸
大語言模型(LLMs)的成功與其高昂的計算成本相伴相生。作者認為,其效率問題的根源,在于當前所有模型都遵循的一個基礎范式:在離散的詞元(token)序列上進行自回歸預測。問題的關鍵并非自回歸機制本身,而在于離散詞元的內在局限性。這一局限性體現在兩個層面:
- 首先,離散詞元的信息密度極低:以一個 32K 大小的詞表為例,每個詞元所承載的信息量僅為 15 比特 (log2 詞表大小)。即使模型擁有強大的推理和表征能力,它在每一步中也只能產出一個信息量極低的單元,這構成了效率的直接瓶頸。
- 其次,該信息密度難以擴展:若要讓離散詞元承載更豐富的語義(如短語),詞表規模將指數級增長,使得模型在計算上幾乎不可行。離散表示的本質,為單步生成的信息吞吐量設置了上限。
這揭示了一個根本性的矛盾:模型強大的表征能力,與預測任務的過細粒度之間,形成了「強模型、弱任務」的不匹配。我們擁有了參數規模巨大的模型,其能力卻被束縛在一個低效、冗余的生成框架之中。
CALM:從離散詞元到連續向量
CALM 的核心思想是將語言建模的基礎任務從預測離散的詞元,轉向預測連續的向量。這一范式轉移的可行性基于一個高保真度的自編碼器(Autoencoder)。它能將一個由 K 個詞元組成的文本塊壓縮為一個稠密的連續向量,并能以超過 99.9% 的準確率從該向量中重建原始詞元。
因此,語言模型只需預測代表下一個文本塊的連續向量,即可通過自編碼器還原回 K 個詞元,從而將自回歸生成的總步數減少為原來的 1/K。
![]()
然而,從離散到連續的轉變,也讓一些傳統方法失效,帶來了一系列技術挑戰:
- 向量表示:如何設計自編碼器,以產出既能無損重建、又平滑魯棒的向量表示,以供下游模型學習?
- 模型訓練:向量空間是無限且不可數的,無法直接計算概率分布。如何訓練模型來進行向量預測?
- 性能評估:在無法計算概率的情況下,困惑度不再可用。如何準確地評估模型性能?
- 可控生成:溫度采樣等控制生成多樣性的技術依賴于對輸出概率的顯式調整。對黑盒采樣的框架,如何實現類似的控制?
圍繞這些挑戰,作者建立了一套完整的無似然技術體系,使 CALM 這一新范式得以實現。
自編碼器
實現 CALM 框架的基礎,是構建一個高保真度的自編碼器,用以建立離散詞元與連續向量之間的雙向映射。它由兩部分組成:
- 編碼器:將 K 個詞元的文本塊壓縮為一個連續向量。
- 解碼器:將該向量重建為原始的 K 個詞元。
這一過程的可行性在于,理論上一個浮點數向量的信息容量遠超離散詞元。在實踐中,作者嘗試將 K=4 個詞元壓縮為向量,僅需 10 個維度便可實現超過 99.9% 的重建準確率。
![]()
考慮到,在 CALM 的實際生成流程中,解碼器所接收的向量并非來自編碼器的「真值」,而是由語言模型預測出的結果。任何生成模型的預測都必然存在誤差。如果自編碼器只考慮重建,它會學到一個極其「脆弱」的映射,導致微小的預測誤差被災難性地放大,解碼出完全無關的文本。
因此,向量表示必須具備魯棒性(robustness),能夠容忍來自預測結果的合理誤差。
為實現這一目標,作者的核心策略是將確定性段自編碼器升級為變分式的 VAE,使其學習將詞元塊映射為一個高斯分布,從而平滑向量空間。同時,作者在向量空間上引入 Dropout,迫使自編碼器學習一種冗余的、抗干擾的向量表示。
綜合這些技術,作者最終構建的自編碼器能將 K=4 的詞元塊映射到一個 128 維的向量中。它能承受標準差約 σ≈0.3 的高斯噪聲,同時依然保持超過 99.9% 的重建準確率。
模型訓練
通過自編碼器,原始的離散詞元序列被轉換為一個更緊湊的連續向量序列。因此,語言建模的目標也從預測下一個詞元,演變為預測這個新序列中的下一個向量:
![]()
從離散到連續的轉變,帶來了一個生成建模上的挑戰。標準語言模型依賴 softmax 層計算有限詞表上的概率,但這在無限的連續空間中無法實現。
![]()
效率是此處的關鍵。如果取 Diffusion、flow matching 這類模型作為生成頭,將需要進行多步迭代生成來預測向量,會抵消 CALM 在減少生成步數上的優勢。
因此,生成頭最好能具備高質量、單步生成的能力。為此,作者采用了一個基于能量分數(Energy Score)的訓練目標。能量分數不依賴于概率密度,而是通過樣本間的距離來評估生成分布的質量。對于模型預測的分布 P 和觀測到的真值 y,其能量分數為:
![]()
該指標巧妙地平衡了兩個目標:第一項驅動多樣性,鼓勵模型生成不同的樣本,防止模式坍塌;第二項驅動準確性,使生成結果逼近真實數據。
從統計學角度,能量分數是一種嚴格準確的評分規則(strictly proper scoring rule),理論上保證了最大化該分數等同于讓模型學習真實的數據分布。在實踐中,作者通過蒙特卡洛采樣來估計能量分數,并將其作為損失函數來訓練模型。
在模型結構上,為了使生成頭能夠產出多樣的樣本,其預測同時取決于兩個輸入:來自 Transformer 的確定性隱藏狀態(提供上下文),以及一個額外的隨機噪聲向量(提供隨機性)。通過在生成時采樣不同的噪聲,模型便能從同一個上下文中生成符合條件分布的、多樣的輸出向量。
![]()
![]()
性能評估
由于 CALM 框架無法計算顯式概率,傳統的困惑度(Perplexity)指標不再適用。因此,我們還需要一個無似然(likelihood-free)的評估方法。
作者引入了經典的Brier Score作為解決方案,這一指標最早由氣象學家 Glenn W. Brier 在 1950 年提出,用來評估天氣預報的準確性,目前已成為評估概率預測校準度(calibration)的標準工具之一。其定義為:
![]()
與困惑度類似,Brier 分數的設計使其僅在模型準確擬合數據分布時才能達到最優,這一點可以從其期望值的分解中看出:
![]()
盡管 Brier 分數的仍由概率定義,但作者指出,它可以通過蒙特卡洛方法進行無偏估計,且僅需從模型中采樣兩個樣本:
![]()
![]()
為了構建一個全面的評估指標,作者將 Brier 分數從單個詞元擴展到 n-gram,并最終定義了BrierLM,即 n=1 至 4 的 Brier-n 分數的幾何平均值。BrierLM 是一個通用的評估指標,同樣適用于傳統語言模型。
通過在標準 Transformer 模型上進行驗證,作者發現BrierLM 與交叉熵損失幾乎線性相關(Pearson 相關系數為 - 0.966),表明 BrierLM 可以作為困惑度在無似然場景下的有效替代。
![]()
可控生成
最后一個挑戰是實現給定溫度下的可控生成。傳統方法通過調整 logits 來調整輸出的概率分布,但對于像 CALM 這樣只給出采樣器而不提供 logits 的無似然模型,此路不通。
![]()
對于更一般的溫度 T,作者借鑒伯努利工廠(Bernoulli Factory)理論,將此思想推廣為一個通用的拒絕采樣算法。
然而,純粹的拒絕采樣算法可能因極高的拒絕率而變得低效。為此,作者進一步提出了一種高效的批處理近似(batch approximation)算法。該算法一次性從模型中采樣大量的樣本,然后以組合的方式在批內尋找符合條件的重復樣本。這種方法極大地提升了樣本的利用率。作者證明了該近似算法是漸進無偏的,即隨著批處理大小的增加,其輸出的樣本分布會收斂于精確的目標分布。
實驗效果
實驗結果顯示,CALM 能夠建立一個更優的性能 - 計算前沿:例如,一個 371M 參數的 CALM-M 模型,其性能與 281M 的 Transformer 基線相當,但所需的訓練 FLOPs 減少了 44%,推理 FLOPs 減少了 34%。這證明 CALM 通過犧牲少量同規模下的性能,換取了顯著的計算效率提升,從而能在有限的計算預算下達到更高的性能水平。
![]()
實驗進一步驗證了語義帶寬 K 作為一個全新 scale 維度的有效性。作者探究了不同 K 值對模型性能 - 計算權衡的影響。結果顯示,隨著 K 從 1 增加到 4,模型的計算成本幾乎成比例下降,而性能僅有輕微的回落。
這證明了通過提升單步生成的語義密度,是優化語言模型效率的一條高效路徑。值得注意的是,當 K=1 時,CALM 的性能落后于其離散基線,這表明 CALM 的架構設計仍有未來優化的空間。
![]()
為了驗證生成頭的設計選擇,作者對比了三種連續生成方案:本文使用的能量分數、擴散模型(Diffusion)與流匹配模型(Flow Matching)。實驗表明:
- 擴散模型在該任務上表現不佳。
- 流匹配模型雖然初期收斂更快,但最終的性能上限低于能量模型。
- 能量分數方法不僅達到了最高的性能,且能夠在單步內完成高質量生成,而另外兩者則依賴于迭代采樣。
![]()
結語
作者也指出了該框架未來的多個關鍵研究方向:首先,作為框架基石的自編碼器可以被設計得更懂「語義」,而不僅是關注重建;核心生成模型也可以探索更強大的端到端架構與訓練目標;在采樣層面,需要研究更輕量高效的算法以降低推理開銷。
更宏觀地,一個重要的方向是建立包含語義帶寬 K 的全新縮放定律。
最后,從離散到連續的范式轉移,也要求學術界重新改造現有的算法生態,例如如何將強化學習、知識蒸餾等技術適配到這個無似然的框架中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.