網易首頁 > 網易號 > 正文申請入駐

微信、清華提出CALM，新范式實現「離散詞元」到「連續向量」轉變

2025-11-07 14:26:29　來源: 機器之心Pro

北京舉報

分享至

眾所周知，大型語言模型（LLM）的根本運作方式是預測下一個 token（詞元），能夠保證生成的連貫性和邏輯性，但這既是 LLM 強大能力的「靈魂」所在，也是其枷鎖，將導致高昂的計算成本和響應延遲。

可以說，業界「苦」LLM 效率久矣，為了解決這一瓶頸，研究人員進行了多種嘗試。

其實從根本上分析，大型語言模型（LLM）的效率是受限于其逐個詞元生成的順序過程。那如果 LLM 預測的不再是「下一個詞元」，而是「若干個詞元」的話，是不是會帶來不一樣的效果？

為此，騰訊微信 AI 聯合清華大學在新發布論文中提出了一種新方法 ——連續自回歸語言模型（CALM），模型不再預測下一個詞元，而是預測下一個連續向量。

具體來看，CALM 使用高保真自編碼器將 K 個詞元壓縮成一個連續向量，并能以超過 99.9% 的準確率從中重構原始詞元，將語言建模為一系列連續向量，而非離散詞元，從而將生成步驟的數量減少了 K 倍。

從效果上來看，這種方法顯著改善性能與計算成本之間的權衡，在更低的計算成本下，性能可以與強大的離散基線模型相媲美。更重要的是，這是一種新的范式，為構建超高效語言模型提供了一種強大且可擴展的途徑。

論文鏈接：https://arxiv.org/pdf/2510.27688

而論文一經發布，就引起了業界熱議。

有網友認為，「這可能是人工智能領域的下一個重大范式轉變」「如果這種模型能夠大規模應用，那么現有的所有語言模型都將過時。」

離散詞元：LLM 的效率瓶頸

大語言模型（LLMs）的成功與其高昂的計算成本相伴相生。作者認為，其效率問題的根源，在于當前所有模型都遵循的一個基礎范式：在離散的詞元（token）序列上進行自回歸預測。問題的關鍵并非自回歸機制本身，而在于離散詞元的內在局限性。這一局限性體現在兩個層面：

首先，離散詞元的信息密度極低：以一個 32K 大小的詞表為例，每個詞元所承載的信息量僅為 15 比特 (log2 詞表大小)。即使模型擁有強大的推理和表征能力，它在每一步中也只能產出一個信息量極低的單元，這構成了效率的直接瓶頸。
其次，該信息密度難以擴展：若要讓離散詞元承載更豐富的語義（如短語），詞表規模將指數級增長，使得模型在計算上幾乎不可行。離散表示的本質，為單步生成的信息吞吐量設置了上限。

這揭示了一個根本性的矛盾：模型強大的表征能力，與預測任務的過細粒度之間，形成了「強模型、弱任務」的不匹配。我們擁有了參數規模巨大的模型，其能力卻被束縛在一個低效、冗余的生成框架之中。

CALM：從離散詞元到連續向量

CALM 的核心思想是將語言建模的基礎任務從預測離散的詞元，轉向預測連續的向量。這一范式轉移的可行性基于一個高保真度的自編碼器（Autoencoder）。它能將一個由 K 個詞元組成的文本塊壓縮為一個稠密的連續向量，并能以超過 99.9% 的準確率從該向量中重建原始詞元。

因此，語言模型只需預測代表下一個文本塊的連續向量，即可通過自編碼器還原回 K 個詞元，從而將自回歸生成的總步數減少為原來的 1/K。

然而，從離散到連續的轉變，也讓一些傳統方法失效，帶來了一系列技術挑戰：

向量表示：如何設計自編碼器，以產出既能無損重建、又平滑魯棒的向量表示，以供下游模型學習？
模型訓練：向量空間是無限且不可數的，無法直接計算概率分布。如何訓練模型來進行向量預測？
性能評估：在無法計算概率的情況下，困惑度不再可用。如何準確地評估模型性能？
可控生成：溫度采樣等控制生成多樣性的技術依賴于對輸出概率的顯式調整。對黑盒采樣的框架，如何實現類似的控制？

圍繞這些挑戰，作者建立了一套完整的無似然技術體系，使 CALM 這一新范式得以實現。

自編碼器

實現 CALM 框架的基礎，是構建一個高保真度的自編碼器，用以建立離散詞元與連續向量之間的雙向映射。它由兩部分組成：

編碼器：將 K 個詞元的文本塊壓縮為一個連續向量。
解碼器：將該向量重建為原始的 K 個詞元。

這一過程的可行性在于，理論上一個浮點數向量的信息容量遠超離散詞元。在實踐中，作者嘗試將 K=4 個詞元壓縮為向量，僅需 10 個維度便可實現超過 99.9% 的重建準確率。

考慮到，在 CALM 的實際生成流程中，解碼器所接收的向量并非來自編碼器的「真值」，而是由語言模型預測出的結果。任何生成模型的預測都必然存在誤差。如果自編碼器只考慮重建，它會學到一個極其「脆弱」的映射，導致微小的預測誤差被災難性地放大，解碼出完全無關的文本。

因此，向量表示必須具備魯棒性（robustness），能夠容忍來自預測結果的合理誤差。

為實現這一目標，作者的核心策略是將確定性段自編碼器升級為變分式的 VAE，使其學習將詞元塊映射為一個高斯分布，從而平滑向量空間。同時，作者在向量空間上引入 Dropout，迫使自編碼器學習一種冗余的、抗干擾的向量表示。

綜合這些技術，作者最終構建的自編碼器能將 K=4 的詞元塊映射到一個 128 維的向量中。它能承受標準差約 σ≈0.3 的高斯噪聲，同時依然保持超過 99.9% 的重建準確率。

模型訓練

通過自編碼器，原始的離散詞元序列被轉換為一個更緊湊的連續向量序列。因此，語言建模的目標也從預測下一個詞元，演變為預測這個新序列中的下一個向量：

從離散到連續的轉變，帶來了一個生成建模上的挑戰。標準語言模型依賴 softmax 層計算有限詞表上的概率，但這在無限的連續空間中無法實現。

效率是此處的關鍵。如果取 Diffusion、flow matching 這類模型作為生成頭，將需要進行多步迭代生成來預測向量，會抵消 CALM 在減少生成步數上的優勢。

因此，生成頭最好能具備高質量、單步生成的能力。為此，作者采用了一個基于能量分數（Energy Score）的訓練目標。能量分數不依賴于概率密度，而是通過樣本間的距離來評估生成分布的質量。對于模型預測的分布 P 和觀測到的真值 y，其能量分數為：

該指標巧妙地平衡了兩個目標：第一項驅動多樣性，鼓勵模型生成不同的樣本，防止模式坍塌；第二項驅動準確性，使生成結果逼近真實數據。

從統計學角度，能量分數是一種嚴格準確的評分規則（strictly proper scoring rule），理論上保證了最大化該分數等同于讓模型學習真實的數據分布。在實踐中，作者通過蒙特卡洛采樣來估計能量分數，并將其作為損失函數來訓練模型。

在模型結構上，為了使生成頭能夠產出多樣的樣本，其預測同時取決于兩個輸入：來自 Transformer 的確定性隱藏狀態（提供上下文），以及一個額外的隨機噪聲向量（提供隨機性）。通過在生成時采樣不同的噪聲，模型便能從同一個上下文中生成符合條件分布的、多樣的輸出向量。

性能評估

由于 CALM 框架無法計算顯式概率，傳統的困惑度（Perplexity）指標不再適用。因此，我們還需要一個無似然（likelihood-free）的評估方法。

作者引入了經典的Brier Score作為解決方案，這一指標最早由氣象學家 Glenn W. Brier 在 1950 年提出，用來評估天氣預報的準確性，目前已成為評估概率預測校準度（calibration）的標準工具之一。其定義為：

與困惑度類似，Brier 分數的設計使其僅在模型準確擬合數據分布時才能達到最優，這一點可以從其期望值的分解中看出：

盡管 Brier 分數的仍由概率定義，但作者指出，它可以通過蒙特卡洛方法進行無偏估計，且僅需從模型中采樣兩個樣本：

為了構建一個全面的評估指標，作者將 Brier 分數從單個詞元擴展到 n-gram，并最終定義了BrierLM，即 n=1 至 4 的 Brier-n 分數的幾何平均值。BrierLM 是一個通用的評估指標，同樣適用于傳統語言模型。

通過在標準 Transformer 模型上進行驗證，作者發現BrierLM 與交叉熵損失幾乎線性相關（Pearson 相關系數為 - 0.966），表明 BrierLM 可以作為困惑度在無似然場景下的有效替代。

可控生成

最后一個挑戰是實現給定溫度下的可控生成。傳統方法通過調整 logits 來調整輸出的概率分布，但對于像 CALM 這樣只給出采樣器而不提供 logits 的無似然模型，此路不通。

對于更一般的溫度 T，作者借鑒伯努利工廠（Bernoulli Factory）理論，將此思想推廣為一個通用的拒絕采樣算法。

然而，純粹的拒絕采樣算法可能因極高的拒絕率而變得低效。為此，作者進一步提出了一種高效的批處理近似（batch approximation）算法。該算法一次性從模型中采樣大量的樣本，然后以組合的方式在批內尋找符合條件的重復樣本。這種方法極大地提升了樣本的利用率。作者證明了該近似算法是漸進無偏的，即隨著批處理大小的增加，其輸出的樣本分布會收斂于精確的目標分布。

實驗效果

實驗結果顯示，CALM 能夠建立一個更優的性能 - 計算前沿：例如，一個 371M 參數的 CALM-M 模型，其性能與 281M 的 Transformer 基線相當，但所需的訓練 FLOPs 減少了 44%，推理 FLOPs 減少了 34%。這證明 CALM 通過犧牲少量同規模下的性能，換取了顯著的計算效率提升，從而能在有限的計算預算下達到更高的性能水平。

實驗進一步驗證了語義帶寬 K 作為一個全新 scale 維度的有效性。作者探究了不同 K 值對模型性能 - 計算權衡的影響。結果顯示，隨著 K 從 1 增加到 4，模型的計算成本幾乎成比例下降，而性能僅有輕微的回落。

這證明了通過提升單步生成的語義密度，是優化語言模型效率的一條高效路徑。值得注意的是，當 K=1 時，CALM 的性能落后于其離散基線，這表明 CALM 的架構設計仍有未來優化的空間。

為了驗證生成頭的設計選擇，作者對比了三種連續生成方案：本文使用的能量分數、擴散模型（Diffusion）與流匹配模型（Flow Matching）。實驗表明：

擴散模型在該任務上表現不佳。
流匹配模型雖然初期收斂更快，但最終的性能上限低于能量模型。
能量分數方法不僅達到了最高的性能，且能夠在單步內完成高質量生成，而另外兩者則依賴于迭代采樣。

結語

作者也指出了該框架未來的多個關鍵研究方向：首先，作為框架基石的自編碼器可以被設計得更懂「語義」，而不僅是關注重建；核心生成模型也可以探索更強大的端到端架構與訓練目標；在采樣層面，需要研究更輕量高效的算法以降低推理開銷。

更宏觀地，一個重要的方向是建立包含語義帶寬 K 的全新縮放定律。

最后，從離散到連續的范式轉移，也要求學術界重新改造現有的算法生態，例如如何將強化學習、知識蒸餾等技術適配到這個無似然的框架中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.