![]()
智東西
作者 陳駿達
編輯 李水青
智東西11月5日報道,近日,騰訊微信AI團隊發布的一篇論文在海外AI圈引發廣泛關注。論文提出了一種名為“連續自回歸語言模型(CALM)”的新穎架構。與傳統Transformer相比,CALM直接將訓練大模型所用的計算量減少了44%,推理時的計算量也減少了34%。
CALM的核心邏輯是,將連續的K個token壓縮成一個語義向量,并在生成時直接預測“下一個向量”而非“下一個token”。假設K=4,那么原本需要逐步生成4次的內容,現在只需1步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。
這項研究的相關討論在社交媒體平臺X的閱讀量累計已經超過100萬次,在評論區引起熱議。
提示詞分享網站godofprompt.ai的聯合創始人Robert Youssef認為,CALM或許就是AI領域下一次大的范式轉變,徹底顛覆了所有大語言模型賴以構建的“下一個token預測”范式,讓大模型不再逐字思考,而是以想法為單位進行思考,簡直不可思議。這一方法如果能成功擴展,那么現有的LLM都將過時。
![]()
還有多位網友認為CALM提出的概念值得探討,但關鍵是需要在更大規模的Scaling過程中獲得驗證。
![]()
然而,也有人質疑CALM的前景。這位網友稱,CALM只是楊立昆的一個老舊想法,訓練不穩定,基礎很薄弱,且無法擴展,是一種“有缺陷的方案”。
![]()
CALM論文的作者均在微信AI團隊任職,第一作者邵晨澤曾在中科院計算所智能信息處理實驗室完成博士學業。這篇論文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清華大學求真學院的在讀學生。為方便后續研究,研究使用的預訓練Autoencoder以及CALM的檢查點均可供下載。
![]()
論文地址:
https://arxiv.org/abs/2510.27688
項目主頁:
https://github.com/shaochenze/calm?tab=readme-ov-file
一、性能比肩同量級Transformer,訓練計算量減少44%
那么,在與Transformer的對決中,CALM究竟表現出了何種優勢?
在評估兩者的性能前,CALM團隊首先需要打造適合的評估工具。過去業內用來衡量語言模型預測質量的一個指標是困惑度(Perplexity),直觀地說,它表示模型在面對真實語言數據時“有多困惑”——困惑度越低,說明模型越自信、預測越準確。
困惑度評估并不適用于CALM的架構。作者因此提出新的評價體系——BrierLM指標。這一指標源于經典的Brier Score,由氣象學家Glenn W. Brier在1950年提出,用來評估天氣預報的好壞。
BrierLM通過組合不同n-gram的Brier得分,提供了一個統一的、可比較的語言建模指標。它利用模型采樣結果即可無偏估計預測質量,既能衡量準確性,又能懲罰過度確定性。
實驗證明,BrierLM與交叉熵幾乎線性相關,可作為困惑度的替代品,并適用于其他隱式生成模型。
![]()
CALM團隊使用The Pile語料訓練了多款CALM架構的模型,然后用WikiText-103數據集來測試模型的性能。
訓練時,CALM團隊分別打造了不同參數量的模型,分別為0.371B參數量的CALM-M、0.735B參數量的CALM-L和1.82B參數量的CALM-XL。
當K=4,也就是每個連續向量對應4個原始token時,CALM-M的性能略遜于0.281B參數量的Transformer-S模型,但CALM-M的訓練計算量比Transformer-S少44%,推理計算量少34%,展現出更好的算力-性能平衡。隨著模型變大,性能也穩定提升,就像普通Transformer一樣。
![]()
CALM團隊還研究了語義帶寬K的作用。隨著語義帶寬K增大,計算需求線性下降,而但性能下降并不明顯。
當K從1變為2時,模型所需的訓練算力大幅減少50%左右;當K=4時,CALM實現了效率與性能的較好平衡;K=8時,其性能出現一定下滑。
CALM團隊認為這是模型尺寸導致的。以后,隨著模型尺寸的提升,CALM架構或許可以一次性預測更多token,從更大的語義帶寬中受益。
![]()
CALM的作者們還比較了不同生成頭的性能。能量模型單步生成性能最高,而且不需要迭代采樣,一次就能生成結果。擴散與流匹配模型雖可行,但要么性能不佳,要么代價高昂。
![]()
二、從離散token到連續向量,語言模型如何駛入語義“高速公路”?
那么,CALM究竟為何要進行從“預測token”到“預測向量”的巨大轉變呢?這一轉變,又是如何讓CALM以更低的算力需求,實現比肩Transformer的生成效果?
CALM的第一作者邵晨澤在其撰寫的博客中,解釋了打造CALM的原因。現代大語言模型好比一個“法拉利級”的引擎——它擁有數千億參數,能夠理解語義、執行復雜推理、生成高質量文本與代碼。
然而,這一引擎卻被限制在一條狹窄的鄉間小路上,永遠只能卡在第一檔。這條小路就是自回歸生成機制:模型一次只能預測一個離散token,無論引擎多強,吞吐量都會受到限制,這導致了模型推理速度慢、計算成本高等問題。
過去,人們試圖通過擴大基本單位來“拓寬道路”。從字符級到子詞級(subword token)的變化,確實提升了效率。
但如今,這條路徑已觸及“離散token的物理極限”:在一個典型的32K詞表中,每個生成步驟的語義帶寬約為15位,要想將帶寬翻倍,詞表規模必須指數級增長——這使得模型在計算上幾乎不可行。換句話說,離散token的Scaling已經碰壁了。
如果離散token是瓶頸,那么我們就需要一種具有可擴展語義帶寬的新型文本單元。CALM代表從離散到連續的變化,其核心思想就是讓模型不再預測下一個token,而是預測下一個向量——一個壓縮了連續K個token的語義信息。
![]()
這一改變相當于為大模型開辟了一條多車道的高速公路——每次生成能攜帶更多語義,顯著減少自回歸步數,從而大幅提升效率。
CALM的第一步是建立一個高保真自編碼器(Autoencoder),在離散token與連續向量之間建立雙向映射。
編碼器的作用是將一段K個token壓縮為一個連續向量,而解碼器從該向量中重建出原始tokens。
通過交叉熵損失訓練后,該模型能以99.9%的精度重構文本片段。論文指出,這是可行的:一個浮點向量的比特容量遠高于一個離散token,足以存儲多倍的信息。
然而,高精度重構并不代表模型的穩定性。若向量空間過于“脆弱”,輕微噪聲就可能使解碼器輸出完全不同的文本。為此,作者引入了三項關鍵改進:
變分正則化(VAE):令編碼器輸出高斯分布,使潛空間更平滑;
KL裁剪(KL Clipping):防止潛變量塌縮到無效維度;
雙重Dropout:對輸入與潛向量加入噪聲,迫使模型學習冗余且穩定的表征。
結果是一個既緊湊又穩健的連續語義表示:當K=4、潛向量維度為128時,模型在加入約0.3方差高斯噪聲的情況下,仍能保持99.9%的重構精度。
這一語義壓縮器為CALM奠定了堅實基礎——讓語言可以在一個可連續建模、可容錯的向量空間中流動。
三、 怎么讓模型預測下一個向量?靠“無似然建模”
有了向量化的語義序列,語言建模任務變成了預測下一個連續向量。然而,如何教會模型進行下一個向量預測,又成了新的挑戰。
如今,幾乎所有主流大模型都采用最大似然訓練(Maximum Likelihood Estimation)——即通過softmax計算出“每個token出現的概率”,并最大化訓練數據的似然值的做法。
這樣的訓練方式要求模型能在一個離散的詞表中明確地為每個token給出概率分布,但在連續向量空間中,沒有有限詞表,softmax無法定義概率分布。
因此,CALM放棄了最大似然訓練,轉而采用無似然建模(likelihood-free modeling)。這種方法不再要求模型顯式計算概率,改用間接目標函數,讓模型學會生成與數據分布相似的樣本。
簡單來說,模型不再告訴你“這個詞的概率是多少”,而是直接生成一個向量,讓它盡可能接近真實的語義向量分布。
CALM的作者團隊嘗試了多種無似然方法(如 Diffusion、Flow Matching),但最終提出并驗證了最優方案——基于能量評分(Energy Score)的生成頭(generative head)。
![]()
▲CALM的模型架構
這一生成頭接收Transformer的隱藏狀態和一個隨機噪聲向量作為輸入,在連續空間中預測下一個語義向量。通過優化能量得分,模型能夠在不計算顯式概率的情況下,學會生成既多樣又符合語義規律的向量序列。
能量得分是一種嚴格正確的評分規則,不依賴概率密度,而以樣本間距離衡量預測分布的好壞。它同時平衡兩種目標:
(1)多樣性項懲罰過度自信、鼓勵多樣化生成;
(2)保真項獎勵預測與真實向量接近。
模型通過最大化能量得分,使其隱式分布逼近真實數據分布。為了實現高效訓練,作者采用蒙特卡洛估計,僅需少量樣本即可獲得無偏梯度。
這種方法帶來了兩大優勢。首先,不同于擴散模型需上百次采樣,Energy Head一步即可生成下一個向量;其次,這一方法的通用性強,只需能采樣即可訓練,無需顯式概率公式。
在推理時,CALM將預測向量傳入預訓練的解碼器,還原出離散token,再經輕量MLP壓縮輸入到Transformer,實現完整的自回歸循環。
在傳統的LLM中,調整溫度(temperature)是控制生成“創造力”的關鍵手段。模型在生成時會輸出一組logits——也就是每個候選token的未歸一化得分。通過將這些logits除以溫度參數T,再經過softmax,就能得到新的概率分布。
然而,CALM沒有logits。因此,其背后團隊提出了基于拒絕采樣與Bernoulli Factory理論的全新算法:
(1)當溫度T=1/n時,只需抽取n個樣本,若全相同則接受;
(2)對任意T,可分解為整數與小數部分并通過二階段采樣實現。
CALM團隊還設計了批量近似算法,可顯著提升效率且在理論上無偏差。這使得CALM及其他隱式模型能夠像普通大語言模型一樣實現可控生成。
結語:大模型探索Scaling新路徑
未來,CALM的作者團隊計劃繼續在架構和算法方面進行更多優化,包括設計更優的自編碼器、開發更強大的架構以及提出更輕量級的采樣技術。
他們還希望探索CALM的Scaling特性,驗證一大關鍵假設:更大模型是否具備支撐更高語義帶寬的必需容量。CALM的作者們認為,“語義帶寬K”已成為繼參數規模與數據量之后,大模型性能的第三個可擴展維度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.