<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      微信AI團隊,悄悄干了件大事,算力消耗暴降44%!

      0
      分享至


      智東西
      作者 陳駿達
      編輯 李水青

      智東西11月5日報道,近日,騰訊微信AI團隊發布的一篇論文在海外AI圈引發廣泛關注。論文提出了一種名為“連續自回歸語言模型(CALM)”的新穎架構。與傳統Transformer相比,CALM直接將訓練大模型所用的計算量減少了44%,推理時的計算量也減少了34%

      CALM的核心邏輯是,將連續的K個token壓縮成一個語義向量,并在生成時直接預測“下一個向量”而非“下一個token”。假設K=4,那么原本需要逐步生成4次的內容,現在只需1步即可完成,使其能在一次生成中輸出更多信息,大幅提升效率。

      這項研究的相關討論在社交媒體平臺X的閱讀量累計已經超過100萬次,在評論區引起熱議。

      提示詞分享網站godofprompt.ai的聯合創始人Robert Youssef認為,CALM或許就是AI領域下一次大的范式轉變,徹底顛覆了所有大語言模型賴以構建的“下一個token預測”范式,讓大模型不再逐字思考,而是以想法為單位進行思考,簡直不可思議。這一方法如果能成功擴展,那么現有的LLM都將過時。


      還有多位網友認為CALM提出的概念值得探討,但關鍵是需要在更大規模的Scaling過程中獲得驗證。


      然而,也有人質疑CALM的前景。這位網友稱,CALM只是楊立昆的一個老舊想法,訓練不穩定,基礎很薄弱,且無法擴展,是一種“有缺陷的方案”。


      CALM論文的作者均在微信AI團隊任職,第一作者邵晨澤曾在中科院計算所智能信息處理實驗室完成博士學業。這篇論文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清華大學求真學院的在讀學生。為方便后續研究,研究使用的預訓練Autoencoder以及CALM的檢查點均可供下載。


      論文地址:

      https://arxiv.org/abs/2510.27688

      項目主頁:

      https://github.com/shaochenze/calm?tab=readme-ov-file

      一、性能比肩同量級Transformer,訓練計算量減少44%

      那么,在與Transformer的對決中,CALM究竟表現出了何種優勢?

      在評估兩者的性能前,CALM團隊首先需要打造適合的評估工具。過去業內用來衡量語言模型預測質量的一個指標是困惑度(Perplexity),直觀地說,它表示模型在面對真實語言數據時“有多困惑”——困惑度越低,說明模型越自信、預測越準確。

      困惑度評估并不適用于CALM的架構。作者因此提出新的評價體系——BrierLM指標。這一指標源于經典的Brier Score,由氣象學家Glenn W. Brier在1950年提出,用來評估天氣預報的好壞。

      BrierLM通過組合不同n-gram的Brier得分,提供了一個統一的、可比較的語言建模指標。它利用模型采樣結果即可無偏估計預測質量,既能衡量準確性,又能懲罰過度確定性。

      實驗證明,BrierLM與交叉熵幾乎線性相關,可作為困惑度的替代品,并適用于其他隱式生成模型。


      CALM團隊使用The Pile語料訓練了多款CALM架構的模型,然后用WikiText-103數據集來測試模型的性能。

      訓練時,CALM團隊分別打造了不同參數量的模型,分別為0.371B參數量的CALM-M、0.735B參數量的CALM-L和1.82B參數量的CALM-XL。

      當K=4,也就是每個連續向量對應4個原始token時,CALM-M的性能略遜于0.281B參數量的Transformer-S模型,但CALM-M的訓練計算量比Transformer-S少44%,推理計算量少34%,展現出更好的算力-性能平衡。隨著模型變大,性能也穩定提升,就像普通Transformer一樣。


      CALM團隊還研究了語義帶寬K的作用。隨著語義帶寬K增大,計算需求線性下降,而但性能下降并不明顯。

      當K從1變為2時,模型所需的訓練算力大幅減少50%左右;當K=4時,CALM實現了效率與性能的較好平衡;K=8時,其性能出現一定下滑。

      CALM團隊認為這是模型尺寸導致的。以后,隨著模型尺寸的提升,CALM架構或許可以一次性預測更多token,從更大的語義帶寬中受益。


      CALM的作者們還比較了不同生成頭的性能。能量模型單步生成性能最高,而且不需要迭代采樣,一次就能生成結果。擴散與流匹配模型雖可行,但要么性能不佳,要么代價高昂。


      二、從離散token到連續向量,語言模型如何駛入語義“高速公路”?

      那么,CALM究竟為何要進行從“預測token”到“預測向量”的巨大轉變呢?這一轉變,又是如何讓CALM以更低的算力需求,實現比肩Transformer的生成效果?

      CALM的第一作者邵晨澤在其撰寫的博客中,解釋了打造CALM的原因。現代大語言模型好比一個“法拉利級”的引擎——它擁有數千億參數,能夠理解語義、執行復雜推理、生成高質量文本與代碼。

      然而,這一引擎卻被限制在一條狹窄的鄉間小路上,永遠只能卡在第一檔。這條小路就是自回歸生成機制:模型一次只能預測一個離散token,無論引擎多強,吞吐量都會受到限制,這導致了模型推理速度慢、計算成本高等問題。

      過去,人們試圖通過擴大基本單位來“拓寬道路”。從字符級到子詞級(subword token)的變化,確實提升了效率。

      但如今,這條路徑已觸及“離散token的物理極限”:在一個典型的32K詞表中,每個生成步驟的語義帶寬約為15位,要想將帶寬翻倍,詞表規模必須指數級增長——這使得模型在計算上幾乎不可行。換句話說,離散token的Scaling已經碰壁了。

      如果離散token是瓶頸,那么我們就需要一種具有可擴展語義帶寬的新型文本單元。CALM代表從離散到連續的變化,其核心思想就是讓模型不再預測下一個token,而是預測下一個向量——一個壓縮了連續K個token的語義信息。


      這一改變相當于為大模型開辟了一條多車道的高速公路——每次生成能攜帶更多語義,顯著減少自回歸步數,從而大幅提升效率。

      CALM的第一步是建立一個高保真自編碼器(Autoencoder),在離散token與連續向量之間建立雙向映射。

      編碼器的作用是將一段K個token壓縮為一個連續向量,而解碼器從該向量中重建出原始tokens。

      通過交叉熵損失訓練后,該模型能以99.9%的精度重構文本片段。論文指出,這是可行的:一個浮點向量的比特容量遠高于一個離散token,足以存儲多倍的信息。

      然而,高精度重構并不代表模型的穩定性。若向量空間過于“脆弱”,輕微噪聲就可能使解碼器輸出完全不同的文本。為此,作者引入了三項關鍵改進:

      變分正則化(VAE):令編碼器輸出高斯分布,使潛空間更平滑;

      KL裁剪(KL Clipping):防止潛變量塌縮到無效維度;

      雙重Dropout:對輸入與潛向量加入噪聲,迫使模型學習冗余且穩定的表征。

      結果是一個既緊湊又穩健的連續語義表示:當K=4、潛向量維度為128時,模型在加入約0.3方差高斯噪聲的情況下,仍能保持99.9%的重構精度。

      這一語義壓縮器為CALM奠定了堅實基礎——讓語言可以在一個可連續建模、可容錯的向量空間中流動。

      三、 怎么讓模型預測下一個向量?靠“無似然建模”

      有了向量化的語義序列,語言建模任務變成了預測下一個連續向量。然而,如何教會模型進行下一個向量預測,又成了新的挑戰。

      如今,幾乎所有主流大模型都采用最大似然訓練(Maximum Likelihood Estimation)——即通過softmax計算出“每個token出現的概率”,并最大化訓練數據的似然值的做法。

      這樣的訓練方式要求模型能在一個離散的詞表中明確地為每個token給出概率分布,但在連續向量空間中,沒有有限詞表,softmax無法定義概率分布。

      因此,CALM放棄了最大似然訓練,轉而采用無似然建模(likelihood-free modeling)。這種方法不再要求模型顯式計算概率,改用間接目標函數,讓模型學會生成與數據分布相似的樣本。

      簡單來說,模型不再告訴你“這個詞的概率是多少”,而是直接生成一個向量,讓它盡可能接近真實的語義向量分布。

      CALM的作者團隊嘗試了多種無似然方法(如 Diffusion、Flow Matching),但最終提出并驗證了最優方案——基于能量評分(Energy Score)的生成頭(generative head)。


      ▲CALM的模型架構

      這一生成頭接收Transformer的隱藏狀態和一個隨機噪聲向量作為輸入,在連續空間中預測下一個語義向量。通過優化能量得分,模型能夠在不計算顯式概率的情況下,學會生成既多樣又符合語義規律的向量序列。

      能量得分是一種嚴格正確的評分規則,不依賴概率密度,而以樣本間距離衡量預測分布的好壞。它同時平衡兩種目標:

      (1)多樣性項懲罰過度自信、鼓勵多樣化生成;

      (2)保真項獎勵預測與真實向量接近。

      模型通過最大化能量得分,使其隱式分布逼近真實數據分布。為了實現高效訓練,作者采用蒙特卡洛估計,僅需少量樣本即可獲得無偏梯度。

      這種方法帶來了兩大優勢。首先,不同于擴散模型需上百次采樣,Energy Head一步即可生成下一個向量;其次,這一方法的通用性強,只需能采樣即可訓練,無需顯式概率公式。

      在推理時,CALM將預測向量傳入預訓練的解碼器,還原出離散token,再經輕量MLP壓縮輸入到Transformer,實現完整的自回歸循環。

      在傳統的LLM中,調整溫度(temperature)是控制生成“創造力”的關鍵手段。模型在生成時會輸出一組logits——也就是每個候選token的未歸一化得分。通過將這些logits除以溫度參數T,再經過softmax,就能得到新的概率分布。

      然而,CALM沒有logits。因此,其背后團隊提出了基于拒絕采樣與Bernoulli Factory理論的全新算法:

      (1)當溫度T=1/n時,只需抽取n個樣本,若全相同則接受;

      (2)對任意T,可分解為整數與小數部分并通過二階段采樣實現。

      CALM團隊還設計了批量近似算法,可顯著提升效率且在理論上無偏差。這使得CALM及其他隱式模型能夠像普通大語言模型一樣實現可控生成。

      結語:大模型探索Scaling新路徑

      未來,CALM的作者團隊計劃繼續在架構和算法方面進行更多優化,包括設計更優的自編碼器、開發更強大的架構以及提出更輕量級的采樣技術。

      他們還希望探索CALM的Scaling特性,驗證一大關鍵假設:更大模型是否具備支撐更高語義帶寬的必需容量。CALM的作者們認為,“語義帶寬K”已成為繼參數規模與數據量之后,大模型性能的第三個可擴展維度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      終于,人民日報定調統一,賴清德阻擋不住,臺島軍心大亂逃兵翻倍

      終于,人民日報定調統一,賴清德阻擋不住,臺島軍心大亂逃兵翻倍

      云鵬敘事
      2025-11-06 10:41:07
      出大事了,日本凌晨發生地震;菲軍機墜毀;美軍航母悄悄來到亞洲

      出大事了,日本凌晨發生地震;菲軍機墜毀;美軍航母悄悄來到亞洲

      林子說事
      2025-11-06 08:07:09
      美媒:中國100式坦克已經顛覆西方認知,原來坦克還能這么造?

      美媒:中國100式坦克已經顛覆西方認知,原來坦克還能這么造?

      云上烏托邦
      2025-10-23 10:46:01
      70歲李成儒晚年凄涼,豪宅無人問津,兒子李大海卻讓他嘗盡了苦果

      70歲李成儒晚年凄涼,豪宅無人問津,兒子李大海卻讓他嘗盡了苦果

      白面書誏
      2025-11-05 13:56:18
      付豪被交易?遼籃官宣,名單公布,付豪發聲,官宣決定,繼偉祝福

      付豪被交易?遼籃官宣,名單公布,付豪發聲,官宣決定,繼偉祝福

      樂聊球
      2025-11-05 10:58:30
      就在今天!11月6日凌晨,NBA傳來哈登、巴圖姆、祖巴茨新消息!

      就在今天!11月6日凌晨,NBA傳來哈登、巴圖姆、祖巴茨新消息!

      皮皮觀天下
      2025-11-06 04:53:27
      表哥凌晨76個電話讓我開門,我:自己的房不用聽你的!隔天16人上門

      表哥凌晨76個電話讓我開門,我:自己的房不用聽你的!隔天16人上門

      懸案解密檔案
      2025-11-04 10:23:25
      小米YU7全網首拆被夸經得起放大鏡考驗的硬核好車!雷軍回應……

      小米YU7全網首拆被夸經得起放大鏡考驗的硬核好車!雷軍回應……

      柴狗夫斯基
      2025-11-06 08:20:46
      賺再多錢有何用?抗癌不到一年,劉謙近況曝光,憔悴到認不出

      賺再多錢有何用?抗癌不到一年,劉謙近況曝光,憔悴到認不出

      姩姩有娛
      2025-11-05 17:03:02
      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      被謝賢養了12年,用青春換來2000萬的Coco,已經走上了另一條道路

      妙知
      2025-11-05 15:19:50
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      湖南省人民醫院院長肖亞洲的人生歷程

      湖南省人民醫院院長肖亞洲的人生歷程

      筆墨V
      2025-11-06 08:59:58
      李湘從日本旅行回來更胖了,DVF美裙快被她撐破,王詩齡又換新包

      李湘從日本旅行回來更胖了,DVF美裙快被她撐破,王詩齡又換新包

      豐譚筆錄
      2025-11-06 11:19:16
      CCTV直播豫津女排大戰!朱婷PK隊友李盈瑩 曾狂砍46分 球迷期待

      CCTV直播豫津女排大戰!朱婷PK隊友李盈瑩 曾狂砍46分 球迷期待

      我AI女排
      2025-11-06 10:57:15
      63 歲吳鎮宇坐公交刷老年卡,司機當場質疑:你這模樣不像老人!

      63 歲吳鎮宇坐公交刷老年卡,司機當場質疑:你這模樣不像老人!

      山海心語
      2025-11-06 11:45:03
      為什么說福建艦是目前世界上,技術最先進戰斗力最強大的航母?

      為什么說福建艦是目前世界上,技術最先進戰斗力最強大的航母?

      歷史有些冷
      2025-11-04 19:25:02
      河北原副市長被逮捕,是河北人熟悉的他

      河北原副市長被逮捕,是河北人熟悉的他

      新牛城
      2025-11-05 19:33:49
      “你要毀了我嗎?”地鐵USB接口被吐槽“老掉牙” ,最新回應:已在迭代

      “你要毀了我嗎?”地鐵USB接口被吐槽“老掉牙” ,最新回應:已在迭代

      極目新聞
      2025-11-05 22:45:54
      全紅嬋,請記住陳芋汐今天的淚!

      全紅嬋,請記住陳芋汐今天的淚!

      未曾青梅
      2025-11-04 20:38:30
      政府關門30多天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      政府關門30多天終于釀成大禍?一架波音飛機撞向大樓,現場十分慘烈

      博覽歷史
      2025-11-05 18:24:37
      2025-11-06 12:59:00
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10703文章數 116893關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      頭條要聞

      副院長被指出軌女主任醫師 在值班室發生關系視頻流出

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      白百何好友揭露爭獎細節

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      教育
      時尚
      游戲
      親子
      房產

      教育要聞

      2026亞洲QS最新大學排名出爐:新加坡國大、南大并列第3!

      中國色特別策劃 | 故宮技藝與古意新生

      Xbox?Insider問卷提及《羊蹄山之魂》 引發平臺移植猜測

      親子要聞

      胡圖圖幼小銜接采取積分制,表現好就加分

      房產要聞

      中旅·三亞藍灣,以一座城市會客廳回應世界的濱海想象

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: julia无码中文字幕一区| 久久综合97丁香色香蕉| 公天天吃我奶躁我的在线观看| 亚洲中文字幕人妻系列| 国产成人无码午夜视频在线观看| 国产成人精品无码播放| 久久午夜私人影院| 国产免费高清69式视频在线观看 | 在线无码av一区二区三区| 国产成人免费永久在线平台| 午夜精品福利亚洲国产| 亚洲中文字幕伊人久久无码| 欧美黑人性暴力猛交在线视频| 亚洲中文字幕精品无人区| 日韩成人一区二区三区在线观看 | 日韩一区二区三区精品区| 国产精品福利自产拍久久| 中文字幕在线精品国产| 国产三级国产精品久久成人| 欧美另类videossexo高潮| 免费黄色大全一区二区三区| 在线a级毛片免费视频| 色偷一区国产精品| 嫩草院一区二区乱码| 国产情侣激情在线对白| 青青青爽在线视频观看| 日韩国产成人精品视频| 久久精品国产88精品久久| 特黄aaaaaaaaa毛片免费视频 | 狠狠躁夜夜躁人人爽天天bl| 国产亚洲精品一区二区无| 亚洲精品国自产拍影院| 亚洲国产在一区二区三区| 中文字幕人妻日韩精品| 少妇被粗大的猛烈进出动视频| 精品中文人妻中文字幕| 久久国产精品成人免费| 国产超碰人人做人人爰| 99久久夜色精品国产亚洲| 亚洲色婷婷一区二区| 亚洲人妻一区二区精品|