<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed團隊發布循環語言模型Ouro,在預訓練階段直接「思考」

      0
      分享至



      機器之心報道

      機器之心編輯部

      現代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段,未能充分挖掘預訓練數據中的潛力。

      為解決這一問題,字節 Seed 團隊聯合多家機構推出了Ouro,一類被稱為循環語言模型(Looped Language Models)的新型預訓練模型,其名稱源于象征循環與自我吞噬的「銜尾蛇」(Ouroboros)。

      Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標以實現學習型深度分配,以及(iii)擴展至 7.7T tokens 的數據規模,將推理能力直接構建到了預訓練階段。 這些設計使得模型能夠在預訓練階段直接學習和構建推理能力,而非僅依賴后期微調。



      • 論文標題:Scaling Latent Reasoning via Looped Language Models
      • 論文地址:https://arxiv.org/pdf/2510.25741
      • 項目主頁:https://ouro-llm.github.io/
      • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

      通過對照實驗,研究者發現 Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標準 LLM,更接近真實的人類推理機制。



      Ouro 循環語言模型的性能。(左)參數共享的循環架構。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環步,紅色)與單獨的 Transformer 基線模型。我們的模型表現出強勁性能,可與更大規模的基線模型相媲美,甚至在部分任務上超越它們。

      最終,Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM,分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能,實現了 2–3 倍的參數效率提升,顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。



      在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

      另外,LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性,且隨著循環步數(包括外推步)增加,模型的安全性進一步提升。與傳統的 CoT 方法不同,研究者的迭代潛變量更新機制產生的是因果一致的推理過程,而非事后的合理化解釋。

      循環架構

      LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言,該架構包含一個由 N 個共享權重層組成的「層堆棧」。

      在模型的前向傳播過程中,這個共享的層堆棧會被循環應用多次,即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

      該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」,當模型處理輸入時:簡單輸入可能會在經歷較少的循環步驟后就提前退出,從而節省計算資源;復雜輸入則會自然地被分配更多的迭代次數,以進行更深層的處理。

      這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉,從而在不增加參數的情況下提升了模型的知識操縱能力。

      訓練流程

      Ouro 的訓練流程是一個多階段過程,總共使用了 7.7T tokens 的數據。

      如圖 4 所示,該流程始于一個通用的預熱階段,隨后是使用 3T token 的初始穩定訓練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。



      兩種變體均獨立經歷后續四個相同的訓練階段:第二次穩定訓練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓練(Mid-Training, 300B token)。

      這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后,為了強化特定能力,模型還額外經歷了一個專門的推理監督微調階段,以創造出專注于推理的 Ouro-Thinking 系列模型。

      在訓練穩定性方面,團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題,因此在后續階段將循環步驟減少到 4,以此在計算深度和穩定性之間取得了平衡。

      為了讓模型學會何時「提前退出」,訓練流程采用了新穎的兩階段目標:



      循環語言模型架構概覽。

      左圖為訓練階段。在訓練過程中,模型使用共享參數的 N 層堆疊結構,并執行 n 個循環步驟(R = 1 到 R = n)。在每個循環步驟 i,一個退出門預測退出概率 p?,而語言建模頭 L? 則計算對應的任務損失。 訓練目標函數結合了所有循環步驟的期望任務損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      比特幣暴跌,超47萬人爆倉

      比特幣暴跌,超47萬人爆倉

      證券時報e公司
      2025-11-05 07:57:54
      王傳君東京電影節影帝!網友:可是真夠茶的,怎么得的獎心里沒數

      王傳君東京電影節影帝!網友:可是真夠茶的,怎么得的獎心里沒數

      東方不敗然多多
      2025-11-05 18:35:30
      外交部:在一個中國原則下參與APEC是中國臺北參與APEC的政治前提

      外交部:在一個中國原則下參與APEC是中國臺北參與APEC的政治前提

      澎湃新聞
      2025-11-05 15:18:26
      為什么電影里很多黑幫老大堅決不做毒品生意?網友評論引萬千共鳴

      為什么電影里很多黑幫老大堅決不做毒品生意?網友評論引萬千共鳴

      小椰的奶奶
      2025-10-27 02:51:34
      上海贅婿帶小三產檢后續:原配照片曝光,比小三漂亮多了

      上海贅婿帶小三產檢后續:原配照片曝光,比小三漂亮多了

      江山揮筆
      2025-11-03 14:47:10
      全中國最大的騙局,竟然是茅臺專賣店,一瓶飛天都不賣年收入過億

      全中國最大的騙局,竟然是茅臺專賣店,一瓶飛天都不賣年收入過億

      好賢觀史記
      2025-11-05 09:54:41
      因臀部過于性感 日恐怖游戲未通過Steam審核

      因臀部過于性感 日恐怖游戲未通過Steam審核

      3DM游戲
      2025-11-04 21:29:04
      抵制行業百草枯!多名網友評論要求山姆開除阿某系的兩個高管

      抵制行業百草枯!多名網友評論要求山姆開除阿某系的兩個高管

      星河也燦爛
      2025-11-05 16:10:13
      目瞪口呆,德國又炸發電廠!核電煤電統統炸掉,準備靠中國發電?

      目瞪口呆,德國又炸發電廠!核電煤電統統炸掉,準備靠中國發電?

      boss外傳
      2025-11-05 02:00:03
      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      沉默4天后,中方開了金口,若對委內瑞拉開戰,美國結局只有一個

      Ck的蜜糖
      2025-11-06 00:15:03
      特朗普和MAGA們遭遇重大失敗,紐約市市長易主

      特朗普和MAGA們遭遇重大失敗,紐約市市長易主

      山河路口
      2025-11-05 19:28:18
      11月起咸魚翻身,家有哪些生肖財運大開,事業喜事接二連三到來

      11月起咸魚翻身,家有哪些生肖財運大開,事業喜事接二連三到來

      人閒情事
      2025-11-05 22:13:55
      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      張文宏院士:糖尿病可以吃的食物排名,不知道的糖友太虧了

      荷蘭豆愛健康
      2025-11-02 07:55:38
      蔡孝乾叛變吳石暴露,李克農派出的潛臺小組,不辱使命絕境立功

      蔡孝乾叛變吳石暴露,李克農派出的潛臺小組,不辱使命絕境立功

      黑句本
      2025-11-03 10:45:13
      湖南李天仇為父報仇,玩弄仇人妻子10年,復仇一夜屠盡13口家人

      湖南李天仇為父報仇,玩弄仇人妻子10年,復仇一夜屠盡13口家人

      紙鳶奇譚
      2024-08-17 14:22:37
      北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

      北極航道剛冰封,波蘭故技重施中歐班列又停,再不開邊境悔之晚矣

      一只番茄魚
      2025-11-05 13:34:23
      神舟二十號飛船疑遇碎片撞擊,如果修不成,神舟二十二或火速升天

      神舟二十號飛船疑遇碎片撞擊,如果修不成,神舟二十二或火速升天

      元爸體育
      2025-11-06 00:18:43
      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      被解雇后沒工作,51歲納什已經能領退休金了,他每年能拿多少錢?

      大西體育
      2025-11-05 13:29:33
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      母親退休金8000,卻沒有買菜錢,我立馬把母親接走,父親慌了

      母親退休金8000,卻沒有買菜錢,我立馬把母親接走,父親慌了

      百曉史
      2025-11-04 20:53:18
      2025-11-06 02:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      頭條要聞

      俄士兵連遭烏軍7架無人機襲擊奇跡生還 視頻披露

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發聲

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      時尚
      本地
      房產
      數碼
      健康

      今年一定要擁有這件大衣,復古又時髦!

      本地新聞

      這屆干飯人,已經把博物館吃成了食堂

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      數碼要聞

      小米POCO X1平板現身Geekbench 搭載驍龍7+ Gen 3

      超聲探頭會加重受傷情況嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲av成人午夜福利| 亚洲国产成人无码av在线播放| 亚洲精品色哟哟一区二区| 亚洲精品无amm毛片| 国产色婷婷亚洲99精品小说| 国产精品免费中文字幕| 国产69精品久久久久99尤物| 国产成人无码A区在线观看视频 | 日本丰满的人妻hd高清在线| 狠狠色狠狠色综合日日不卡| 97se综合| 久久精品国产成人午夜福利 | 亚洲高清日韩专区精品| 国产成熟女人性满足视频| 亚洲av成人三区国产精品| 成人免费区一区二区三区| 亚洲精品国产摄像头| 亚洲成人av综合一区| 精品乱人伦一区二区三区| 国产精品亚洲中文字幕| 韩城市| 国产午夜在线观看视频播放| 久久一本人碰碰人碰| 国产麻豆一区二区精彩视频| 18禁超污无遮挡无码网址| 国产精品日日摸夜夜添夜夜添无码 | 国产av熟女一区二区三区| 99热久久这里只有精品| 欧美亚洲精品中文字幕乱码| 午夜国产精品福利一二| 亚洲国产精品综合久久2007| 亚洲综合久久国产一区二区| 性久久久久久| 内射极品少妇xxxxxhd| 欧美日韩国产图片区一区| 日本肉体xxxx裸交| 艳妇乳肉豪妇荡乳xxx| 成人国产精品中文字幕| 日韩精品无码一区二区视频| 国产午夜福利在线视频| 日韩一级伦理片一区二区|