<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      字節Seed團隊發布循環語言模型Ouro,在預訓練階段直接「思考」

      0
      分享至



      機器之心報道

      機器之心編輯部

      現代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段,未能充分挖掘預訓練數據中的潛力。

      為解決這一問題,字節 Seed 團隊聯合多家機構推出了Ouro,一類被稱為循環語言模型(Looped Language Models)的新型預訓練模型,其名稱源于象征循環與自我吞噬的「銜尾蛇」(Ouroboros)。

      Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標以實現學習型深度分配,以及(iii)擴展至 7.7T tokens 的數據規模,將推理能力直接構建到了預訓練階段。 這些設計使得模型能夠在預訓練階段直接學習和構建推理能力,而非僅依賴后期微調。



      • 論文標題:Scaling Latent Reasoning via Looped Language Models
      • 論文地址:https://arxiv.org/pdf/2510.25741
      • 項目主頁:https://ouro-llm.github.io/
      • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

      通過對照實驗,研究者發現 Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標準 LLM,更接近真實的人類推理機制。



      Ouro 循環語言模型的性能。(左)參數共享的循環架構。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環步,紅色)與單獨的 Transformer 基線模型。我們的模型表現出強勁性能,可與更大規模的基線模型相媲美,甚至在部分任務上超越它們。

      最終,Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM,分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能,實現了 2–3 倍的參數效率提升,顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。



      在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

      另外,LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性,且隨著循環步數(包括外推步)增加,模型的安全性進一步提升。與傳統的 CoT 方法不同,研究者的迭代潛變量更新機制產生的是因果一致的推理過程,而非事后的合理化解釋。

      循環架構

      LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言,該架構包含一個由 N 個共享權重層組成的「層堆棧」。

      在模型的前向傳播過程中,這個共享的層堆棧會被循環應用多次,即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

      該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」,當模型處理輸入時:簡單輸入可能會在經歷較少的循環步驟后就提前退出,從而節省計算資源;復雜輸入則會自然地被分配更多的迭代次數,以進行更深層的處理。

      這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉,從而在不增加參數的情況下提升了模型的知識操縱能力。

      訓練流程

      Ouro 的訓練流程是一個多階段過程,總共使用了 7.7T tokens 的數據。

      如圖 4 所示,該流程始于一個通用的預熱階段,隨后是使用 3T token 的初始穩定訓練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。



      兩種變體均獨立經歷后續四個相同的訓練階段:第二次穩定訓練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓練(Mid-Training, 300B token)。

      這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后,為了強化特定能力,模型還額外經歷了一個專門的推理監督微調階段,以創造出專注于推理的 Ouro-Thinking 系列模型。

      在訓練穩定性方面,團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題,因此在后續階段將循環步驟減少到 4,以此在計算深度和穩定性之間取得了平衡。

      為了讓模型學會何時「提前退出」,訓練流程采用了新穎的兩階段目標:



      循環語言模型架構概覽。

      左圖為訓練階段。在訓練過程中,模型使用共享參數的 N 層堆疊結構,并執行 n 個循環步驟(R = 1 到 R = n)。在每個循環步驟 i,一個退出門預測退出概率 p?,而語言建模頭 L? 則計算對應的任務損失。 訓練目標函數結合了所有循環步驟的期望任務損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      WC!錫安!鵜鶘最快速度交易

      WC!錫安!鵜鶘最快速度交易

      技巧君侃球
      2025-11-05 15:41:31
      全運會乒乓球男單簽表:王楚欽、樊振東位列上半區

      全運會乒乓球男單簽表:王楚欽、樊振東位列上半區

      懂球帝
      2025-11-05 16:29:10
      唐嫣也沒想到,一個漸凍癥患者的爆料,讓她維持許久的體面被撕碎

      唐嫣也沒想到,一個漸凍癥患者的爆料,讓她維持許久的體面被撕碎

      一娛三分地
      2025-11-05 14:02:01
      從年薪30萬到月薪低保:北京央企設計院降薪潮下的生存困境

      從年薪30萬到月薪低保:北京央企設計院降薪潮下的生存困境

      悟話八門
      2025-11-03 23:28:21
      黃芪和它是“絕配”!連著喝了2天,氣血通了,渾身都是勁兒!

      黃芪和它是“絕配”!連著喝了2天,氣血通了,渾身都是勁兒!

      江江食研社
      2025-11-04 18:30:02
      分享解剖學知識,破除多年來的G點謠傳

      分享解剖學知識,破除多年來的G點謠傳

      遠方青木
      2025-10-25 00:06:11
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      成都派出所副所長被控徇私枉法案開庭,證據調取成最大焦點

      成都派出所副所長被控徇私枉法案開庭,證據調取成最大焦點

      極目新聞
      2025-11-05 08:54:09
      感覺挺心酸!廣西博白一群大齡剩男聚會,網友:都娶不到老婆的

      感覺挺心酸!廣西博白一群大齡剩男聚會,網友:都娶不到老婆的

      唐小糖說情感
      2025-11-05 09:04:37
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      鐵錘簡科
      2025-11-05 15:19:29
      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      突發!香港演員林尚武因心臟病去世享年75歲,生前患癌31年

      開開森森
      2025-11-05 11:27:09
      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      市委書記女兒去縣財政局工作,局長處處為難她,某天書記來探班

      秋風專欄
      2025-10-23 11:23:56
      戚薇睡衣定妝照,性感與優雅的碰撞?

      戚薇睡衣定妝照,性感與優雅的碰撞?

      娛樂領航家
      2025-11-03 23:00:03
      潛伏在我國高層的四大間諜,被安插在軍政兩界,導致我國損失慘重

      潛伏在我國高層的四大間諜,被安插在軍政兩界,導致我國損失慘重

      閱識
      2025-10-28 15:23:15
      合砍74+22+15!火箭隊三巨頭成型,1老帶2新,攻防兩端已無短板

      合砍74+22+15!火箭隊三巨頭成型,1老帶2新,攻防兩端已無短板

      熊哥愛籃球
      2025-11-05 17:23:09
      到了到了!官方確認:已抵達浙江!

      到了到了!官方確認:已抵達浙江!

      FM93浙江交通之聲
      2025-11-04 17:29:52
      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      秦雯編劇電視劇被央視撤檔,此前王家衛秦雯私密錄音曝光惹爭議

      魯中晨報
      2025-11-05 11:31:09
      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      賴清德下令讓臺軍實彈備戰,蔣萬安也亮明立場,堅持反對兩岸統一

      文雅筆墨
      2025-11-04 09:18:55
      “土皇帝”許家印的“恒大歌舞團”服務了那些“蛀蟲”

      “土皇帝”許家印的“恒大歌舞團”服務了那些“蛀蟲”

      創作者_IE2295
      2025-10-27 18:24:27
      重回土帥時代!45歲名宿邵佳一官宣出任國足新帥,獨立執教僅1年

      重回土帥時代!45歲名宿邵佳一官宣出任國足新帥,獨立執教僅1年

      我愛英超
      2025-11-05 17:42:02
      2025-11-05 18:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11656文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      游戲
      健康
      房產
      教育
      公開課

      知名游戲新作Steam國區好評率僅4%!玩家噴爆了

      超聲探頭會加重受傷情況嗎?

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      教育要聞

      倪文尖教授:中學生該如何進行整本書閱讀?從《朝花夕拾》談整本書閱讀思維養成

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天堂va欧美ⅴa亚洲va在线| 国产粉嫩美女一区二区三| 日韩人妻不卡一区二区三区| 亚洲成a人片在线视频| 日日碰狠狠添天天爽五月婷| 亚洲无线码在线一区观看| 最近中文字幕日韩有码| 精品福利一区二区三区免费视频| 在线无码免费看黄网站| 免费人成在线观看品爱网| 免费福利视频一区二区三区高清| 亚洲一区二区偷拍精品| 亚洲午夜福利网在线观看 | 亚洲国产精品日韩av专区| 亚洲成av人片乱码色午夜| 性欧美VIDEOFREE高清大喷水| 日本一卡2卡3卡四卡精品网站| A毛片终身免费观看网站| av无码免费一区二区三区| 日韩精品亚洲精品第一页| 亚洲日本欧美日韩中文字幕| 久久九九兔免费精品6| 91密桃精品国产91久久| 中国熟女仑乱hd| 欧美寡妇xxxx黑人猛交| 人妻精品无码一区二区三区| 国产成人午夜福利院| 国产探花在线精品一区二区| 精品无人区一区二区三区在线| 亚洲国产精品无码一区二区三区| 久久av无码精品人妻出轨| 欧美亚洲熟妇一区二区三区| 777奇米四色成人影视色区| 久久九九兔免费精品6| 亚洲国产av久久久| 白丝乳交内射一二三区| 麻豆妓女爽爽一区二区三| 狠狠躁夜夜躁人人爽天天69| 草裙社区精品视频播放| 丰镇市| 亚洲码和欧洲码一二三四|