網易首頁 > 網易號 > 正文申請入駐

字節Seed團隊發布循環語言模型Ouro，在預訓練階段直接「思考」

2025-11-04 11:58:36　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

現代 LLM 通常依賴顯式的文本生成過程（例如「思維鏈」）來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段，未能充分挖掘預訓練數據中的潛力。

為解決這一問題，字節 Seed 團隊聯合多家機構推出了Ouro，一類被稱為循環語言模型（Looped Language Models）的新型預訓練模型，其名稱源于象征循環與自我吞噬的「銜尾蛇」（Ouroboros）。

Ouro 另辟蹊徑通過（i）在潛在空間中進行迭代計算，（ii）采用熵正則化目標以實現學習型深度分配，以及（iii）擴展至 7.7T tokens 的數據規模，將推理能力直接構建到了預訓練階段。這些設計使得模型能夠在預訓練階段直接學習和構建推理能力，而非僅依賴后期微調。

論文標題：Scaling Latent Reasoning via Looped Language Models
論文地址：https://arxiv.org/pdf/2510.25741
項目主頁：https://ouro-llm.github.io/
HuggingFace：https://huggingface.co/collections/ByteDance/ouro

通過對照實驗，研究者發現 Ouro 的性能提升并非源于知識存儲量的增加，而是得益于其更高效的知識操控與推理能力。進一步分析表明，Ouro 的潛在推理過程相比標準 LLM，更接近真實的人類推理機制。

Ouro 循環語言模型的性能。（左）參數共享的循環架構。（中與右）雷達圖比較了 Ouro 1.4B 與 2.6B 模型（均采用 4 個循環步，紅色）與單獨的 Transformer 基線模型。我們的模型表現出強勁性能，可與更大規模的基線模型相媲美，甚至在部分任務上超越它們。

最終，Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM，分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能，實現了 2–3 倍的參數效率提升，顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。

在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型（如 Qwen3 和 DeepSeek-Distill）進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美，而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

另外，LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性，且隨著循環步數（包括外推步）增加，模型的安全性進一步提升。與傳統的 CoT 方法不同，研究者的迭代潛變量更新機制產生的是因果一致的推理過程，而非事后的合理化解釋。

循環架構

LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言，該架構包含一個由 N 個共享權重層組成的「層堆棧」。

在模型的前向傳播過程中，這個共享的層堆棧會被循環應用多次，即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」，當模型處理輸入時：簡單輸入可能會在經歷較少的循環步驟后就提前退出，從而節省計算資源；復雜輸入則會自然地被分配更多的迭代次數，以進行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同，LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉，從而在不增加參數的情況下提升了模型的知識操縱能力。

訓練流程

Ouro 的訓練流程是一個多階段過程，總共使用了 7.7T tokens 的數據。

如圖 4 所示，該流程始于一個通用的預熱階段，隨后是使用 3T token 的初始穩定訓練階段。在此之后，模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。

兩種變體均獨立經歷后續四個相同的訓練階段：第二次穩定訓練（3T token）、CT 退火（CT Annealing, 1.4T token）、用于長上下文的 LongCT（20B token）以及中途訓練（Mid-Training, 300B token）。

這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后，為了強化特定能力，模型還額外經歷了一個專門的推理監督微調階段，以創造出專注于推理的 Ouro-Thinking 系列模型。

在訓練穩定性方面，團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題，因此在后續階段將循環步驟減少到 4，以此在計算深度和穩定性之間取得了平衡。

為了讓模型學會何時「提前退出」，訓練流程采用了新穎的兩階段目標：

循環語言模型架構概覽。

左圖為訓練階段。在訓練過程中，模型使用共享參數的 N 層堆疊結構，并執行 n 個循環步驟（R = 1 到 R = n）。在每個循環步驟 i，一個退出門預測退出概率 p?，而語言建模頭 L? 則計算對應的任務損失。訓練目標函數結合了所有循環步驟的期望任務損失，并加入熵正則化項 H（p?,…,p?），以鼓勵模型探索不同的計算深度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.