Sea AI Lab 揭秘：你費盡心力調(diào)的 LLM 一直在崩潰？罪魁禍?zhǔn)卓赡苤皇且粋€參數(shù)：BF16

2025-11-03 00:01:31　來源: AI寒武紀(jì)

江蘇舉報

分享至

來自 Sea AI Lab 和新加坡國立大學(xué)最新研究認(rèn)為在強化學(xué)習(xí)微調(diào)中普遍存在的訓(xùn)練不穩(wěn)定和性能瓶頸，其根源并非像先前研究所認(rèn)為的那樣，是復(fù)雜的算法設(shè)計缺陷，而是一個更基礎(chǔ)的因素——數(shù)值精度

論文矛頭直指當(dāng)前業(yè)界的標(biāo)準(zhǔn)配置 BF16。這個因其在預(yù)訓(xùn)練階段表現(xiàn)穩(wěn)定而備受青睞的格式，在精細(xì)的 RL 對齊過程中卻成了一個“累贅”。研究團(tuán)隊通過詳實的實驗證明，BF16 的低精度會在模型的訓(xùn)練過程和實際的推理（或采樣）過程之間制造出一條關(guān)鍵的鴻溝。正是這個被稱為“訓(xùn)練-推理不匹配”（training-inference mismatch）的現(xiàn)象，導(dǎo)致了大量訓(xùn)練任務(wù)的失敗和崩潰。
而他們提出的解決方案，并非一個全新的復(fù)雜算法，而是回歸到一個更早的標(biāo)準(zhǔn)：簡單地將計算精度切換回具有更高精度的 FP16 格式。他們斷言，這一個微小的改動，幾乎可以從根本上消除不匹配問題，從而帶來更穩(wěn)定、更高效、性能更強的模型。

以下是論文詳細(xì)解讀：

RL 微調(diào)中的幽靈：訓(xùn)練-推理不匹配問題

強化學(xué)習(xí)已經(jīng)成為提升大型語言模型（LLMs）推理等高級能力的關(guān)鍵技術(shù)。然而，通往高性能模型的 RL 微調(diào)之路卻充滿了不確定性。訓(xùn)練過程常常極其敏感和不穩(wěn)定，容易出現(xiàn)性能突然下降甚至完全崩潰的情況，這使得穩(wěn)定地提升模型表現(xiàn)成為一項重大挑戰(zhàn)

論文指出，這種不穩(wěn)定性的一個關(guān)鍵來源，是現(xiàn)代 RL 框架中一個根本性的矛盾：訓(xùn)練-推理不匹配（training-inference mismatch）。

問題的成因

為了最大化效率，RL 框架通常會為兩個不同的階段配備不同的計算引擎

推理引擎：用于生成響應(yīng)（即 rollout 或稱“采樣”），這個過程需要極高的速度，因此會使用高度優(yōu)化的計算核心（kernels）

訓(xùn)練引擎：用于計算梯度并更新模型參數(shù)，這個過程則側(cè)重于支持反向傳播等復(fù)雜運算

盡管從數(shù)學(xué)原理上看，這兩個引擎在給定相同模型權(quán)重時應(yīng)該產(chǎn)生完全相同的輸出，但由于硬件層面的具體實現(xiàn)、并行策略和數(shù)值精度上的細(xì)微差異，它們實際的計算結(jié)果會存在微小的數(shù)值偏差。這種看似微不足道的差異，卻給優(yōu)化過程帶來了兩個嚴(yán)重的問題。

兩大核心困境

1.有偏梯度（Biased Gradient）：在 RL 中，我們使用從推理策略 μ（由推理引擎執(zhí)行）采樣的數(shù)據(jù)來優(yōu)化訓(xùn)練策略 π（在訓(xùn)練引擎中定義）。當(dāng) π 和 μ 之間存在數(shù)值偏差時（即 π ≠ μ），如果我們直接使用這些樣本來計算梯度，而忽略了這個偏差，那么得到的梯度就是有偏的，它無法準(zhǔn)確地指向真正能提升模型性能的方向。這會誤導(dǎo)優(yōu)化過程，導(dǎo)致訓(xùn)練不穩(wěn)定。

2.部署差距（Deployment Gap）：這是一個更隱蔽但同樣致命的問題。我們的模型參數(shù)是在訓(xùn)練引擎 π 的環(huán)境下進(jìn)行優(yōu)化的，目標(biāo)是最大化 π 的預(yù)期回報。然而，在模型最終部署應(yīng)用或進(jìn)行評估時，我們使用的是推理引擎 μ。這意味著，即使我們找到了對 π 而言的最優(yōu)參數(shù)，這組參數(shù)對于實際使用的 μ 來說卻不一定是最優(yōu)的。這種差距會導(dǎo)致模型在真實場景中的表現(xiàn)低于訓(xùn)練時的預(yù)期。

現(xiàn)有解決方案的局限性

為了解決梯度偏差問題，先前的研究工作主要依賴于算法層面的“補丁”，其核心思想是重要性采樣（Importance Sampling, IS）。通過計算一個概率比率 π(y|x) / μ(y|x) 來重新加權(quán)梯度，可以在理論上得到一個無偏的梯度估計。然而，這些方法自身也帶來了新的挑戰(zhàn)。

高方差與慢收斂：對于長序列的生成任務(wù)，序列級別的重要性采樣比率方差極大，這會導(dǎo)致訓(xùn)練過程雖然穩(wěn)定，但收斂速度異常緩慢。為了緩解方差，研究者們提出了諸如截斷重要性采樣（Truncated Importance Sampling, TIS）和掩碼重要性采樣（Masked Importance Sampling, MIS）等變體。這些方法通過引入少量偏差來換取方-差的大幅降低，但它們并沒有完全解決問題。

計算效率低下：幾乎所有基于重要性采樣的修正方案，都需要額外進(jìn)行一次前向傳播來計算訓(xùn)練策略 π 的概率，以便得到重要性權(quán)重。假設(shè)一次反向傳播的計算成本是前向傳播的兩倍，這個額外的步驟會直接導(dǎo)致約 25% 的訓(xùn)練成本增加，對于大規(guī)模 RL 訓(xùn)練而言是難以接受的。

無法彌合部署差距：更重要的是，這些算法補丁的設(shè)計初衷只是為了修正訓(xùn)練過程中的梯度，它們本質(zhì)上仍然是在訓(xùn)練引擎 π 的框架下進(jìn)行優(yōu)化。因此，它們無法從根本上解決模型最終部署在推理引擎 μ 上時的性能損失問題。

綜上所述，現(xiàn)有的算法修正方案要么代價高昂，要么治標(biāo)不治本。這促使論文作者深入探究不匹配問題的根源，并最終將目光鎖定在了一個被長期忽視的基礎(chǔ)層面——浮點數(shù)精度。

問題的根源：浮點數(shù)精度

論文的核心觀點在于，訓(xùn)練-推理不匹配的根本原因并非復(fù)雜的算法或工程實現(xiàn)差異，而是源于我們選擇的數(shù)值表示本身——即浮點數(shù)的精度。通過對比目前主流的兩種 16 位浮點格式 BF16 和 FP16，論文揭示了問題的本質(zhì)。

BF16 與 FP16 的對決

兩者都使用 16 個比特位來表示一個數(shù)字，但其內(nèi)部結(jié)構(gòu)分配截然不同，這導(dǎo)致了它們在特性上的巨大差異

BF16 ：由 Google 推出，它分配了 8 位給指數(shù)部分（exponent），7 位給尾數(shù)部分（mantissa）

優(yōu)勢：擁有和 32 位浮點數(shù)（FP32）相同的動態(tài)范圍，這意味著它能表示極大和極小的數(shù)值，極不容易發(fā)生上溢（overflow）或下溢（underflow）。這使得模型訓(xùn)練過程非常穩(wěn)定，不易因數(shù)值問題中斷

劣勢：尾數(shù)位非常少，導(dǎo)致其精度極低。在兩個相近的數(shù)之間，BF16 無法進(jìn)行精細(xì)的區(qū)分。

FP16 (半精度浮點數(shù))：遵循 IEEE 754 標(biāo)準(zhǔn)，它分配了 5 位給指數(shù)部分，10 位給尾數(shù)部分

優(yōu)勢：擁有 10 位尾數(shù)，其精度遠(yuǎn)高于 BF16（可表示的離散值數(shù)量是 BF16 的 2^3=8 倍）。這使得它能更準(zhǔn)確地表示數(shù)值，減少舍入誤差。

劣勢：指數(shù)位只有 5 位，動態(tài)范圍非常有限，在訓(xùn)練中容易出現(xiàn)梯度過小而下溢（變成零）的問題。

BF16 為何成為主流？

盡管 FP16 出現(xiàn)得更早，但 BF16 憑借其巨大的動態(tài)范圍優(yōu)勢，迅速成為現(xiàn)代大模型訓(xùn)練（尤其是預(yù)訓(xùn)練階段）的 de-facto 標(biāo)準(zhǔn)。使用 BF16，開發(fā)者幾乎無需擔(dān)心數(shù)值溢出問題，可以像使用 FP32 一樣進(jìn)行“即插即用”的混合精度訓(xùn)練。相比之下，使用 FP16 則必須配合一種稱為損失縮放的技術(shù)：在反向傳播前，將損失函數(shù)乘以一個巨大的縮放因子 S，從而將原本微小的梯度值放大到 FP16 的可表示范圍內(nèi)；在更新權(quán)重前，再將梯度除以 S 恢復(fù)原值。雖然這個技術(shù)很成熟，但在分布式訓(xùn)練中會增加通信和同步的復(fù)雜性。因此，為了簡潔和穩(wěn)定，業(yè)界普遍選擇了 BF16

BF16 如何導(dǎo)致 RL 微調(diào)失敗？

論文指出，BF16 在預(yù)訓(xùn)練中的優(yōu)勢，恰恰成了 RL 微調(diào)中的致命弱點

舍入誤差的累積：RL 微調(diào)中的響應(yīng)生成是一個自回歸（autoregressive）過程，即逐個 token 生成。在 BF16 的低精度下，訓(xùn)練引擎和推理引擎中那些因?qū)崿F(xiàn)不同而產(chǎn)生的微小舍入誤差，會在長序列的生成過程中被不斷累積和放大

策略分布的偏離：經(jīng)過幾十上百個 token 的生成后，這些累積的誤差足以讓訓(xùn)練策略 π 和推理策略 μ 的概率分布產(chǎn)生顯著的分歧。這正是“訓(xùn)練-推理不匹配”現(xiàn)象的直接來源

離線分析證據(jù)：論文通過離線實驗直觀地展示了這一點。

在 token 級別的概率對比散點圖中，F(xiàn)P16 的點緊密地聚集在對角線（π = μ）周圍，而 BF16 的點則分散得多。

在序列級別的對數(shù)概率比（log-probability ratio）分析中，隨著生成序列長度的增加，BF16 引入的 mismatch 呈指數(shù)級增長，而 FP16 的 mismatch 則基本保持在一個非常低的水平（比 BF16 小約 24 倍）。

對于 RL 微調(diào)階段而言，模型的權(quán)重和激活值范圍已經(jīng)在預(yù)訓(xùn)練中被穩(wěn)定下來，BF16 的超大動態(tài)范圍不再是必需品。相反，它所犧牲的精度，卻成了導(dǎo)致訓(xùn)練不穩(wěn)定的關(guān)鍵。因此，論文提出的解決方案非常直接：放棄 BF16 不必要的動態(tài)范圍，換回 FP16 急需的數(shù)值精度。FP16 的高精度就像一個“緩沖墊”，能夠吸收掉不同計算引擎間的微小實現(xiàn)差異，阻止舍入誤差的累積，從而從根源上保持了訓(xùn)練與推理策略的一致性。

實證研究：FP16 如何完勝現(xiàn)有算法

為了驗證 FP16 在解決訓(xùn)練-推理不匹配問題上的有效性，論文設(shè)計了一套嚴(yán)謹(jǐn)?shù)膶嶒灒⑴c現(xiàn)有的基于 BF16 的算法修正方案進(jìn)行了直接對比。

創(chuàng)新的實驗設(shè)計：Sanity Test

為了排除數(shù)據(jù)集本身難度分布帶來的干擾，研究者們構(gòu)建了一個“完美可解”的數(shù)據(jù)集（perfectible dataset）。他們首先從 MATH 數(shù)據(jù)集中篩選出初始模型準(zhǔn)確率在 20% 到 80% 之間的問題，排除了那些過于簡單或過于困難的題目。在這個特制的數(shù)據(jù)集上，一個設(shè)計良好、運行穩(wěn)定的 RL 算法理論上應(yīng)該能夠達(dá)到接近 100% 的訓(xùn)練準(zhǔn)確率。如果一個算法無法在此數(shù)據(jù)集上取得成功，就表明其本身存在根本性缺陷。這個“理智測試”（Sanity Test）為評估算法的可靠性提供了一個清晰、高效的基準(zhǔn)。

實驗結(jié)果：FP16 的壓倒性優(yōu)勢

實驗在 VeRL 和 Oat 兩個獨立的 RL 框架上進(jìn)行，以確保結(jié)果的普適性。對比結(jié)果非常清晰：

BF16 算法陣營的集體困境：

                                                                        *   **基礎(chǔ) GRPO 算法**：在訓(xùn)練初期就迅速崩潰。
    *   **GRPO + Token-TIS** (token 級別的截斷重要性采樣修正)：雖然能延長一些訓(xùn)練時間，但最終仍然無法避免崩潰的命運。
    *   **GRPO + Seq-MIS** (序列級別的掩碼重要性采樣修正)：這是 BF16 陣營中唯一能保持穩(wěn)定不崩潰的算法。然而，由于其重要性權(quán)重的方差極大，它的收斂速度異常緩慢，性能遠(yuǎn)未達(dá)到飽和就已耗費大量計算資源，并且最終的性能上限也明顯低于 FP16。
    *   **GSPO 算法**：表現(xiàn)出乎意料地比 Token-TIS 更穩(wěn)定，但同樣無法與 FP16 的表現(xiàn)相提并論。

FP16 的輕松取勝：

研究者們使用了一個最基礎(chǔ)、最簡單的重要性采樣策略梯度算法（PG-Seq-IS），沒有添加任何復(fù)雜的方差削減或修正技巧。僅僅因為運行在 FP16 精度下，該算法就展現(xiàn)出了極高的訓(xùn)練穩(wěn)定性，不僅從未崩潰，而且收斂速度飛快，輕松達(dá)到了近乎完美的訓(xùn)練獎勵，性能全面超越了所有精心設(shè)計的 BF16 算法。

深入洞察訓(xùn)練動態(tài)

Mismatch 作為崩潰的預(yù)警信號：實驗發(fā)現(xiàn)，所有最終崩潰的 BF16 算法，在崩潰前都表現(xiàn)出一個共同的特征：訓(xùn)練策略 π 和推理策略 μ 之間的差異（mismatch）持續(xù)增大。這表明 mismatch 是一個有效的訓(xùn)練健康狀況監(jiān)測指標(biāo)和崩潰預(yù)警信號

FP16 從根本上解決了問題：切換到 FP16 后，不同 RL 算法之間的性能差異變得微乎其微。無論是簡單的策略梯度還是復(fù)雜的 GRPO 變體，在 FP16 環(huán)境下都能穩(wěn)定地達(dá)到很高的性能。這雄辯地證明，F(xiàn)P16 已經(jīng)從根源上解決了不匹配問題，使得那些為解決此問題而設(shè)計的復(fù)雜算法補丁變得多余。

精度組合的消融實驗

為了進(jìn)一步厘清訓(xùn)練和推理精度各自的影響，論文進(jìn)行了消融研究，測試了不同精度組合的效果。
BF16 訓(xùn)練 + FP32 推理：雖然能實現(xiàn)完全穩(wěn)定的訓(xùn)練，但 FP32 推理的速度比 FP16 或 BF16 慢了近三倍，付出的代價過于高昂，不具備實用性

FP16 訓(xùn)練 + FP16 推理：這個組合不僅實現(xiàn)了最低的訓(xùn)練-推理不匹配，獲得了最穩(wěn)定的訓(xùn)練動態(tài)和最高的性能，同時還保持了極高的計算效率。

綜合所有實驗，結(jié)論是明確的：簡單地將訓(xùn)練和推理精度統(tǒng)一為 FP16，是解決 RL 微調(diào)不穩(wěn)定性問題最高效、最直接、最經(jīng)濟(jì)的方案。

普適性驗證：跨模型、跨場景的廣泛優(yōu)勢

為了證明“切換到 FP16”這一解決方案并非偶然，而是一種具有廣泛適用性的普適性原則，論文在一系列更多樣化的模型、數(shù)據(jù)和訓(xùn)練范式上進(jìn)行了驗證。結(jié)果表明，F(xiàn)P16 在所有測試場景中都展現(xiàn)出了一致的優(yōu)勢。

混合專家（MoE）模型的 RL 微調(diào)

MoE 模型因其獨特的結(jié)構(gòu)（如 top-k 專家選擇等精度敏感操作），在 RL 訓(xùn)練中是出了名的不穩(wěn)定，通常需要復(fù)雜的穩(wěn)定化策略。實驗結(jié)果（見原文圖 1 (i), (j), (k)）顯示：

在對 MoE 模型進(jìn)行 RL 微調(diào)時，無論是使用 GRPO-Seq-MIS、GRPO-Token-TIS 還是 PG-Seq-TIS 算法，F(xiàn)P16 精度下的訓(xùn)練都比 BF16 更加穩(wěn)定，并且能夠持續(xù)獲得更高的訓(xùn)練獎勵和驗證集性能。這證明 FP16 能有效緩解 MoE 模型中更為嚴(yán)重的訓(xùn)練-推理不匹配問題。

低秩適應(yīng)（LoRA）的 RL 微調(diào)

LoRA 是一種參數(shù)高效的微調(diào)技術(shù)，因其高效和接近全量微調(diào)的性能而備受青睞。實驗中，研究者們使用 LoRA 進(jìn)行了 RL 微調(diào)：

結(jié)果顯示，基于 BF16 的 LoRA 訓(xùn)練在大約 600 步后就崩潰了。

相比之下，基于 FP16 的 LoRA 訓(xùn)練則從頭到尾都保持了完全的穩(wěn)定。這說明 FP16 對于提升參數(shù)高效微調(diào)方法的穩(wěn)定性同樣至關(guān)重要

大型稠密模型的 RL 微調(diào)

為了驗證該發(fā)現(xiàn)在更大規(guī)模模型上的有效性，實驗在一個 140 億（14B）參數(shù)的稠密模型（Dense-14B）上進(jìn)行。

結(jié)果再次證實了結(jié)論：使用 FP16 進(jìn)行訓(xùn)練，模型的獎勵增長速度遠(yuǎn)快于 BF16，并且在 AIME 2024 驗證集上取得了更高的準(zhǔn)確率。這表明 FP16 能夠有效釋放大模型在 RL 訓(xùn)練中的潛力

其他模型家族的適用性

為了排除結(jié)論可能僅限于特定模型架構(gòu)（如 Qwen）的可能性，研究者們還在一個基于 Llama 架構(gòu)的 OctoThinker-3B 模型上進(jìn)行了實驗

結(jié)果與之前完全一致：BF16 訓(xùn)練在約 150 步后便因數(shù)值不匹配問題而變得不穩(wěn)定，最終崩潰；而 FP16 訓(xùn)練則一路平穩(wěn)，沒有任何不穩(wěn)定的跡象。

通過在 MoE 模型、LoRA 微調(diào)、大型稠密模型以及不同模型架構(gòu)上的全面驗證，論文有力地證明了，將浮點數(shù)精度從 BF16 切換到 FP16 是一種能夠系統(tǒng)性提升 RL 微調(diào)穩(wěn)定性和性能的根本性解決方案。其效果超越了特定的算法、模型尺寸或架構(gòu)，具有極高的普適價值。這一發(fā)現(xiàn)不僅解決了當(dāng)前 RL 微調(diào)領(lǐng)域的一個核心痛點，也促使我們重新思考在 LLM 訓(xùn)練流程中關(guān)于數(shù)值精度的權(quán)衡與選擇

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.