<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      讓LLM不再話癆,快手HiPO框架來了

      0
      分享至



      當用戶向大語言模型提出一個簡單問題,比如「單詞 HiPPO 里有幾個字母 P?」,它卻正襟危坐,開始生成一段冗長的推理鏈:「首先,讓我們分析 HiPPO 這個詞,河馬的英文單詞為 hippo,河馬是一種半水生哺乳動物,這里用戶用了大寫字母,可能有特殊的含義,對于單詞 HiPPO,我們可以將其拆分為 H-i-P-P-O,字母 P 出現在第 3 與第 4 個位置,因此有 2 個字母 P... 讓我們簡化問題,HiPO 可以拆分為...」

      面對這樣的「嚴謹」,用戶難免哭笑不得,既浪費了計算資源,也增加了等待時間,甚至更壞的情況是模型被自己冗長的推理鏈「繞暈了過去」,最終給出了錯誤的答案,用戶只得捶胸頓足地大喊:「這合理嗎?」



      這種現象,正是當前追求強大推理能力的 LLM 們普遍面臨的「過度思考」(Overthinking)困境。

      無論是數學計算、代碼生成還是邏輯問答,模型似乎習慣了「啟動即深思」的模式,即使面對本可直觀回答的簡單問題,也要展開一番鏈式思考(Chain-of-Thought, CoT),導致 token 使用量激增、推理延遲變長、部署成本高昂。如何在保持復雜問題解決準確性的同時,避免在簡單任務上「空轉」、在復雜任務上高效「運轉」,成為 LLM 走向實用化的一大關鍵挑戰。

      如今,快手 KwaiKAT 團隊與南京大學劉佳恒老師 NJU-LINK 實驗室、張煜群教授實驗室 ARiSE合作重磅推出HiPO(Hybrid Policy Optimization)框架,為 LLM 裝上了智能的「思考開關」。該框架通過創新的混合數據冷啟動與混合強化學習獎勵系統,使模型能夠自主、動態地決策何時該啟動詳細推理(Think-on),何時該直接給出答案(Think-off)。

      這不僅顯著提升了推理效率,更在多個核心基準測試上實現了準確率的同步提升,為構建高效、實用的下一代推理大模型提供了解決方案。



      • 論文鏈接:https://arxiv.org/abs/2509.23967
      • 項目鏈接:https://huggingface.co/Kwaipilot/HiPO-8B

      困境之源:LLM 的「思考」代價與「過度思考」頑疾

      大語言模型在復雜認知任務上的巨大成功,很大程度上歸功于鏈式思考(CoT) 推理范式的引入。讓模型像人一樣「一步一步想問題」,極大地提升了其在數學、編程、科學問題解決等領域的表現。然而,這套強大的推理機制也帶來了「認知慣性」:模型傾向于對所有問題都「一視同仁」地進行深度推理。

      • 效率與成本的矛盾:始終生成冗長的推理軌跡是低效的。它直接轉化為極高的 Token 使用量,意味著更慢的響應速度(延遲)和更昂貴的 API 調用或自建推理成本。在追求交互體驗和成本控制的真實應用場景中,這成為了一個致命的短板。
      • 「過度思考」的普遍性:近期多項研究都明確指出,LLM 存在普遍的過度思考現象。即使是最先進的模型,也常常在簡單問題上「小題大做」,生成大量冗余推理步驟,造成了計算資源的巨大浪費。在復雜問題上,模型也常常出現反復冗余思考的現象,導致回答出錯。

      現有的解決方案試圖緩解這一問題,但各有局限:

      • 基于訓練的自適應推理:通過強化學習(RL)引入長度懲罰或簡潔性獎勵,或通過監督微調(SFT)偏好更短的推理。但這類方法信號粗糙,可能因單調的 「縮短」激勵而損害模型處理難題的能力。
      • 外部控制:通過精心設計的提示詞或動態指令來限制推理步驟。這種方法靈活但依賴人工設計,難以規模化且泛化能力存疑。
      • 事后優化:在推理鏈生成后進行剪枝或重構。這屬于「事后補救」,無法從根源上改變模型的思考模式。

      核心問題在于,缺乏一個原則性的機制,來精細地平衡準確性、回答效率之間的權衡,讓模型學會「具體問題,具體分析」。

      HiPO 破局之道:雙輪驅動的「智能思考開關」

      HiPO 框架的核心思想是將「是否思考」的決策權交給模型自身,并通過系統性的訓練方法,確保其決策的智能性與平衡性。其創新性主要體現在兩大核心組件上:

      組件一:混合數據冷啟動—— 為模型裝上「智能思考開關」

      要讓模型學會選擇,首先需要讓它見識過「思考」和「不思考」兩種模式下的高質量回答是什么樣的。HiPO 設計了一套精密的自動化數據構建流程,并使用混合數據進行冷啟動。



      1.數據收集與分類:研究團隊整合了多個高質量的公開及專有數學與代碼推理數據集(如 AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data),構建了一個高質量的訓練語料庫。

      2.雙模式響應生成與優選:對于每個問題,使用一個強大的推理模型(如 DeepSeek-V3)分別生成 N 個「Think-on」(帶推理)和 N 個「Think-off」(直接回答)的響應。然后,自動驗證所有回答的正確性。

      • 關鍵優選策略:比較兩種模式的通過率(Pass Rate)。如果「Think-on」模式的通過率顯著高于「Think-off」,則選擇「Think-on」模式;反之則選擇 「Think-off」。特別巧妙的是,當兩種模式通過率相差無幾(低于閾值 δ)時,策略會傾向于選擇「Think-off」模式。這一設計直接鼓勵模型在深度思考不能帶來明顯收益時,優先選擇更簡潔的回答,從數據源頭注入效率意識。
      • 最短正確響應:在獲勝的模式下,選擇最短的正確響應作為最終樣本,進一步強化簡潔性。

      3.引入模式解釋信號:為了強化模型對模式選擇的理解,HiPO 還引入了一個輔助解釋信號。對于每個優選出的問答對,會使用 DeepSeek-V3 生成一段理由(Justification),解釋「為什么這個問題適合(或不適合)進行深度推理」。這為模型提供了寶貴的元認知信號,幫助其將模式選擇與問題內在的復雜性對齊。

      這套管道最終產出的數據,每條都包含了問題、最終回答、以及關于思考模式的理由。在這些數據上對模型進行冷啟動,使得模型初步具有了「智能思考」的能力。

      組件二:混合強化學習獎勵系統 —— 精細化引導模型的「決策天平」

      有了高質量的數據進行「冷啟動」(Cold-Start)訓練后,HiPO 通過一個設計精巧的混合強化學習(RL)階段,對模型進行微調,使其決策能力臻于完善。該獎勵系統的核心目標是防止模型過度依賴看似更可靠的「Think-on」模式,實現真正的自適應。

      1.基礎獎勵:每個生成的回答會根據其答案正確性(ACC)和格式正確性(FORMAT)獲得一個基礎獎勵分。

      2.偏差調整機制 —— 防止「思考」慣性:這是 HiPO 的一個關鍵創新。由于 「Think-on」模式通常更準確,模型在 RL 過程中容易產生偏向,無論問題難易都選擇「思考」。為了解決這一問題,HiPO 引入了動態的偏差調整機制。

      • 它會計算「Think-on」模式響應的平均獎勵,然后為「Think-off」模式設定一個偏置項(bias_off),該偏置項是「Think-on」平均獎勵的一個比例(由 ω 控制,通常設為 0.01)。
      • 當「Think-off」模式的性能不顯著優于「Think-on」,但差距在一定范圍內時,會啟動調整,適當提升「Think-off」模式的評估得分。
      • 這一機制有效防止了模型通過「無腦」選擇冗長推理來獲取獎勵的投機行為,確保了訓練穩定性,并維護了深度與效率之間的 intended balance。

      3.混合優勢函數 —— 雙重監督:HiPO 設計了兩個獨特的優勢(Advantage)函數來提供更精細的指導信號:

      • 評判優勢(A_judge):關注于模式選擇的合理性。它結合了「所選模式的全局平均優勢」和「當前響應在其模式內的相對質量」,確保模型選擇某個思考模式的理由(即之前生成的 Justification)與其實際表現一致。
      • 回答優勢(A_answer):聚焦于回答本身的質量。它在同一思考模式內進行局部歸一化,鼓勵模型在既定模式下生成更好的回答,而不與模式選擇的偏好混淆。

      最終,這兩個優勢信號被分別賦予給回答中對應的「理由」部分和「答案」部分的每個令牌,實現令牌級別的精細化優化。整個 RL 過程采用類似 PPO 的算法,在最大化期望獎勵的同時,約束策略更新幅度,防止偏離太遠。

      實驗結果:不僅更快,而且更準

      HiPO 在基于 Qwen3 系列模型(如 8B 參數版本)的實驗中,取得了令人矚目的成果。在 AIME2024/2025、HumanEval、LiveCodeBench(v6)、MATH-500、GPQA-Diamond 等多個權威基準測試上,與多種基線方法進行了全面對比,并進行了充分的消融實驗。



      • 顯著提升效率:與僅使用「Think-on」數據訓練的模型相比,最終HiPO 模型在平均令牌長度上減少了 30%,思考率(RatioT)降低了 37%。這意味著模型在處理大量問題時,能智能地跳過不必要的推理,直接輸出答案,帶來了實實在在的成本和延遲收益。
      • 同步提升準確率:更令人驚喜的是,HiPO 在實現效率飛躍的同時,平均準確率提升了 6.3%。這證明其自適應機制不僅沒有損害性能,反而通過優化決策,讓模型在難題上更「專注」地思考,在簡單題上更高效地回答,實現了雙贏。
      • 超越現有方法:實驗表明,HiPO 在準確性和效率的綜合表現上,優于 AdaptThink、AutoThink 等現有的自適應推理方法。

      動態決策分析:研究團隊還深入追蹤了模型在訓練和推理過程中的行為演變。



      • 如上圖 (a) 所示,隨著 RL 訓練的進行,模型激活「Think-on」和「Think-off」的頻率差距逐漸縮小,從初期的 89.5% 降至最終的 53.1%,說明模型確實學會了更精細地切換模式。
      • 上圖 (b) 顯示,在不同數據集上,模型的思考模式激活率與任務特性高度相關。在 AIME2024、LiveCodeBench 等需要強推理的任務上,「Think-on」率始終保持在 70% 以上;而在 HumanEval 等相對簡單的代碼任務上,“Think-on” 率則隨訓練明顯下降,體現了良好的任務適應性。



      • 上圖 (a) 和上圖 (b) 清晰地展示了 RL 訓練過程中以及在不同數據集上,模型輸出令牌數量的持續下降趨勢,直觀反映了 HiPO 在提升效率方面的有效性。

      強泛化性:HiPO 的成功不僅在 Qwen3-8B 上得到驗證,在 Qwen3-1.7B 和 Qwen3-32B 等不同規模的模型上也展現出一致的性能提升,證明了其方法的普適性。



      未來展望:HiPO 如何重塑高效 LLM 生態

      HiPO 框架的提出,不僅僅是一項技術突破,更是為 LLM 的發展方向提供了一個重要的思路轉變:從一味追求「更強思考」到追求「更智能地思考」。

      1. 推動 LLM 實用化落地:對于需要大規模部署 LLM 的應用(如搜索引擎、智能客服、代碼助手),HiPO 能直接降低計算成本和響應延遲,使高性能 LLM 服務變得更加「親民」。
      2. 為模型輕量化提供新路徑:通過讓模型學會「停止思考」,可能在保持相當性能的前提下,為模型壓縮和蒸餾開辟新的可能性。
      3. 增強模型的「元認知」能力:HiPO 訓練模型對自身認知過程進行監控和決策,這是向具備更高層次智能的 AI 系統邁出的重要一步。

      結語

      當大語言模型陷入「為思考而思考」的認知慣性時,其巨大的潛力被低效的運作方式所束縛。快手與南大團隊的 HiPO 框架,如同一位高明的教練,不是粗暴地限制模型的「思考」,而是教會它判斷「何時該深思熟慮,何時可一擊即中」。

      這項研究巧妙地平衡了推理的「質」與「效」,為構建真正高效、可靠、適用于真實世界的下一代人工智能助手奠定了堅實的基礎。在 LLM 競速發展的下半場,「智能效率」 或許將是比「暴力計算」更重要的決勝籌碼。

      目前,HiPO 的相關模型和資源已在Hugging Face 平臺開源,供社區研究和使用。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      事實證明,“消失”多年的清華才女武亦姝,證實了董卿當年沒說錯

      千言娛樂記
      2025-09-25 20:27:56
      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      放棄洋帥!足協做出重大決定,國足主帥四選一,一人手握兩大優勢

      籃球圈里的那些事
      2025-11-05 14:02:52
      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      阿森納激活 “世界最佳九號”!阿爾特塔再遭質疑

      奶蓋熊本熊
      2025-11-05 12:48:54
      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      為了防止客人穿過退,店家只能這樣干了:給衣服裝密碼鎖!

      夜深愛雜談
      2025-11-04 21:47:20
      國務院臺辦新任發言人、港澳局局長張晗亮相

      國務院臺辦新任發言人、港澳局局長張晗亮相

      政知新媒體
      2025-11-05 10:26:10
      王家衛劇組在陜西榆林組團Piao娼?

      王家衛劇組在陜西榆林組團Piao娼?

      華人星光
      2025-11-05 11:53:54
      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      央媒評動力電池路線單一將阻礙中國新能源發展,專家強調三元鋰與磷酸鐵鋰需并行研發

      澎湃新聞
      2025-11-05 14:22:10
      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      A股:不用等周四開盤,不出意外的話,明天或將這樣變化

      財經大拿
      2025-11-05 13:36:42
      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      司機在口袋里養鸚鵡半月,開車間隙逗玩,沒想到身體出事了!醫生提醒:潛伏期最長45天

      FM93浙江交通之聲
      2025-11-04 20:09:22
      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      魔鬼賽程!阿森納后面將陸續迎戰桑德蘭、熱刺、拜仁、切爾西

      懂球帝
      2025-11-05 14:43:13
      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      毛主席視察天津時想見李銀橋,得知他已經入獄,偉人只說了2個字

      南書房
      2025-09-28 23:01:03
      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      快船107-126雷霆 球員評價:3人優秀,2人及格,4人崩盤

      籃球資訊達人
      2025-11-05 15:04:24
      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      《雪中悍刀行2》騰訊預熱,張若昀大男主,原班人馬回歸意義不大

      妙知
      2025-11-04 10:34:03
      暴跌,熔斷!剛剛,大跳水

      暴跌,熔斷!剛剛,大跳水

      新浪財經
      2025-11-05 10:31:00
      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      關于爸媽的瓜能有多炸裂?網友:這擱古代都是浸豬籠的大罪啊!

      解讀熱點事件
      2025-11-02 14:48:17
      女性出軌率最高的幾大職業

      女性出軌率最高的幾大職業

      微微熱評
      2025-11-04 12:27:00
      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      許婧39歲生日美照曝光,外籍帥老公貼身相伴,這甜蜜度直接拉滿

      鄭丁嘉話
      2025-11-04 10:41:50
      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      北京這一夜,秦海璐腫了,蔣欣瘦成皮包骨,卻被66歲的她驚艷了

      有范又有料
      2025-11-05 10:41:30
      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      蔣介石臨終前告訴蔣經國:我這一生只敬佩一人,畏懼兩人!

      浪子阿邴聊體育
      2025-11-01 10:57:22
      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      想的挺美——哈馬斯要求豁免躲藏在加沙隧道中的恐怖分子

      老王說正義
      2025-11-04 00:05:34
      2025-11-05 17:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      家居
      藝術
      游戲
      房產
      軍事航空

      家居要聞

      別樣府院 暢享詩意生活

      藝術要聞

      院士親自下場“把關”!溫州園博園山水中國館,預計年底建成!

      知名游戲新作Steam國區好評率僅4%!玩家噴爆了

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久综合日本久久网| 国产在线98福利播放视频| 艳妇乳肉豪妇荡乳xxx| 亚洲国产日韩a在线播放| 亚洲婷婷综合色高清在线| 国产精品黄在线观看免费| 鱼台县| 午夜国产理论大片高清| 国产精品一区二区三区蜜臀| 人妻蜜臀久久av不卡| 国产精品国三级国产av| 国内自拍偷拍一区二区三区| 中文人妻AV大区中文不卡| 久久亚洲女同第一区综合| 99er热精品视频| 狼色精品人妻在线视频| 日日碰狠狠躁久久躁96avv| 国产色一区二区三区四区| 辽阳市| 岛国中文字幕一区二区| 狠狠躁日日躁夜夜躁欧美老妇 | 精品在免费线中文字幕久久| 国内精品久久人妻无码网站| 视频一区视频二区卡通动漫| 色成人亚洲| 国内精品久久久久电影院| 白水县| 久久人人爽人人爽人人av| caoporn免费视频公开| 自拍日韩亚洲一区在线| 人妻聚色窝窝人体WWW一区| 成人免费看片又大又黄| 日韩精品一区二区三区无| 曰批免费视频播放免费| 麻豆一区二区三区香蕉视频| 大陆精大陆国产国语精品| 精品国产中文字幕在线看| 精品一卡2卡三卡4卡乱码精品视频| 久久天堂综合亚洲伊人HD妓女 | 国产对白老熟女正在播放| 亚洲av高清一区二区三|