<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      1.5B模型新SOTA,RL訓(xùn)練新解法打破「簡(jiǎn)單題過(guò)擬合、難題學(xué)不動(dòng)」

      0
      分享至



      QuestA(問(wèn)題增強(qiáng))引入了一種方法,用于提升強(qiáng)化學(xué)習(xí)中的推理能力。通過(guò)在訓(xùn)練過(guò)程中注入部分解題提示,QuestA 實(shí)現(xiàn)兩項(xiàng)重大成果:

      Pass@1 的 SOTA 性能:在 1.5B 模型上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,甚至在關(guān)鍵基準(zhǔn)測(cè)試中超越了早期的 32B 模型。
      提升 Pass@k:在提高 Pass@1 的同時(shí),QuestA 不會(huì)降低 Pass@k 性能 —— 事實(shí)上,它通過(guò)讓模型在多次嘗試中進(jìn)行更有效的推理,從而提升了模型能力。

      這一在強(qiáng)化學(xué)習(xí)訓(xùn)練中的發(fā)現(xiàn),為開發(fā)具有更強(qiáng)推理能力的模型打開了大門。QuestA 使 RL 能夠高效處理不同難度的任務(wù),消除了通常在簡(jiǎn)單與困難問(wèn)題之間存在的權(quán)衡。

      兩難:簡(jiǎn)單任務(wù)導(dǎo)致熵坍縮 vs. 難任務(wù)減緩學(xué)習(xí)效率

      多年來(lái),RL 訓(xùn)練一直存在一個(gè)需要思考的數(shù)據(jù)平衡問(wèn)題:簡(jiǎn)單任務(wù)導(dǎo)致模型過(guò)度自信,而難任務(wù)提高推理能力,但由于樣本效率低下,學(xué)習(xí)速度變慢。

      • 簡(jiǎn)單任務(wù)傾向于使模型過(guò)擬合,使其在特定、更簡(jiǎn)單的問(wèn)題上非常準(zhǔn)確。然而,這導(dǎo)致模型變得過(guò)度自信,從而妨礙了其泛化能力,難以解決更復(fù)雜的任務(wù)。
      • 難任務(wù)提高了模型的推理能力,但具有低樣本效率,這意味著它需要更長(zhǎng)的時(shí)間來(lái)學(xué)習(xí)和進(jìn)展。稀疏的獎(jiǎng)勵(lì)和任務(wù)的難度使得在困難問(wèn)題上的訓(xùn)練變得緩慢,限制了整體的學(xué)習(xí)速度。

      這個(gè)權(quán)衡一直是 RL 模型的挑戰(zhàn),近日清華大學(xué)、上海期智研究院、Amazon 和斯坦福大學(xué)等機(jī)構(gòu)提出的QuestA 解決了這個(gè)問(wèn)題。通過(guò)在訓(xùn)練困難任務(wù)時(shí)引入部分解決方案提示,QuestA 幫助模型更快地學(xué)習(xí),同時(shí)不犧牲在簡(jiǎn)單任務(wù)上的表現(xiàn)。這確保了模型能夠從簡(jiǎn)單任務(wù)和難任務(wù)中獲益,提升其推理能力,同時(shí)避免過(guò)擬合或?qū)W習(xí)緩慢。



      • 論文標(biāo)題:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
      • Arxiv 論文地址:https://www.arxiv.org/abs/2507.13266
      • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
      • GitHub 地址:https://github.com/foreverlasting1202/QuestA

      研究者得出的關(guān)鍵結(jié)果是:強(qiáng)化學(xué)習(xí)可以提升模型能力。具體而言,QuestA 取得了以下顯著成果:

      1. Pass@1 改進(jìn):QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數(shù)模型的數(shù)學(xué)基準(zhǔn)測(cè)試中達(dá)到了新的最先進(jìn)結(jié)果:在 AIME24 上達(dá)到 72.50%(+10.73%),在 AIME25 上達(dá)到 62.29%(+12.79%),在 HMMT25 上達(dá)到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,盡管它是一個(gè)更小的模型。這表明 QuestA 顯著提高了模型在平時(shí)使用中的表現(xiàn)。
      2. Pass@k 改進(jìn):與傳統(tǒng)的 RL 方法不同,QuestA 還提高了Pass@k,展示了模型的容量隨著 RL 訓(xùn)練的進(jìn)行而增加。這是一個(gè)關(guān)鍵的區(qū)別,因?yàn)樗砻?QuestA 使得模型能夠持續(xù)進(jìn)行探索和推理,而不像其他方法,在優(yōu)化Pass@1時(shí)Pass@k性能會(huì)下降。

      X上有人評(píng)價(jià)稱,QuestA 是一種巧妙的數(shù)據(jù)增強(qiáng)方法,不僅加速了 pass@1 的改進(jìn),還保持/增強(qiáng)了pass@k,并且沒有多樣性損失。這是 1.5B 推理模型的新SOTA。



      QuestA 方法:提示即所需

      QuestA 通過(guò)「數(shù)據(jù)增強(qiáng) + 迭代課程學(xué)習(xí)」的組合設(shè)計(jì),實(shí)現(xiàn)對(duì) RL 訓(xùn)練的高效改進(jìn),核心邏輯如下:

      1. 聚焦高難度問(wèn)題:采用兩階段過(guò)濾流程篩選訓(xùn)練數(shù)據(jù) —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型,從 OpenR1-Math-220K 數(shù)據(jù)集中選出僅 0-1 次正確(8 次采樣)的 26K 高難度樣本;再對(duì)增強(qiáng)后的提示詞進(jìn)行二次篩選,保留模型仍難以正確解答(0-4 次正確)的樣本,最終聚焦不超過(guò) 10K 的核心困難任務(wù),確保訓(xùn)練資源用在能力突破點(diǎn)上。
      2. 動(dòng)態(tài)調(diào)整提示比例:為避免模型依賴提示,QuestA 設(shè)計(jì)迭代式課程學(xué)習(xí) —— 先以 50% 比例的部分解決方案作為提示(p=50%)訓(xùn)練至性能飽和,再將提示比例降至 25%(p=25%)繼續(xù)訓(xùn)練,逐步引導(dǎo)模型從「依賴提示」過(guò)渡到 “自主推理”,實(shí)現(xiàn)能力的真實(shí)遷移。
      3. 輕量化集成 RL:QuestA 無(wú)需修改 RL 算法核心或獎(jiǎng)勵(lì)函數(shù),僅通過(guò)替換訓(xùn)練數(shù)據(jù)(用增強(qiáng)提示詞替代原始提示詞)即可集成至現(xiàn)有 RL pipeline(如 GRPO、DAPO),具備「即插即用」的靈活性。



      QuestA 通過(guò)在數(shù)據(jù)集中每個(gè)原始問(wèn)題前添加部分解決方案提示,對(duì)原始問(wèn)題進(jìn)行增強(qiáng)處理。



      圖 1: QuestA 是一種數(shù)據(jù)增強(qiáng)方法,通過(guò)注入部分解決方案,為強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜推理問(wèn)題上的訓(xùn)練提供有效支撐。研究者基于 OpenR1 中的高難度樣本,構(gòu)建了 2.6 萬(wàn)個(gè)高質(zhì)量增強(qiáng)提示詞(augmented prompts),并采用 32K 上下文長(zhǎng)度的強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)。將該方法應(yīng)用于 Nemotron-1.5B 模型后,QuestA 帶來(lái)了顯著的性能提升 —— 在所有數(shù)學(xué)基準(zhǔn)測(cè)試中,均為 15 億參數(shù)模型創(chuàng)下了新的當(dāng)前最優(yōu)(SOTA)結(jié)果。

      訓(xùn)練細(xì)節(jié)

      研究者使用AReaLite框架進(jìn)行 RL 訓(xùn)練。

      具體而言,他們應(yīng)用了 GRPO 算法,并結(jié)合了來(lái)自 DAPO 的動(dòng)態(tài)過(guò)濾技術(shù),以排除訓(xùn)練中顯而易見正確或錯(cuò)誤的樣本。這一優(yōu)化幫助聚焦于最難的問(wèn)題,提升了訓(xùn)練效率。

      評(píng)估

      研究者在競(jìng)爭(zhēng)級(jí)數(shù)學(xué)基準(zhǔn)測(cè)試上評(píng)估了 Pass@1(32 個(gè)樣本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中達(dá)到了最先進(jìn)水平,并在多個(gè)基準(zhǔn)測(cè)試中匹配或超過(guò)了DeepSeek-R1-Distill-32B,同時(shí)其模型體積小于20×。



      核心差異點(diǎn):實(shí)現(xiàn)真實(shí)能力提升,而非熵坍縮

      實(shí)驗(yàn)結(jié)果表明,QuestA 方法在提升模型推理能力的同時(shí),并未損害其多樣性。如圖 2 所示,即便在問(wèn)題難度持續(xù)增加的情況下,Pass@k曲線仍呈現(xiàn)出穩(wěn)定的上升趨勢(shì)。



      圖 2:研究者比較了使用 RLVR 訓(xùn)練的模型在有和沒有 QuestA 的情況下的 pass@k 曲線。作為對(duì)照實(shí)驗(yàn),我們使用易難不同的提示進(jìn)行 RL 訓(xùn)練。標(biāo)準(zhǔn) RL 在易提示下(紅色)隨著 k 值增大,pass@k 顯著下降,而與基準(zhǔn)模型(藍(lán)色)相比,表現(xiàn)較差。在難提示下訓(xùn)練(綠色)能夠提高 pass@k,但代價(jià)是訓(xùn)練時(shí)間顯著增加。這激發(fā)了他們開發(fā) QuestA 的動(dòng)機(jī),QuestA 通過(guò)為困難問(wèn)題提供框架,提升了訓(xùn)練效率,并且在所有 k 值下提供了更強(qiáng)的結(jié)果:RL+QuestA 模型(橙色)在所有 k 值上都優(yōu)于標(biāo)準(zhǔn) RL(紅色),同時(shí)在較大的 k 值下相較于使用困難提示訓(xùn)練的 RL 模型,性能也保持或有所提升。

      消融實(shí)驗(yàn)

      QuestA 同時(shí)也在不同的基礎(chǔ)模型和不同的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),都讓模型得到了相應(yīng)幅度的提升,這證明了 QuestA 這個(gè)方法的泛用性。具體細(xì)節(jié)參考 Arxiv 文章。

      結(jié)論:QuestA 方法彰顯強(qiáng)化學(xué)習(xí)在推理任務(wù)中的更大應(yīng)用潛力

      QuestA 方法的研究結(jié)果表明,強(qiáng)化學(xué)習(xí)確實(shí)能夠助力模型習(xí)得新能力。通過(guò)同時(shí)提升Pass@1與Pass@k指標(biāo)的性能表現(xiàn),該方法證實(shí):強(qiáng)化學(xué)習(xí)可在不犧牲效率與泛化能力的前提下,持續(xù)拓展模型的能力邊界。

      此外,QuestA 方法有效消除了傳統(tǒng)訓(xùn)練中簡(jiǎn)單任務(wù)與復(fù)雜任務(wù)之間的權(quán)衡矛盾,使模型能夠在涵蓋廣泛?jiǎn)栴}類型的場(chǎng)景下,實(shí)現(xiàn)推理能力的極大提升。


      這一技術(shù)突破對(duì)強(qiáng)化學(xué)習(xí)未來(lái)的應(yīng)用發(fā)展具有深遠(yuǎn)意義。依托 QuestA 方法,我們期待基于強(qiáng)化學(xué)習(xí)構(gòu)建的模型如今可處理更多復(fù)雜且多樣的推理任務(wù),其應(yīng)用場(chǎng)景已從數(shù)學(xué)問(wèn)題求解延伸至邏輯推理及創(chuàng)造性思維等領(lǐng)域。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      今年的蒙古國(guó)已經(jīng)亂到?jīng)]邊了,首都烏蘭巴托的街頭全是抗議的人群

      今年的蒙古國(guó)已經(jīng)亂到?jīng)]邊了,首都烏蘭巴托的街頭全是抗議的人群

      南權(quán)先生
      2025-11-05 16:42:59
      周四收盤:今天漲到4008,做好準(zhǔn)備了,周五很可能將迎來(lái)關(guān)鍵變盤

      周四收盤:今天漲到4008,做好準(zhǔn)備了,周五很可能將迎來(lái)關(guān)鍵變盤

      好賢觀史記
      2025-11-06 15:00:23
      副院長(zhǎng)出軌眼科主任后續(xù):院方回應(yīng),紀(jì)檢部門介入,兩人均已停診

      副院長(zhǎng)出軌眼科主任后續(xù):院方回應(yīng),紀(jì)檢部門介入,兩人均已停診

      千言?shī)蕵?lè)記
      2025-11-06 16:41:49
      單價(jià)近35萬(wàn)元/平、總價(jià)1.99億元 瑞慈醫(yī)療在上海入手一套豪宅

      單價(jià)近35萬(wàn)元/平、總價(jià)1.99億元 瑞慈醫(yī)療在上海入手一套豪宅

      財(cái)聯(lián)社
      2025-11-06 11:54:06
      義烏10歲搞錢小孩哥突然爆火全網(wǎng),我才頓悟一個(gè)家庭最大的財(cái)富是什么!

      義烏10歲搞錢小孩哥突然爆火全網(wǎng),我才頓悟一個(gè)家庭最大的財(cái)富是什么!

      脆皮先生
      2025-11-06 20:29:25
      縣城險(xiǎn)象環(huán)生,你千萬(wàn)不要被表面的平靜給蒙蔽了。

      縣城險(xiǎn)象環(huán)生,你千萬(wàn)不要被表面的平靜給蒙蔽了。

      流蘇晚晴
      2025-10-31 20:55:43
      小鵬機(jī)器人里面是不是真人?全球網(wǎng)友吵翻了,CEO 現(xiàn)場(chǎng)「扒開衣服」自證

      小鵬機(jī)器人里面是不是真人?全球網(wǎng)友吵翻了,CEO 現(xiàn)場(chǎng)「扒開衣服」自證

      AppSo
      2025-11-06 17:03:00
      又一知名演員被罵到抑郁!于和偉仗義出面,求觀眾給條活路

      又一知名演員被罵到抑郁!于和偉仗義出面,求觀眾給條活路

      木子愛娛樂(lè)大號(hào)
      2025-11-06 15:35:28
      紅軍城覆滅進(jìn)入倒計(jì)時(shí),烏軍發(fā)起空降作戰(zhàn),瞬間上演送人頭大戲

      紅軍城覆滅進(jìn)入倒計(jì)時(shí),烏軍發(fā)起空降作戰(zhàn),瞬間上演送人頭大戲

      子桑說(shuō)
      2025-11-06 19:50:11
      那年,我受命去調(diào)查于幼軍

      那年,我受命去調(diào)查于幼軍

      霹靂炮
      2025-11-02 19:38:51
      CCTV5直播!王楚欽男單、男團(tuán)大戰(zhàn)樊振東!王曼昱遭遇陳夢(mèng)!全運(yùn)會(huì)簽表出爐!

      CCTV5直播!王楚欽男單、男團(tuán)大戰(zhàn)樊振東!王曼昱遭遇陳夢(mèng)!全運(yùn)會(huì)簽表出爐!

      好乒乓
      2025-11-06 12:56:13
      神二十3名航天員、4鼠乘組將夜間返回地球,為何不延期白天回家?

      神二十3名航天員、4鼠乘組將夜間返回地球,為何不延期白天回家?

      環(huán)球科學(xué)貓
      2025-11-04 11:29:07
      成“老賴”不到72小時(shí),于謙資產(chǎn)被扒底朝天,楊議的話有人信了

      成“老賴”不到72小時(shí),于謙資產(chǎn)被扒底朝天,楊議的話有人信了

      科學(xué)發(fā)掘
      2025-10-31 14:06:52
      女兒百日宴公公給8.8塊,半年后公公70大壽,我送上了“壽禮”

      女兒百日宴公公給8.8塊,半年后公公70大壽,我送上了“壽禮”

      如煙若夢(mèng)
      2025-10-20 19:00:09
      阿富汗地震損傷慘重,全球集體沉默,無(wú)人支援?中國(guó)緊急發(fā)聲!

      阿富汗地震損傷慘重,全球集體沉默,無(wú)人支援?中國(guó)緊急發(fā)聲!

      歷史有些冷
      2025-11-06 19:55:03
      陳佩斯三兄妹罕見同框!75歲大哥老得認(rèn)不出,妹妹年輕富態(tài)有活力

      陳佩斯三兄妹罕見同框!75歲大哥老得認(rèn)不出,妹妹年輕富態(tài)有活力

      小徐講八卦
      2025-11-06 05:50:36
      普京下死命令,他明白:中俄關(guān)系再好,他也必須為俄羅斯未來(lái)考慮

      普京下死命令,他明白:中俄關(guān)系再好,他也必須為俄羅斯未來(lái)考慮

      涼羽亭
      2025-11-05 18:31:40
      副院長(zhǎng)和眼科醫(yī)生為愛鼓掌17分鐘,背后還有更大的瓜,官方回應(yīng)

      副院長(zhǎng)和眼科醫(yī)生為愛鼓掌17分鐘,背后還有更大的瓜,官方回應(yīng)

      溫柔看世界
      2025-11-06 17:09:27
      孫東旭已從東方甄選直播間消失201天,其社交賬號(hào)簡(jiǎn)介仍是“東方甄選的孫美麗”,有粉絲曾于4月飛拉薩見他最后一場(chǎng)直播

      孫東旭已從東方甄選直播間消失201天,其社交賬號(hào)簡(jiǎn)介仍是“東方甄選的孫美麗”,有粉絲曾于4月飛拉薩見他最后一場(chǎng)直播

      極目新聞
      2025-11-06 18:13:22
      原來(lái)明星私底下聚會(huì)也是素顏出席呀

      原來(lái)明星私底下聚會(huì)也是素顏出席呀

      動(dòng)物奇奇怪怪
      2025-11-06 12:14:15
      2025-11-06 21:15:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11665文章數(shù) 142499關(guān)注度
      往期回顧 全部

      科技要聞

      小鵬機(jī)器人里藏真人?何小鵬發(fā)一鏡到底視頻

      頭條要聞

      重慶一套百平米"兇宅"191萬(wàn)上架法拍 欠繳物業(yè)費(fèi)超3萬(wàn)

      頭條要聞

      重慶一套百平米"兇宅"191萬(wàn)上架法拍 欠繳物業(yè)費(fèi)超3萬(wàn)

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂(lè)要聞

      “黑料纏身”的白百何 誰(shuí)給她的勇氣?

      財(cái)經(jīng)要聞

      南銀法巴加速發(fā)展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來(lái)參加新車發(fā)布了?

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      教育
      手機(jī)
      公開課

      本地新聞

      這屆干飯人,已經(jīng)把博物館吃成了食堂

      藝術(shù)要聞

      預(yù)定年度十佳!49歲的舒淇,殺瘋了

      教育要聞

      小學(xué)生書包里翻出“解剖圖”,主角是美術(shù)老師,真相令人脊背發(fā)涼

      手機(jī)要聞

      榮耀500 Pro曝光:驍龍8至尊版芯片+8000mAh電池+2億像素主攝

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩激情无码av一区二区| 久在线精品视频线观看| 人妻放荡乱h文| 亚洲av一本二本三本| 真实单亲乱l仑对白视频| 欧美日本一区二区视频在线观看| 亚洲性猛交xxxx| 一区二区精品久久蜜精品| 精品国产迷系列在线观看| 乱码精品一区二区三区| 久久精品国产亚洲成人av| 亚洲欧美中文字幕日韩一区二区| 国产精品午夜无码AV天美传媒| 精品久久久久国产免费| 伊人激情av一区二区三区| 色窝窝免费播放视频在线| 国产免费高清69式视频在线观看| 久青草精品视频在线观看| 亚洲男女羞羞无遮挡久久丫 | 公天天吃我奶躁我的在线观看| 亚洲av无码牛牛影视在线二区 | 国产熟女一区二区三区四区| 久热这里只有精品12| 亚洲成a人片在线观看中| 99国产精品久久久久久久日本竹| 国产视频一区二区三区视频| 成人国产精品一区二区网站公司| 国产成AV人片久青草影院| 蜜桃av亚洲第一区二区| 国产裸体美女视频全黄| 在线日韩日本国产亚洲| 激情影院内射美女| 亚洲国产成熟视频在线多多| 国产精品欧美福利久久| julia无码中文字幕一区| 国产亚洲av夜间福利香蕉149 | 日韩精品人妻av一区二区三区| 久久精品亚洲精品国产色婷| 亚洲欧洲一区二区天堂久久| 最新国产精品好看的精品| 国产成人啪精品视频免费网|