時(shí)令 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI通過(guò)自問(wèn)自答就能提升推理能力?!
這正是卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出的新框架SQLM——一種無(wú)需外部數(shù)據(jù)的自我提問(wèn)模型。
![]()
該框架包含提問(wèn)者(proposer)和解答者(solver)兩個(gè)角色,提問(wèn)者生成與給定主題相關(guān)的問(wèn)題,解答者旨在解決問(wèn)題。
網(wǎng)友們神評(píng),“簡(jiǎn)直是帶有RL的GAN”。
![]()
值得一提的是,此團(tuán)隊(duì)中又雙叒叕現(xiàn)華人身影~
通過(guò)強(qiáng)化學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)
當(dāng)前大語(yǔ)言模型的訓(xùn)練很大程度上仍依賴人工整理數(shù)據(jù)集,堪稱費(fèi)時(shí)費(fèi)力。
為了減輕這一負(fù)擔(dān),研究人員開發(fā)了用于強(qiáng)化學(xué)習(xí)的無(wú)監(jiān)督獎(jiǎng)勵(lì)函數(shù)。然而,這些函數(shù)仍然依賴于預(yù)先提供的高質(zhì)量輸入提示。
因此,問(wèn)題的難點(diǎn)從“生成答案”轉(zhuǎn)移到了“生成高質(zhì)量問(wèn)題”。
這凸顯出當(dāng)前方法的一個(gè)關(guān)鍵不足:
缺乏一種可擴(kuò)展且自我維持的流程,能夠在無(wú)人干預(yù)的情況下自動(dòng)生成有意義的問(wèn)題和答案。
![]()
為此,研究者提出了SQLM框架
,一種非對(duì)稱的自我博弈框架,其中提問(wèn)者
,解答者
![]()
回答該問(wèn)題,兩者均通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以最大化期望獎(jiǎng)勵(lì)。
![]()
其中,提問(wèn)者生成問(wèn)題會(huì)對(duì)解答者形成條件影響,而解答者的表現(xiàn)又反過(guò)來(lái)為提問(wèn)者提供獎(jiǎng)勵(lì),從而不斷優(yōu)化提問(wèn)者。
由于缺乏真實(shí)答案,研究者設(shè)計(jì)了基于“生成者–驗(yàn)證者差距”的自監(jiān)督獎(jiǎng)勵(lì)函數(shù)。
若生成器-驗(yàn)證器差距小(例如算數(shù)問(wèn)題),則采用多數(shù)投票作為代理獎(jiǎng)勵(lì)。
![]()
若生成器-驗(yàn)證器差距大(例如編程問(wèn)題),先由提問(wèn)者生成測(cè)試用例,獎(jiǎng)勵(lì)則基于通過(guò)測(cè)試的比例。
![]()
![]()
這種極小極大式的訓(xùn)練框架通過(guò)自博弈實(shí)現(xiàn)了穩(wěn)定訓(xùn)練,并使獎(jiǎng)勵(lì)機(jī)制能夠針對(duì)具體問(wèn)題進(jìn)行自適應(yīng)調(diào)整。
為了評(píng)估模型的不同能力,研究者進(jìn)行了三部分任務(wù),并使用Qwen2.5-3B-Instruct運(yùn)行實(shí)驗(yàn)。
算術(shù)任務(wù)
研究人員讓提問(wèn)者生成一個(gè)三位數(shù)的算數(shù)問(wèn)題,并將其作為解答器的輸入。他們按照TinyZero的設(shè)置,構(gòu)建了一組包含4096個(gè)三位數(shù)乘法問(wèn)題的測(cè)試集。
代數(shù)任務(wù)
研究者讓模型生成最多包含兩個(gè)變量的線性方程,并在OMEGA基準(zhǔn)中的100道線性方程測(cè)試題上進(jìn)行評(píng)估。
編程問(wèn)題
他們讓模型生成類似LeetCode中簡(jiǎn)單題的問(wèn)題,輸入為整數(shù)列表,輸出為單個(gè)整數(shù)或另一個(gè)列表,并在Codeforces測(cè)試集的一個(gè)子集上進(jìn)行評(píng)估。
![]()
實(shí)驗(yàn)結(jié)果顯示,SQLM將Qwen2.5-3B-Instruct在算術(shù)任務(wù)上的準(zhǔn)確率提高了14%,在代數(shù)任務(wù)上提高了16%;在編程任務(wù)上的準(zhǔn)確率提高了7%。
此外,上表還顯示出SQLM顯著優(yōu)于格式獎(jiǎng)勵(lì)基線(用于穩(wěn)定訓(xùn)練和規(guī)范輸出格式的參考值),表明推理能力的真正提升。
團(tuán)隊(duì)介紹
![]()
Lili Chen,本科畢業(yè)于加州大學(xué)伯克利分校,現(xiàn)博士就讀于卡內(nèi)基梅隆大學(xué)。
![]()
Katerina Fragkiadaki,卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系計(jì)算機(jī)科學(xué)副教授,博士畢業(yè)于賓夕法尼亞大,曾在加州大學(xué)伯克利分校擔(dān)任博士后研究員,并于谷歌研究院工作。
![]()
Hao Liu,博士畢業(yè)于加州大學(xué)伯克利分校,曾任谷歌DeepMind研究員,即將出任卡內(nèi)基梅隆大學(xué)機(jī)器學(xué)習(xí)系的助理教授。
![]()
Deepak Pathak,Skild AI創(chuàng)始人,本科就讀于印度理工學(xué)院坎普爾分校,博士畢業(yè)于加州大學(xué)伯克利分校,曾在Meta擔(dān)任了一年的研究員,現(xiàn)任卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)科學(xué)學(xué)院的助理教授。
參考鏈接:
[1]https://x.com/iScienceLuvr/status/1953052817012474353
[2]https://arxiv.org/abs/2508.03682
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.