<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      破解AI對不同上下?位置的敏感度不?致,新框架來了

      0
      分享至

      Pos2Distill團隊 投稿
      量子位 | 公眾號 QbitAI

      語言模型遭遇嚴重的位置偏見,即模型對不同上下?位置的敏感度不?致。模型傾向于過度關(guān)注輸?序列中的特定位置,嚴重制約了它們在復(fù)雜推理、??本理解以及模型評估等關(guān)鍵任務(wù)上的表現(xiàn)。

      例如,在對?兩個候選答案時,模型常因偏好?個選項?損害其作為評估器的公正性與可靠性。



      針對這?挑戰(zhàn),論?提出了 Pos2Distill,?個創(chuàng)新的“位置到位置”蒸餾框架。該框架旨在將模型在優(yōu)勢位置的強?能?遷移?劣勢位置,從?有效緩解位置偏?。

      其核?思想恰如古語所云:“解鈴還須系鈴?”,利?模型??已習(xí)得的知識,來糾正其??的系統(tǒng)性偏差。

      其基本原理可以概括為:利?位置本?造成的性能不均衡,來對抗位置偏差這?問題。

      團隊發(fā)現(xiàn),位置偏差在“檢索”和“推理”這兩類任務(wù)中誘發(fā)的表現(xiàn)不同,因此基于上述核?原理,團隊分別設(shè)計了兩種專?的實現(xiàn)?案:Pos2Distill-R1和Pos2Distill-R2。

      采?Pos2Distill?法后,模型在??本檢索和推理任務(wù)中的所有位置上都表現(xiàn)出更好的?致性,這兩個專?設(shè)計的系統(tǒng)不僅在各?對應(yīng)的任務(wù)上表現(xiàn)優(yōu)異,彼此之間還表現(xiàn)出很強的跨任務(wù)泛化能?。



      已有的工作:在信息豐富的場景中,例如檢索增強?成、?上下?推理以及將?語?模型(LLM)?作評判者等,位置偏差構(gòu)成了重?障礙。當(dāng)關(guān)鍵信息被任意分布在輸?的各個位置時,LLM 常常?法有效識別和整合這些核 ?內(nèi)容,最終導(dǎo)致其在各種應(yīng)?中出現(xiàn)意外的失敗。為緩解PB問題:

      一類工作試圖通過修改與上下?敏感度不均相關(guān)的關(guān)鍵架構(gòu)組件或內(nèi)部表示來進?減輕位置偏見。然?,盡管近期在縮?性能差距??取得了?些進展,模型在“優(yōu)勢位置”和“劣勢位置”之間的信息利?率依然存在巨?差異。

      另?類研究?法則采?了密集的上下?感知訓(xùn)練,通過合成具有細粒度信息感知的訓(xùn)練數(shù)據(jù)來提升模型性能。但是,這類數(shù)據(jù)驅(qū)動的?法通常在數(shù)據(jù)合成和計算資源??都需付出?昂的成本。

      因此,學(xué)術(shù)界和?業(yè)界迫切需要?種能夠克服這些局限、既有效??效的策略來緩解PB。

      方法

      先導(dǎo)實驗:分析揭示,PB在“檢索”和“推理”這兩種不同的任務(wù)范式下表現(xiàn)出不同的?為。

      Natural PB for Retrieval:在檢索任務(wù) (retrieval)中,PB主要表現(xiàn)為“詞元偏移”(token-shifting),即在黃金文檔所處位置不同,大部分的response具有相似的前綴,只在關(guān)鍵的生成位置發(fā)生分歧,由此誘發(fā)retrieval的失敗。 一旦這些錯誤的token能夠被修正,模型又可以輸出正確的答案;

      Compound PB for Reasoning:在推理任務(wù)中,PB 既體現(xiàn)在檢索過程中的變化,也體現(xiàn)在推理過程中發(fā)生的改變,最終導(dǎo)致思維鏈條的偏移(thought shifting)。因此,至關(guān)重要的是通過整合真正相關(guān)的信息與推理鏈來重塑整體的響應(yīng)軌跡。



      針對這兩種情況相應(yīng)地開發(fā)了兩個系統(tǒng):Pos2Distill-R1 和 Pos2Distill-R2。Pos2Distill-R1 通過引? KL 散度(Kullback-Leibler divergence)損失來提供細粒度的糾正信號,從?緩解檢索任務(wù)中的“詞元偏移”。

      Pos2Distill-R2 則通過蒸餾來?優(yōu)勢位置輸?的優(yōu)質(zhì)CoT響應(yīng),來指導(dǎo)和糾正劣勢位置的推理軌跡,從?解決推理任務(wù)中的“思維偏移”。



      算法設(shè)計(Pos2Distill-R1 for Retrieval):
      該框架由兩個核心模塊組成:如圖 4a 所示的平凡位置激活優(yōu)勢位置錨定。前者促進將高表現(xiàn)的優(yōu)勢位置中的有效處理能力遷移至利用不足的無效位置;后者確保優(yōu)勢位置已建立性能的保持,從而縮小無效位置與優(yōu)勢位置之間的差距。

      平凡位置激活:為糾正 token shifting 行為,在每個生成步驟中利用 KL 散度作為細粒度的對齊信號。



      位置感知的對齊:PB引發(fā)的優(yōu)勢位置與不同平凡位置之間的對齊難度具有位置依賴性,因此具有高對齊難度的位置應(yīng)該優(yōu)先實施梯度更新。



      因此激活平凡位置的損失為:



      優(yōu)勢位置的錨定:在蒸餾過程中,模型會意識到關(guān)鍵信息可能出現(xiàn)在上下文窗口的任意位置,這可能會削弱對優(yōu)勢位置(sink position)的顯著注意力,從而潛在地損害在多樣下游任務(wù)中的整體能力。為防止這一問題引入錨定損失,以保持優(yōu)勢位置的有效性。



      訓(xùn)練目標損失:融合了激活損失(activation loss)和錨定損失(anchoring loss),形式化表示為:



      算法設(shè)計(Pos2Distill-R2 for Reasoning):

      首先從優(yōu)勢位置 采樣鏈式思維(CoT)推理軌跡。類似于檢索任務(wù)的過程,為每組位置構(gòu)建 (K) 個不同的平凡提示。隨后使用交叉熵(CE)損失函數(shù)對提示及其對應(yīng)的推理軌跡 (Cadv) 進行優(yōu)化,以有效捕獲推理模式。形式化地表示為:



      實驗

      Pos2Distill-R1實驗結(jié)果:Pos2Distill-R1 表現(xiàn)出魯棒且?致的性能,?論???檔的位置如何,都顯著減少了由位置引起的性能差異。例如,在 WebQ 數(shù)據(jù)集,Pos2Distill-R1 使 Llama-3-8B 在20個位置上實現(xiàn)了 56.7%的平均準確率。該性能與 dgold 位于最佳“匯聚位置”(sink position)時達到的 57.9% 相當(dāng),這說明從優(yōu)勢到劣勢位置的知識遷移是成功的,?這正是 Pos2Distill-R1 的核?原理。



      可解釋性結(jié)果:由于PB源自于大語言模型的架構(gòu)與參數(shù),希望通過分析Pos2Distill-R1的內(nèi)部動態(tài)機制來揭示其作用原理并提供可解釋性說明。記錄當(dāng)黃金文檔從1移動到20時,對20個文檔的注意力分布。Pos2Distill-R1通過動態(tài)地將注意力焦點持續(xù)對齊到相關(guān)文檔上,從而強化了上下文一致性,促進了更為準確的檢索。



      Pos2Distill-R2實驗結(jié)果:?論是在域內(nèi)性能還是在域外泛化??,Pos2Distill-R2 都超越了現(xiàn)有的?我訓(xùn)練?法。如表2,在 MusiQue 數(shù)據(jù)集上訓(xùn)練時,Pos2Distill-R2 實現(xiàn)了 42.8 的精確匹配(EM)得分,優(yōu)于所有領(lǐng)先的基線。此外,本?法表現(xiàn)出強?的跨領(lǐng)域泛化能?;例如,在 HotpotQA 數(shù)據(jù)集上,它達到了 58.3 的EM 得分,?最強的基線模型為50.9。研究結(jié)果表明,與傳統(tǒng)的逐實例訓(xùn)練相?,訓(xùn)練?語?模型在多樣化、分散的???檔位置上進?推理,可能更有效地增強其?上下?推理能?。這?洞?為提升復(fù)雜?上下?任務(wù)中的推理能?提供了新視?。



      關(guān)于兩個系統(tǒng)的討論:

      兩個系統(tǒng)都表現(xiàn)出對其相互任務(wù)的顯著泛化能?。具體??,主要為檢索任務(wù)優(yōu)化的 Pos2Distill-R1 證明了其增強的上下?檢索能?也改善了?上下?推理,在 MusiQue 任務(wù)上產(chǎn)?了 3.3% 的增?。相反,為推理任務(wù)優(yōu)化的 Pos2Distill-R2 表明,其所獲得的在?上下?中的推理熟練度也增強了上下?感知,從?有益于檢索性能。

      盡管存在這種跨任務(wù)泛化,但每個系統(tǒng)在其主要領(lǐng)域都表現(xiàn)卓越:

      Pos2Distill-R2 在復(fù)雜的?上下?推理任務(wù)上取得了更優(yōu)性能,? Pos2Distill-R1 在這些任務(wù)上表現(xiàn)滯后,在檢索任務(wù)上則反之亦然。

      這表明緩解位置偏差(PB)存在著不同的底層動態(tài),并可能受到思維鏈(CoT)存在或缺失的影響。因此,開發(fā)這兩種專?化的 Pos2Distill 設(shè)計被證明是既必要?有效的。



      論文地址:

      https://arxiv.org/abs/2508.15709

      開源地址:

      https://github.com/AMAP-ML/Pos2Distill

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      歐冠史詩之夜!3.7萬人口小城沸騰:隊史首勝 總獎金2460萬

      歐冠史詩之夜!3.7萬人口小城沸騰:隊史首勝 總獎金2460萬

      葉青足球世界
      2025-11-06 08:30:12
      浙大食堂8.8元一只的清蒸螃蟹引熱議,工作人員回應(yīng):并非刻意與校外比價,天氣轉(zhuǎn)冷已停售

      浙大食堂8.8元一只的清蒸螃蟹引熱議,工作人員回應(yīng):并非刻意與校外比價,天氣轉(zhuǎn)冷已停售

      先鋒新聞
      2025-11-05 21:31:43
      5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠

      5600萬,再見快船!管理層犯了致命錯誤,哈登生涯首冠越走越遠

      呆哥聊球
      2025-11-05 16:47:59
      終于還是來了!神舟二十號航天員滯留,飛船遭微碎片撞擊,怎么辦

      終于還是來了!神舟二十號航天員滯留,飛船遭微碎片撞擊,怎么辦

      姿勢分子knowledge
      2025-11-05 23:09:51
      香港IPO總金額再破2000億港元大關(guān)

      香港IPO總金額再破2000億港元大關(guān)

      證券時報
      2025-11-06 07:19:03
      國家重拳整治!四類退休人員成重點,一個逃不掉

      國家重拳整治!四類退休人員成重點,一個逃不掉

      慧眼看世界哈哈
      2025-11-06 05:46:35
      戰(zhàn)巴薩獨造3球,福布斯:夢想成真,很高興能打出這樣的表現(xiàn)

      戰(zhàn)巴薩獨造3球,福布斯:夢想成真,很高興能打出這樣的表現(xiàn)

      懂球帝
      2025-11-06 09:17:05
      判處死刑!緬北白應(yīng)蒼昔日炫富張狂猶在眼前,今血債血償報應(yīng)臨頭

      判處死刑!緬北白應(yīng)蒼昔日炫富張狂猶在眼前,今血債血償報應(yīng)臨頭

      可達鴨面面觀
      2025-11-04 13:26:12
      公園人工湖清淤,湖底撈出12輛共享單車,每輛車上都綁一具人形模特

      公園人工湖清淤,湖底撈出12輛共享單車,每輛車上都綁一具人形模特

      懸案解密檔案
      2025-10-29 13:36:28
      別再亂吃了!華人常吃的保健品被曝或“助癌生長”!補得太勤反而害了自己...

      別再亂吃了!華人常吃的保健品被曝或“助癌生長”!補得太勤反而害了自己...

      最英國
      2025-11-05 19:05:18
      湖南某三甲醫(yī)院美女眼科主任與副院長的瓜

      湖南某三甲醫(yī)院美女眼科主任與副院長的瓜

      筆桿論道
      2025-11-05 22:02:55
      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      看了郭汝瑰蔣緯國回憶錄才知:三大潛伏中將,為何唯獨吳石暴露

      宅家伍菇?jīng)?/span>
      2025-11-04 16:03:06
      四川首次迎來“春秋假”,家長卻發(fā)長文阻撓:雙職工家庭吃不消了

      四川首次迎來“春秋假”,家長卻發(fā)長文阻撓:雙職工家庭吃不消了

      熙熙說教
      2025-11-05 21:17:49
      聲稱航線變危險,澳防長抹黑中國

      聲稱航線變危險,澳防長抹黑中國

      環(huán)球時報國際
      2025-11-05 10:13:44
      被免職7天,吳玉培官宣落馬

      被免職7天,吳玉培官宣落馬

      新京報政事兒
      2025-11-05 10:51:51
      曝紅軍村方向的俄軍司令被解職!烏克蘭發(fā)起局部反攻

      曝紅軍村方向的俄軍司令被解職!烏克蘭發(fā)起局部反攻

      項鵬飛
      2025-11-03 16:12:40
      荷蘭真急了?阿斯麥表達搬離態(tài)度,俄媒:光刻機賣不賣中國成關(guān)鍵

      荷蘭真急了?阿斯麥表達搬離態(tài)度,俄媒:光刻機賣不賣中國成關(guān)鍵

      粵語音樂噴泉
      2025-11-05 14:31:59
      80歲大媽的明智養(yǎng)老:不雇保姆不去養(yǎng)老院,而是花錢請兒媳養(yǎng)老

      80歲大媽的明智養(yǎng)老:不雇保姆不去養(yǎng)老院,而是花錢請兒媳養(yǎng)老

      熱心柚子姐姐
      2025-11-05 08:32:37
      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當(dāng)場控制

      石家莊警方:男子因工作糾紛持刀扎傷兩名同事,已被當(dāng)場控制

      界面新聞
      2025-11-05 13:44:22
      少年被打放狠話“等我20歲殺你全家”,五年后男子除夕將仇家滅門

      少年被打放狠話“等我20歲殺你全家”,五年后男子除夕將仇家滅門

      易玄
      2025-11-05 07:01:40
      2025-11-06 09:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11633文章數(shù) 176326關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業(yè)主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業(yè)主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉(zhuǎn)折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經(jīng)要聞

      特朗普關(guān)稅遭美國高院大法官輪番質(zhì)疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態(tài)度原創(chuàng)

      房產(chǎn)
      家居
      旅游
      健康
      親子

      房產(chǎn)要聞

      最新!海南樓市10月熱銷榜單出爐!

      家居要聞

      別樣府院 暢享詩意生活

      旅游要聞

      辰山植物園秋意正濃,快去欣賞這份限定秋日畫卷

      超聲探頭會加重受傷情況嗎?

      親子要聞

      什么樣的父母會讓孩子懷疑不是親身的

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 久久人妻精品大屁股一区| 亚洲最大的成人网站| 中文字幕理伦午夜福利片| 国产精品无码a∨麻豆| 亚洲区综合中文字幕日日| 亚洲熟女乱色一区二区三区| 亚洲国产精品va在线观看麻豆| 日韩精品 在线 国产 丝袜| 极品无码国模国产在线观看| 日本丰满的人妻hd高清在线| 在线看国产精品三级在线| 亚洲国模精品一区二区| 最新亚洲人成网站在线影院| 国产精品自拍视频免费看| 秋霞在线观看秋| 激情伊人五月天久久综合| 丰满熟妇人妻av无码区| 国产精品综合一区二区三区 | 狠狠色丁香婷婷久久综合五月| 熟女视频一区二区三区嫩草| 少妇被黑人到高潮喷出白浆| 桃花岛亚洲成在人线AV| 精品久久亚洲中文无码| 中文日产幕无线码一区中文| 国产一区二区三区怡红院| 免费a级毛片18以上观看精品 | 国产精品福利自产拍久久| 国产妇女馒头高清泬20p多| 亚洲色大成网站www永久一区| 四虎国产精品永久在线| 九龙县| 人妻熟女一二三区夜夜爱| 欧美国产成人精品二区芒果视频 | 免费午夜无码片在线观看影院| 黄色A级国产免费大片视频| 视频一区视频二区视频三区| 亚洲岛国成人免费av| 中文字幕无码免费久久99| 国产精品成人午夜久久| 国产精品一区中文字幕| 中文字日产幕码三区国产|