<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      大模型“拼好題”,45K數據撬動18%提升,數學問題拒絕死記硬背

      0
      分享至

      MathFusion團隊 投稿
      量子位 | 公眾號 QbitAI

      當前數學領域的數據生成方法常常局限于對單個問題進行改寫或變換,好比是讓學生反復做同一道題的變種,卻忽略了數學題目之間內在的關聯性。

      為了打破這種局限,讓大模型學會“串聯”與“并聯”知識,上海AI Lab、人大高瓴等團隊聯合提出了MathFusion,通過指令融合增強大語言模型解決數學問題的能力。



      僅使用45K的合成指令,MathFusion在多個基準測試中平均準確率提升了18.0個百分點,展現了卓越的數據效率和性能。



      △越靠左上角,模型表現越好且數據效率越高。

      核心思想:三種“融合策略”

      MathFusion通過三種“融合策略”,將不同的數學問題巧妙地結合起來,生成封裝了二者關系和結構的新問題。



      • 順序融合(Sequential Fusion)
      • 將兩個問題串聯起來,前一個問題的答案作為后一個問題的某個輸入條件。這就像解決一個多步驟問題,模型需要先解出第一步,才能進行第二步,從而學會處理問題間的依賴關系。
      • 并列融合(Parallel Fusion)
      • 將兩個相似的問題融合在一起,對它們的數學概念進行識別和融合,在原來問題的基礎上提出一道新的問題。
      • 條件融合(Conditional Fusion)
      • 創造一個需要對兩個問題的解進行比較和選擇的問題場景。

      首先從現有數據集(GSM8K、MATH)中識別出適合融合的問題對(主要通過embedding search),然后應用融合策略生成新問題,并利用GPT-4o-mini來生成解答。通過這三種策略,生成了一個全新的融合數據集MathFusionQA。

      融合實例:不同策略的融合結果

      為了更直觀地理解這三種融合策略,來看一個具體的例子:

      原始問題

      • 問題A:一天內,一艘船在湖中航行4次,每次最多可載12人。請問在2天內,這艘船可以運送多少人?
      • 問題B:學校組織去博物館。他們租了4輛巴士來接送孩子和老師。第二輛巴士的人數是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。如果第一輛巴士上有12人,請問總共有多少人去了博物館?

      順序融合

      學校組織一次去博物館的旅行,需要運送學生和老師。首先,請計算一艘船在2天內的載客量,這艘船每天航行4次,每次最多可載12人。然后,將這個總載客量作為第一輛巴士的人數。已知第二輛巴士的人數是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。請問總共有多少人去了博物館?

      并列融合

      一所學校組織一次到博物館的實地考察,并租用了4輛巴士和一艘船6。這艘船一天航行2次,每次載客12人。每輛巴士的人數不同:第一輛巴士有12人,…,第四輛比第一輛多9人。請計算在2天內,船和所有巴士總共可以運送多少人?

      條件融合

      一個社區正在組織兩種不同的郊游活動。對于湖上游覽,一艘船每天運營4次,載客量為12人,他們計劃讓這艘船服務2天。與此同時,一所學校正在安排一次有4輛巴士的博物館之旅11。第一輛巴士有12人,第二輛是第一輛的兩倍,第三輛比第二輛少6人,第四輛比第一輛多9人。考慮到這些安排,哪種交通方式的載客能力更強?

      實驗結果:有效捕捉問題間深層聯系

      在MathFusionQA的基礎上,使用三種融合策略——順序、并行和條件——對模型(DeepSeekMath-7B、Mistral-7B、Llama3-8B)進行微調。實驗得到以下發現:



      顯著提升模型性能與效率:與標準訓練方法(只在GSM8K和MATH上訓練)相比,MathFusion在多個base模型(包括DeepSeekMath-7B、Llama3-8B、Mistral-7B)上都取得了穩定的性能提升。并且,MathFusion在大幅提升性能的同時,保持了極高的數據效率,用遠少于其他方法的數據量就達到了良好的效果。

      策略之間優勢互補:將順序融合、條件融合和并行融合三種策略結合使用,組合融合策略始終優于每種單一融合策略。另外,基礎模型性能越弱,組合融合策略帶來的提升就越大。在所有基準測試中,組合融合策略在DeepSeekMath-7B上平均提升了3.1分,在Llama3-8B上提升了4.9分,在Mistral-7B上提升了7.5分。

      強大的泛化與擴展能力:MathFusion不僅在in-domain測試中表現優異,在更具挑戰性的out-of-domain基準測試中同樣超越了標準模型。





      對MathFusion做進一步的分析,有以下幾點發現:

      • 融合之后的問題的指令遵循難度(IFD)更高,說明融合之后的問題對于模型來說更加困難。
      • 隨著融合數據量的增加,MathFusion模型的性能呈現出近似對數形式的增長。
      • 當把MathFusionQA數據集與DART-Math數據集結合使用時,模型的性能可以得到進一步的提升,甚至超過了單獨使用任何一個數據集時的表現。這表明MathFusion的“問題融合”思路與DART-Math的“挖掘難題”思路是互補的。
      • 通過t-SNE可視化分析,發現MathFusion得到的問題在特征空間中的分布比原始問題更均勻和廣泛。
      • 通過對teacher model的消融分析,證明了MathFusion帶來的提升源自于問題融合本身,而非teacher model的好壞。

      總的來說,通過生成結構更多樣、邏輯更復雜的合成問題,MathFusion有效地增強了模型捕捉問題間深層聯系的能力。

      但目前MathFusion還只在GSM8K、MATH這種比較簡單的數學問題,以及short cot solution的數據集上進行了驗證,有待進一步擴展到更難的數學問題、long cot solution以及其他領域的數據上。

      論文鏈接: https://arxiv.org/abs/2503.16212
      代碼庫:https://github.com/QizhiPei/MathFusion

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      斷供的人多了,銀行都開始讓步了

      斷供的人多了,銀行都開始讓步了

      亞哥談古論今
      2025-10-30 19:29:44
      追夢評勇士隊友Top5:庫湯領銜希爾德在列,杜蘭特巴特勒落選

      追夢評勇士隊友Top5:庫湯領銜希爾德在列,杜蘭特巴特勒落選

      懂球帝
      2025-11-06 08:14:10
      所有人不許吃肉?準大一素食女生發文求助,網友:誰做她室友誰倒霉

      所有人不許吃肉?準大一素食女生發文求助,網友:誰做她室友誰倒霉

      趣筆談
      2025-08-18 15:51:25
      中美兩國正式停戰!特朗普主動對華示好!中美正式進入蜜月期?

      中美兩國正式停戰!特朗普主動對華示好!中美正式進入蜜月期?

      娛樂督察中
      2025-11-06 08:21:53
      長沙垮塌事件!建筑是上個世紀的,24歲死者家屬簽協議,善后到位

      長沙垮塌事件!建筑是上個世紀的,24歲死者家屬簽協議,善后到位

      鋭娛之樂
      2025-11-06 08:32:46
      北京世茂大廈七折拍賣易主,“藥王”揚子江藥業超22億接盤

      北京世茂大廈七折拍賣易主,“藥王”揚子江藥業超22億接盤

      新京報
      2025-11-05 21:53:20
      巴薩糟心一戰!3次落后3度扳平:弗里克氣到兩眼要噴火 1數據丟人

      巴薩糟心一戰!3次落后3度扳平:弗里克氣到兩眼要噴火 1數據丟人

      風過鄉
      2025-11-06 06:34:00
      全中國最大的騙局,竟然是茅臺專賣店,一瓶飛天都不賣年收入過億

      全中國最大的騙局,竟然是茅臺專賣店,一瓶飛天都不賣年收入過億

      好賢觀史記
      2025-11-05 09:54:41
      封得好!網紅戶晨風被央視公開點名批評,徹底涼透了

      封得好!網紅戶晨風被央視公開點名批評,徹底涼透了

      雷科技
      2025-11-05 22:28:30
      Shein第三方平臺被法國暫停運營,巴黎首店開業遭現場抗議和沖擊

      Shein第三方平臺被法國暫停運營,巴黎首店開業遭現場抗議和沖擊

      藍洞新消費
      2025-11-06 08:28:54
      黃仁勛“最直白表態”:中國這么做,將贏了美國

      黃仁勛“最直白表態”:中國這么做,將贏了美國

      觀察者網
      2025-11-06 08:23:17
      擠眉弄眼,油腔滑調,瘦的脫相,沒馬國明霸氣,佘詩曼也帶不動他

      擠眉弄眼,油腔滑調,瘦的脫相,沒馬國明霸氣,佘詩曼也帶不動他

      白面書誏
      2025-11-05 19:53:53
      張柏芝的兒子謝振軒長得好帥,五官棱角分明,顏值超過爸爸謝霆鋒

      張柏芝的兒子謝振軒長得好帥,五官棱角分明,顏值超過爸爸謝霆鋒

      鄭丁嘉話
      2025-10-29 09:22:22
      湖北縣域高鐵站掀起“規模競賽”,7大站點規格直逼地級市

      湖北縣域高鐵站掀起“規模競賽”,7大站點規格直逼地級市

      觀察眼看世界
      2025-11-05 19:30:03
      國際米蘭2-1排名第三,亞特蘭大1-0絕殺意甲四隊全勝

      國際米蘭2-1排名第三,亞特蘭大1-0絕殺意甲四隊全勝

      李帕在北漂
      2025-11-06 06:37:05
      白百何好友下場了!揭露爭獎細節,放話大不了魚死網破電影不上了

      白百何好友下場了!揭露爭獎細節,放話大不了魚死網破電影不上了

      萌神木木
      2025-11-05 22:10:00
      美國商務部長炮轟中國芯片:天天說制造先進芯片,但中國根本沒有

      美國商務部長炮轟中國芯片:天天說制造先進芯片,但中國根本沒有

      動漫里的童話
      2025-11-04 21:58:28
      鄭麗文最新人事安排出爐,邱毅直呼“棋高一著”!洪秀柱發出提醒

      鄭麗文最新人事安排出爐,邱毅直呼“棋高一著”!洪秀柱發出提醒

      愛史紀
      2025-11-05 22:29:19
      中國航母震撼全球!第五艘開始實現真正超越,美國優勢不再?

      中國航母震撼全球!第五艘開始實現真正超越,美國優勢不再?

      科學知識點秀
      2025-10-23 08:00:03
      有點被迫?C羅談求婚:喬治娜向我要了一枚戒指,我沒有單膝下跪

      有點被迫?C羅談求婚:喬治娜向我要了一枚戒指,我沒有單膝下跪

      茜子足球
      2025-11-05 12:23:32
      2025-11-06 09:43:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      蘋果“認輸”!曝每年10億美元租用谷歌AI

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      頭條要聞

      90后女業主"房貸倒掛":房子貸款650萬 市價僅360萬

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      特朗普關稅遭美國高院大法官輪番質疑

      汽車要聞

      方向盤?不存在的 特斯拉 Cybercab亞太首秀

      態度原創

      手機
      藝術
      旅游
      時尚
      軍事航空

      手機要聞

      vivo S30系列成基數,OPPO Reno14系列最牛

      藝術要聞

      毛主席書法作品首次在美國現身,內容引人關注!

      旅游要聞

      辰山植物園秋意正濃,快去欣賞這份限定秋日畫卷

      中國色特別策劃 | 故宮技藝與古意新生

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产午夜精品一区二区三区不卡 | 和平县| 色丁香一区二区黑人巨大| 成年女人免费毛片视频永久| 好爽毛片一区二区三区四| 亚洲美女厕所偷拍美女尿尿| 亚洲中文字幕一区二区| 日韩69永久免费视频| 人妻av中文字幕无码专区| 国产三级精品三级在线区| 无码午夜福利片| 中国帅小伙gaysextubevideo| 墨竹工卡县| 国产亚洲欧美精品久久久| 国产老女人精品免费视频 | 无码伊人久久大杳蕉中文无码| 中文激情一区二区三区四区| 无码尹人久久相蕉无码| 国产午夜精品久久一二区| 国产精品免费中文字幕| 亚洲最大日韩精品一区| 元码人妻精品一区二区三区9 | 日韩美少妇大胆一区二区| 成熟少妇XXXXX高清视频| 成人亚欧欧美激情在线观看| 国精品午夜福利视频不卡| 免费十八禁一区二区三区| 无码日韩av一区二区三区 | 中文国产不卡一区二区| 日本一级午夜福利免费区| 欧美视频免费一区二区三区| 午夜福利影院不卡影院| 国产寡妇偷人在线观看| 日本中文字幕乱码免费| 怡春院欧美一区二区三区免费| 国产老头多毛Gay老年男| 亚洲精品一区二区二三区| 熟妇人妻av无码一区二区三区| 九九热在线视频免费播放| 人妻少妇偷人无码视频| 深田えいみ禁欲后被隔壁人妻|