<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      我MiniMax,用實習生處理數據,照樣屠榜開源大模型

      0
      分享至

      • 克雷西 發(fā)自 凹非寺
        量子位 | 公眾號 QbitAI

      屠榜開源大模型的MiniMax M2是怎樣煉成的?

      為啥M1用了Linear Attention,到了M2又換成更傳統的Full Attention了?

      現在的大模型社區(qū),可謂是被M2的橫空出世搞得好不熱鬧。

      面對現實任務,M2表現得非常扛打,在香港大學的AI-Trader模擬A股大賽中拿下了第一名,20天用10萬本金賺了將近三千元。



      而之所以能夠站在聚光燈下,還有一個原因是M2身上著實有不少奇招。

      除了注意力機制“回歸傳統”,M2在數據處理、思考模式上也是另辟蹊徑,給開源社區(qū)帶來了不一樣的技術路徑。

      而且MiniMax還公開了這些招數背后的“棋譜”,接連發(fā)布三篇技術博客,將M2的技術細節(jié)娓娓道來。

      博客一發(fā)布,本已討論得熱火朝天的大模型社區(qū)變得更熱鬧了,不乏有大佬給出自己的分析。

      其中也包括質疑的聲音,比如Thinking Machine Lab技術人員Songlin Yang就表示——

      MiniMax團隊敢于揭露Linear Attention的不足這點值得肯定,但他們的測試有問題,低估了Linear Attention的實力。



      實際上,注意力機制的選擇,也確實是M2相關問題當中最熱門的一個。

      M2團隊選擇的理由究竟是什么?三篇技術報告揭開了哪些秘密?

      快搬起小板凳,我們一點點往下看。

      5202年了,還有人用Full Attention?

      就從網友們最好奇的Full Attention機制開始說起。

      畢竟現在算力十分稀缺,MiniMax卻沒有選擇更省算力的Linear和Hybrid等機制。

      加上M2的上一代M1用的就是Linear Attention,這次卻換了方案,更是給這個選擇添上了幾分神秘色彩。

      這個問題看似復雜,但MiniMax的理由卻非常簡單有力——試出來的。

      M2團隊希望構建的是一個真正可用于商業(yè)部署的通用模型,所以穩(wěn)定性和可靠性就成了優(yōu)先考量。

      一開始,他們確實也試了Efficient Attention,結果發(fā)現,用了這些機制之后的模型,雖然在小任務上表現尚可,但隨著上下文長度的拉長,性能就大幅下降了。

      一番折騰之后,團隊最終決定放棄Efficient路徑,轉而回歸穩(wěn)定可靠的Full Attention。

      而且團隊試過的路比想象中多得多,Blog下方有網友追問,是否嘗試更多的Linear Attention變體,比如GDN或Mamba2。



      而團隊成員表示,這些方法也都嘗試過,但結果只有一個——這些方法的實際表現都不及Full Attention。



      也就是說,Efficient Attention看似是命運的饋贈,實際上早已在暗中標好了價格。

      M2的當頭一棒,讓人們開始意識到,所謂的“免費午餐”根本就不存在。

      比如這位網友過去就認為,Lightning Attention與Full Attention混合起來效果和純Full Attention是一樣的,但他現在發(fā)現,對于復雜任務而言根本不是這么回事。



      不過MiniMax也并沒有把其他Attention一棒子打死,M2團隊探討了這些Attention未來的改進方向。

      但問題不是出在Attention本身,而是人們缺乏有效的評估系統。

      M2團隊指出,現在的模型評測系統不完善,很多常用榜單根本拉不開差距,造成了Efficient Attention表現能與Full Attention持平的假象。

      可只要一遇到多跳推理或長鏈邏輯過程這種高端局,Efficient Attention就立馬現原形。

      推理基礎設施也需要進一步提升——如何將理論計算復雜度優(yōu)勢轉化為應用層面的速度和價格優(yōu)勢,是目前業(yè)界仍在攻克的方向。

      總之,要想轉化為實際生產力,需要提前構建更豐富的長文數據、更完善的評測體系、更貼近部署場景的實驗范式,以及更穩(wěn)定的訓練與推理基建。

      但隨著Context Length越來越長,尤其是在Pretrain和Posttrain階段都面臨長上下文挑戰(zhàn)的背景下,未來某個階段GPU的增長速度可能趕不上數據長度增長帶來的壓力,那時Linear或Sparse結構的優(yōu)勢將會逐漸釋放。

      想讓模型做好推理,還得從數據開始

      現在骨架(模型)搭好了,該往里面填肉(數據)了,有意思的是,這件事,M2團隊雇了一幫實習生來干,還把這個細節(jié)寫到了博客里。

      網友看了就很納悶,直言自己get不到M2團隊強調這個細節(jié)的目的。



      面對這樣犀利的提問,作者也是絲毫不賣關子。

      之所以強調實習生呢,是想反襯出M2用的數據處理流程非常成熟,成熟到讓沒有經驗的人來操作,一樣可以達到預期效果。



      說到底,M2團隊是咋處理數據的?咱們接著往下看。

      他們希望模型能夠具有更強的泛化能力,也就是能夠適應更多的任務類型。

      確定了這個目標之后,篩選數據的標準自然也就有了。

      M2團隊把數據質量的衡量標準拆解成了思維鏈(CoT)和Response這兩個關鍵維度。

      CoT部分的標準很容易理解,邏輯完整、表述簡潔,就是優(yōu)質數據,符合我們的常識。

      Response部分就更能體現M2團隊的巧思了。

      前面說過,團隊的目的是想讓模型適應更多場景,而在他們看來,Response數據,剛好就是癥結所在——

      過去的Response數據,對榜單格式的依賴已經達到過擬合了,導致換個環(huán)境就秒變戰(zhàn)五渣。

      所以,M2在數據合成時刻意引入了格式多樣性。

      當然只靠形式是不夠的,數據內容本身,也要盡可能多地涉獵不同領域的任務。

      好的數據要廣泛吸納,不好的數據則要及時剔除——

      M2團隊發(fā)現,模型表現出的所有問題,包括幻覺、指令未遵循等等,幾乎都能從數據上找到根源。

      所以在處理數據時,他們專門整理了一批典型的bad case,基于規(guī)則和大模型判斷,構建了數據清洗流程,從而消滅這些“壞數據”。

      數據范圍更加廣泛,質量也有了保障之后,接下來的事,就是擴大數據規(guī)模了。

      交叉思考,讓模型不再“高分低能”

      在M2團隊的實踐過程中,有一個“高分低能”的問題貫穿始終——模型一考試成績都很高,但到了真實場景就被虐得渣也不剩。

      這個問題在Agent場景中也是如此,甚至同一個模型,在不同的Agent系統里體驗差異也會非常大。

      問題出在了哪里呢?M2團隊對Agent執(zhí)行任務的流程進行了拆解。

      Agent在執(zhí)行任務時,會分析用戶的意圖,然后做出任務規(guī)劃,之后付諸執(zhí)行,中間過程還會涉及外部工具的調用。

      在傳統的模型當中,Agent會在規(guī)劃階段進行思考,但到了執(zhí)行環(huán)節(jié),就變成了既沒有思維也沒有感情的機器。

      但實際工作并不是能夠完全依照原始規(guī)劃進行的,如果不根據執(zhí)行過程中遇到的實際情況對規(guī)劃進行調整,那便是刻舟求劍,任務做不好就不是什么怪事了。

      而要想根據每步的執(zhí)行結果進行動態(tài)調整,就需要把原先只在開頭進行的思考過程,復制到每一個關鍵節(jié)點。

      所以,M2團隊提出了“Interleaved Thinking”(交錯式思維鏈)的策略。

      這種策略讓思考在顯式推理與工具調用之間交替進行,并把推理結果持續(xù)帶入后續(xù)步驟,這樣一來原本冗長、重度依賴工具的任務,就變成了穩(wěn)定的“計劃→行動→反思”循環(huán)。

      Interleaved Thinking保持了思維鏈的連貫性,使其在多輪交互中不斷累積,更加接近人類的任務執(zhí)行方式,也減少了狀態(tài)漂移與重復性錯誤的產生。

      實際應用當中效果也是立竿見影,不僅提升了模型在長鏈任務中的容錯率,也顯著增強了對環(huán)境擾動的適應能力。

      除了新的思考模式,泛化也是M2團隊自始至終在強調的一個關鍵指標。

      他們發(fā)現,即便模型的工具調用能力得到大幅提升,但只要換個框架,模型依然容易失控。

      怎么辦呢?簡單說,菜就多練——M2團隊選擇從訓練數據下手。

      他們設計了一整套覆蓋全軌跡擾動的數據鏈路,在構建訓練樣本時,他們不僅模擬了工具本身的變化,還覆蓋了系統提示語、環(huán)境參數變化、用戶反復提問、工具返回異常等多種情況。

      看上去指標很復雜,但簡單概括就是,讓這些訓練數據盡可能多地去模擬真實使用場景,在訓練中就學會如何在不確定性中完成任務。

      能實現落地,才是好選擇

      回看M2的結構選擇,MiniMax并不是為了“回歸傳統”而選擇Full Attention。

      相反,在Efficient Attention廣受追捧的當下,堅持使用Full Attention恰恰體現了團隊更偏工程理性的判斷——優(yōu)先考慮模型在真實任務中的穩(wěn)定性與可用性,而非盲目追求資源的節(jié)省。

      這并非首次類似決策,例如早在MoE架構尚未成為行業(yè)主流前,MiniMax就已投入探索,并取得階段性成果。

      彼時,選擇MoE的廠商寥寥,MiniMax卻憑借自身理解做出了不同判斷,并最終驗證了可行性。

      可以看出,MiniMax不僅擁有深刻的技術洞察,更突出以實用性為導向,在M2上,這種思路也表現得尤為明確——

      它不是一個為參數堆疊而生的“炫技模型”,而是為開發(fā)者準備的落地工具,強調解釋邏輯、兼顧系統性,并不斷通過社區(qū)反饋與真實使用場景持續(xù)迭代。

      在今天這個“結構百花齊放”的階段,MiniMax展示的,不只是模型能力本身,更是一套面向復雜現實問題的思考方式。

      比起搶占某個風口,擁有一套穩(wěn)定可用、被理解并認可的工程體系,也許更具意義。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      石家莊外賣小哥被逼瘋:將站長和副站長給捅了,要扣他80%工資

      石家莊外賣小哥被逼瘋:將站長和副站長給捅了,要扣他80%工資

      江山揮筆
      2025-11-05 11:14:19
      白百何疑開撕王傳君沖熱搜!疑因獎項分配不公,發(fā)文暗諷滬圈操作

      白百何疑開撕王傳君沖熱搜!疑因獎項分配不公,發(fā)文暗諷滬圈操作

      古木之草記
      2025-11-05 18:13:32
      Y主席兒子的從業(yè)資格被取消了!

      Y主席兒子的從業(yè)資格被取消了!

      挖掘機007
      2025-10-31 08:02:51
      潘石屹再次預判我國樓市,不出意外,未來3年樓市將迎來“三大走向”

      潘石屹再次預判我國樓市,不出意外,未來3年樓市將迎來“三大走向”

      亞哥談古論今
      2025-11-03 20:27:36
      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      炸鍋了炸鍋了!港圈突然爆出大新聞:謝霆鋒居然通過法律協議

      小光侃娛樂
      2025-11-05 10:55:03
      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      房貸斷供率暴漲130%,失控恐懼下的樓市即將進入的周期終局

      重遠投資觀
      2025-11-05 13:00:18
      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      李想夫婦山姆購物被偶遇 全程使用iPhone Air超薄手機

      手機中國
      2025-11-05 11:53:09
      歐盟將調查英國礦業(yè)巨頭向中企出售鎳礦,外交部:望有關方能恪守開放承諾

      歐盟將調查英國礦業(yè)巨頭向中企出售鎳礦,外交部:望有關方能恪守開放承諾

      澎湃新聞
      2025-11-05 15:22:27
      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      哈蘭德戴帽曼城5-0大勝 瓜帥:他比梅西C羅更強

      野薔薇觀察所
      2025-11-05 17:40:24
      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區(qū)!包攬東亞區(qū)榜末3位

      攜手出局?中超3隊本輪亞冠全不勝+進淘汰區(qū)!包攬東亞區(qū)榜末3位

      我愛英超
      2025-11-05 22:21:52
      董軍當面劃下紅線,赫格塞思臉色凝重,向中方承諾不挑起沖突

      董軍當面劃下紅線,赫格塞思臉色凝重,向中方承諾不挑起沖突

      第一軍情
      2025-11-05 14:45:03
      全運會神劇情!王鈺棟傳射助浙江2-1山東 將與新疆抽簽決定誰出線

      全運會神劇情!王鈺棟傳射助浙江2-1山東 將與新疆抽簽決定誰出線

      我愛英超
      2025-11-05 21:57:31
      畫面曝光!美國發(fā)生墜機事故,現場十分慘烈,疑與政府關門有關

      畫面曝光!美國發(fā)生墜機事故,現場十分慘烈,疑與政府關門有關

      派大星紀錄片
      2025-11-05 15:37:17
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      小豫講故事
      2025-11-05 06:00:03
      為什么瑞典沒幾個中國人待得住?在瑞典生活幾個月,不瘋也抑郁!

      為什么瑞典沒幾個中國人待得住?在瑞典生活幾個月,不瘋也抑郁!

      百態(tài)人間
      2025-11-05 05:15:03
      不用“翻墻”VPN!時隔11年KakaoTalk突解封?

      不用“翻墻”VPN!時隔11年KakaoTalk突解封?

      湊近看世界
      2025-11-05 11:01:58
      你敢違約,我就用最大杠桿,特朗普政府開始掀桌,中美遲遲不簽約

      你敢違約,我就用最大杠桿,特朗普政府開始掀桌,中美遲遲不簽約

      云鵬敘事
      2025-11-05 16:22:46
      丈夫病亡兩天后妻子也不幸離世留下一兒一女,妹妹:兩人生前感情太好,我們會帶好孩子

      丈夫病亡兩天后妻子也不幸離世留下一兒一女,妹妹:兩人生前感情太好,我們會帶好孩子

      極目新聞
      2025-11-05 20:44:25
      老板克扣外賣員80%工資,被當街刺傷無人幫,知情人曝光聊天截圖

      老板克扣外賣員80%工資,被當街刺傷無人幫,知情人曝光聊天截圖

      社會醬
      2025-11-05 17:29:28
      女子申請改名多次被拒,“我的名字”誰說了算?

      女子申請改名多次被拒,“我的名字”誰說了算?

      環(huán)球網資訊
      2025-11-05 10:51:03
      2025-11-05 23:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態(tài)
      11633文章數 176326關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機 美中東政策或出現重大轉變

      頭條要聞

      考慮賣給沙特48架F-35戰(zhàn)機 美中東政策或出現重大轉變

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發(fā)心臟病去世

      財經要聞

      事關加快建設金融強國 中央金融辦發(fā)聲

      汽車要聞

      智己LS9入局"9系"混戰(zhàn) 全尺寸SUV市場迎來新變量

      態(tài)度原創(chuàng)

      健康
      教育
      房產
      旅游
      軍事航空

      超聲探頭會加重受傷情況嗎?

      教育要聞

      爸爸的嫂子叫什么

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      旅游要聞

      獨立懸崖之巔,俯瞰壯美金沙江,盡情領略其“如玉”的一面

      軍事要聞

      美國“福特”號航母駛往加勒比海

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产日韩欧美一区二区三区 | 国产日韩另类综合11页| 伊人天天久大香线蕉av色| 久操热在线视频免费观看| 国产在线精品国偷产拍| 成人网站免费看黄a站视频| 久久久国产成人一区二区| 国产二区三区不卡免费| 留坝县| 亚洲国产欧美在线看片一国产| 啪啪av一区二区三区| 国产午夜精品久久一二区| 樱桃视频影院在线播放| 少妇性bbb搡bbb爽爽爽欧美| 99久久精品费精品国产一区二| 无码一区二区三区免费| 亚洲第一区二区快射影院| 精品精品久久宅男的天堂| 92精品国产自产在线观看481页| 国产女人水真多18毛片18精品| 久热这里只国产精品视频| 日韩中文字幕av有码| 国产乱理伦片在线观看| 成人综合婷婷国产精品久久蜜臀| 蒲江县| 日本不卡一区二区三区在线| 二区中文字幕在线观看| 国产精品成人久久电影| 在线观看免费人成视频色| 日韩精品中文女同在线播放| 久久精品国产亚洲欧美| 99热精品毛片全部国产无缓冲| 欧美国产日产一区二区| 国产精品乱码久久久久久小说| 国产免费午夜福利757| 国产亚洲精品第一综合麻豆| 日韩激情成人| 国产精品无遮挡猛进猛出| 熟妇人妻激情偷爽文| 国产亚洲精品综合一区二区| 成人国产精品日本在线观看|