- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
屠榜開源大模型的MiniMax M2是怎樣煉成的?
為啥M1用了Linear Attention,到了M2又換成更傳統的Full Attention了?
現在的大模型社區(qū),可謂是被M2的橫空出世搞得好不熱鬧。
面對現實任務,M2表現得非常扛打,在香港大學的AI-Trader模擬A股大賽中拿下了第一名,20天用10萬本金賺了將近三千元。
![]()
而之所以能夠站在聚光燈下,還有一個原因是M2身上著實有不少奇招。
除了注意力機制“回歸傳統”,M2在數據處理、思考模式上也是另辟蹊徑,給開源社區(qū)帶來了不一樣的技術路徑。
而且MiniMax還公開了這些招數背后的“棋譜”,接連發(fā)布三篇技術博客,將M2的技術細節(jié)娓娓道來。
博客一發(fā)布,本已討論得熱火朝天的大模型社區(qū)變得更熱鬧了,不乏有大佬給出自己的分析。
其中也包括質疑的聲音,比如Thinking Machine Lab技術人員Songlin Yang就表示——
MiniMax團隊敢于揭露Linear Attention的不足這點值得肯定,但他們的測試有問題,低估了Linear Attention的實力。
![]()
實際上,注意力機制的選擇,也確實是M2相關問題當中最熱門的一個。
M2團隊選擇的理由究竟是什么?三篇技術報告揭開了哪些秘密?
快搬起小板凳,我們一點點往下看。
5202年了,還有人用Full Attention?
就從網友們最好奇的Full Attention機制開始說起。
畢竟現在算力十分稀缺,MiniMax卻沒有選擇更省算力的Linear和Hybrid等機制。
加上M2的上一代M1用的就是Linear Attention,這次卻換了方案,更是給這個選擇添上了幾分神秘色彩。
這個問題看似復雜,但MiniMax的理由卻非常簡單有力——試出來的。
M2團隊希望構建的是一個真正可用于商業(yè)部署的通用模型,所以穩(wěn)定性和可靠性就成了優(yōu)先考量。
一開始,他們確實也試了Efficient Attention,結果發(fā)現,用了這些機制之后的模型,雖然在小任務上表現尚可,但隨著上下文長度的拉長,性能就大幅下降了。
一番折騰之后,團隊最終決定放棄Efficient路徑,轉而回歸穩(wěn)定可靠的Full Attention。
而且團隊試過的路比想象中多得多,Blog下方有網友追問,是否嘗試更多的Linear Attention變體,比如GDN或Mamba2。
![]()
而團隊成員表示,這些方法也都嘗試過,但結果只有一個——這些方法的實際表現都不及Full Attention。
![]()
也就是說,Efficient Attention看似是命運的饋贈,實際上早已在暗中標好了價格。
M2的當頭一棒,讓人們開始意識到,所謂的“免費午餐”根本就不存在。
比如這位網友過去就認為,Lightning Attention與Full Attention混合起來效果和純Full Attention是一樣的,但他現在發(fā)現,對于復雜任務而言根本不是這么回事。
![]()
不過MiniMax也并沒有把其他Attention一棒子打死,M2團隊探討了這些Attention未來的改進方向。
但問題不是出在Attention本身,而是人們缺乏有效的評估系統。
M2團隊指出,現在的模型評測系統不完善,很多常用榜單根本拉不開差距,造成了Efficient Attention表現能與Full Attention持平的假象。
可只要一遇到多跳推理或長鏈邏輯過程這種高端局,Efficient Attention就立馬現原形。
推理基礎設施也需要進一步提升——如何將理論計算復雜度優(yōu)勢轉化為應用層面的速度和價格優(yōu)勢,是目前業(yè)界仍在攻克的方向。
總之,要想轉化為實際生產力,需要提前構建更豐富的長文數據、更完善的評測體系、更貼近部署場景的實驗范式,以及更穩(wěn)定的訓練與推理基建。
但隨著Context Length越來越長,尤其是在Pretrain和Posttrain階段都面臨長上下文挑戰(zhàn)的背景下,未來某個階段GPU的增長速度可能趕不上數據長度增長帶來的壓力,那時Linear或Sparse結構的優(yōu)勢將會逐漸釋放。
想讓模型做好推理,還得從數據開始
現在骨架(模型)搭好了,該往里面填肉(數據)了,有意思的是,這件事,M2團隊雇了一幫實習生來干,還把這個細節(jié)寫到了博客里。
網友看了就很納悶,直言自己get不到M2團隊強調這個細節(jié)的目的。
![]()
面對這樣犀利的提問,作者也是絲毫不賣關子。
之所以強調實習生呢,是想反襯出M2用的數據處理流程非常成熟,成熟到讓沒有經驗的人來操作,一樣可以達到預期效果。
![]()
說到底,M2團隊是咋處理數據的?咱們接著往下看。
他們希望模型能夠具有更強的泛化能力,也就是能夠適應更多的任務類型。
確定了這個目標之后,篩選數據的標準自然也就有了。
M2團隊把數據質量的衡量標準拆解成了思維鏈(CoT)和Response這兩個關鍵維度。
CoT部分的標準很容易理解,邏輯完整、表述簡潔,就是優(yōu)質數據,符合我們的常識。
Response部分就更能體現M2團隊的巧思了。
前面說過,團隊的目的是想讓模型適應更多場景,而在他們看來,Response數據,剛好就是癥結所在——
過去的Response數據,對榜單格式的依賴已經達到過擬合了,導致換個環(huán)境就秒變戰(zhàn)五渣。
所以,M2在數據合成時刻意引入了格式多樣性。
當然只靠形式是不夠的,數據內容本身,也要盡可能多地涉獵不同領域的任務。
好的數據要廣泛吸納,不好的數據則要及時剔除——
M2團隊發(fā)現,模型表現出的所有問題,包括幻覺、指令未遵循等等,幾乎都能從數據上找到根源。
所以在處理數據時,他們專門整理了一批典型的bad case,基于規(guī)則和大模型判斷,構建了數據清洗流程,從而消滅這些“壞數據”。
數據范圍更加廣泛,質量也有了保障之后,接下來的事,就是擴大數據規(guī)模了。
交叉思考,讓模型不再“高分低能”
在M2團隊的實踐過程中,有一個“高分低能”的問題貫穿始終——模型一考試成績都很高,但到了真實場景就被虐得渣也不剩。
這個問題在Agent場景中也是如此,甚至同一個模型,在不同的Agent系統里體驗差異也會非常大。
問題出在了哪里呢?M2團隊對Agent執(zhí)行任務的流程進行了拆解。
Agent在執(zhí)行任務時,會分析用戶的意圖,然后做出任務規(guī)劃,之后付諸執(zhí)行,中間過程還會涉及外部工具的調用。
在傳統的模型當中,Agent會在規(guī)劃階段進行思考,但到了執(zhí)行環(huán)節(jié),就變成了既沒有思維也沒有感情的機器。
但實際工作并不是能夠完全依照原始規(guī)劃進行的,如果不根據執(zhí)行過程中遇到的實際情況對規(guī)劃進行調整,那便是刻舟求劍,任務做不好就不是什么怪事了。
而要想根據每步的執(zhí)行結果進行動態(tài)調整,就需要把原先只在開頭進行的思考過程,復制到每一個關鍵節(jié)點。
所以,M2團隊提出了“Interleaved Thinking”(交錯式思維鏈)的策略。
這種策略讓思考在顯式推理與工具調用之間交替進行,并把推理結果持續(xù)帶入后續(xù)步驟,這樣一來原本冗長、重度依賴工具的任務,就變成了穩(wěn)定的“計劃→行動→反思”循環(huán)。
Interleaved Thinking保持了思維鏈的連貫性,使其在多輪交互中不斷累積,更加接近人類的任務執(zhí)行方式,也減少了狀態(tài)漂移與重復性錯誤的產生。
實際應用當中效果也是立竿見影,不僅提升了模型在長鏈任務中的容錯率,也顯著增強了對環(huán)境擾動的適應能力。
除了新的思考模式,泛化也是M2團隊自始至終在強調的一個關鍵指標。
他們發(fā)現,即便模型的工具調用能力得到大幅提升,但只要換個框架,模型依然容易失控。
怎么辦呢?簡單說,菜就多練——M2團隊選擇從訓練數據下手。
他們設計了一整套覆蓋全軌跡擾動的數據鏈路,在構建訓練樣本時,他們不僅模擬了工具本身的變化,還覆蓋了系統提示語、環(huán)境參數變化、用戶反復提問、工具返回異常等多種情況。
看上去指標很復雜,但簡單概括就是,讓這些訓練數據盡可能多地去模擬真實使用場景,在訓練中就學會如何在不確定性中完成任務。
能實現落地,才是好選擇
回看M2的結構選擇,MiniMax并不是為了“回歸傳統”而選擇Full Attention。
相反,在Efficient Attention廣受追捧的當下,堅持使用Full Attention恰恰體現了團隊更偏工程理性的判斷——優(yōu)先考慮模型在真實任務中的穩(wěn)定性與可用性,而非盲目追求資源的節(jié)省。
這并非首次類似決策,例如早在MoE架構尚未成為行業(yè)主流前,MiniMax就已投入探索,并取得階段性成果。
彼時,選擇MoE的廠商寥寥,MiniMax卻憑借自身理解做出了不同判斷,并最終驗證了可行性。
可以看出,MiniMax不僅擁有深刻的技術洞察,更突出以實用性為導向,在M2上,這種思路也表現得尤為明確——
它不是一個為參數堆疊而生的“炫技模型”,而是為開發(fā)者準備的落地工具,強調解釋邏輯、兼顧系統性,并不斷通過社區(qū)反饋與真實使用場景持續(xù)迭代。
在今天這個“結構百花齊放”的階段,MiniMax展示的,不只是模型能力本身,更是一套面向復雜現實問題的思考方式。
比起搶占某個風口,擁有一套穩(wěn)定可用、被理解并認可的工程體系,也許更具意義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.