2025年9月,北京大學(xué)、清華大學(xué)聯(lián)合新加坡國立大學(xué)、中科院自動(dòng)化所等十余家頂尖研究機(jī)構(gòu),在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2509.24897v1)發(fā)表一項(xiàng)顛覆性研究。其核心議題直指當(dāng)下AI領(lǐng)域的熱門方向——多模態(tài)統(tǒng)一模型:那些宣稱能同時(shí)“理解圖像”與“生成圖像”的“全能模型”,是否真如宣傳般實(shí)現(xiàn)了能力的深度融合?
![]()
一、統(tǒng)一模型的“虛假繁榮”:架構(gòu)合一,能力卻“各自為政”
近年來,多模態(tài)統(tǒng)一模型被視為AI領(lǐng)域的“全能選手”——既能看懂圖像回答問題,又能根據(jù)文字描述生成圖片,表面看如同“一臺(tái)機(jī)器兼顧相機(jī)與打印機(jī)功能”,設(shè)計(jì)優(yōu)雅且功能全面。但研究團(tuán)隊(duì)的深入分析卻揭示了一個(gè)關(guān)鍵問題:這些模型的 “統(tǒng)一”僅停留在架構(gòu)層面,理解與生成能力更像 “同住一棟樓卻零交流的房客”,屬于 “功能性共存”,而非真正的“協(xié)同性融合”。
典型案例最能說明差距:若要求模型生成“體現(xiàn)愛因斯坦最喜歡的樂器” 的圖像,真正融合的模型應(yīng)先調(diào)用理解能力,從知識(shí)庫中檢索 “愛因斯坦熱愛小提琴” 的事實(shí),再將這一結(jié)論傳遞給生成模塊,最終產(chǎn)出符合邏輯的小提琴圖像。但現(xiàn)實(shí)中的統(tǒng)一模型,往往僅按 “樂器” 字面意思生成模糊圖像(如鋼琴、吉他),完全跳過關(guān)鍵的推理環(huán)節(jié)。
這種 “表面統(tǒng)一” 的缺陷在復(fù)雜任務(wù)中會(huì)被無限放大。研究發(fā)現(xiàn),當(dāng)任務(wù)需要多步推理(如 “生成能裝8本書且分4摞的書架”)、邏輯分析或創(chuàng)造性思維時(shí),模型表現(xiàn)會(huì)急劇下降——就像一支“明星球員云集卻無配合的球隊(duì)”,面對(duì)需要協(xié)作的比賽頻頻失誤。
深究根源,訓(xùn)練方法的局限是核心癥結(jié):當(dāng)前多數(shù)統(tǒng)一模型的訓(xùn)練中,理解任務(wù)與生成任務(wù)是分開進(jìn)行的,如同“分別訓(xùn)練一名翻譯和一名作家,卻指望他們自動(dòng)學(xué)會(huì)協(xié)作創(chuàng)作雙語小說”。這種模式雖能保障單個(gè)模塊的基礎(chǔ)能力,卻無法培養(yǎng)模塊間的信息傳遞與協(xié)同決策能力。對(duì)AI行業(yè)而言,這一發(fā)現(xiàn)極具警示意義——眾多企業(yè)投入巨資研發(fā)統(tǒng)一模型,卻誤將 “架構(gòu)整合” 等同于 “能力融合”,忽視了模塊間 “對(duì)話協(xié)作” 的真正挑戰(zhàn)。
二、RealUnify 測(cè)試平臺(tái):揭秘模型協(xié)同能力的 “照妖鏡”
為打破“單項(xiàng)能力優(yōu)秀即代表統(tǒng)一”的認(rèn)知誤區(qū),研究團(tuán)隊(duì)開發(fā)了全新測(cè)試平臺(tái)RealUnify。它并非傳統(tǒng)的“單項(xiàng)技能考核”,而是針對(duì) “協(xié)同能力” 設(shè)計(jì)的 “綜合體檢中心”—— 所有任務(wù)均需理解與生成能力緊密配合才能完成,如同要求 “手腦并用”,單純 “手巧” 或 “腦聰明” 都無法勝任。
1. 核心測(cè)試方向:兩大協(xié)同場(chǎng)景
RealUnify包含1000個(gè)精心設(shè)計(jì)的測(cè)試案例,覆蓋10個(gè)主要類別、32個(gè)細(xì)分任務(wù),均圍繞兩大核心方向展開:
- 理解增強(qiáng)生成:需模型先完成深度推理,再用推理結(jié)果指導(dǎo)生成。例如 “生成‘紅、綠、藍(lán)三色書按序排列且綠書不在最右側(cè)’的圖像”,模型需先明確 “順序約束” 與 “位置禁忌”,再轉(zhuǎn)化為視覺元素;又如 “畫澳大利亞國徽左邊的動(dòng)物”,需先檢索 “袋鼠” 這一世界知識(shí),才能精準(zhǔn)生成。此類任務(wù)還包括常識(shí)推理(如“玻璃瓶掉地摔碎濺水”)、數(shù)學(xué)推理(如“8本書分4摞,每摞2本”)等。
- 生成增強(qiáng)理解:需模型先在腦中 “生成 / 重構(gòu)圖像”,再基于重構(gòu)結(jié)果回答問題。例如 “給一張打亂的拼圖圖片,問原始圖片中有多少個(gè)物體”,模型需先在虛擬空間還原完整圖像,再進(jìn)行計(jì)數(shù);又如 “把所有藍(lán)色線段變成綠色、再把綠色變成黃色,問最后黃色部分組成什么數(shù)字”,需先模擬顏色變換過程,再識(shí)別最終圖形。
2. 創(chuàng)新評(píng)估機(jī)制:雙重診斷法
RealUnify 最關(guān)鍵的設(shè)計(jì)是“雙重評(píng)估”:
- 端到端評(píng)估:直接測(cè)試模型完成復(fù)雜任務(wù)的最終效果,模擬真實(shí)應(yīng)用場(chǎng)景;
- 分步評(píng)估:將任務(wù)拆分為 “理解階段”(如用文字輸出推理結(jié)果)和 “生成階段”(如基于文字指令生成圖像),通過對(duì)比兩階段表現(xiàn),精準(zhǔn)定位模型失敗原因 —— 是單項(xiàng)能力不足(如不會(huì)計(jì)算 “8÷4”),還是無法整合能力(如能計(jì)算卻不會(huì)轉(zhuǎn)化為書架圖像)。
這種機(jī)制如同 “醫(yī)生既測(cè)血壓、心率等單項(xiàng)指標(biāo),又觀察整體運(yùn)動(dòng)能力”,避免了傳統(tǒng)測(cè)試 “只知失敗、不知為何失敗” 的弊端。
三、震撼測(cè)試結(jié)果:12個(gè)主流模型,協(xié)同能力普遍“不及格”
研究團(tuán)隊(duì)對(duì)12個(gè)主流統(tǒng)一模型(含開源與閉源商業(yè)模型)進(jìn)行全面測(cè)試,結(jié)果遠(yuǎn)超預(yù)期——即便最先進(jìn)的模型,在協(xié)同任務(wù)中也表現(xiàn)慘淡:
1. 直接評(píng)估:準(zhǔn)確率普遍低于50%
- 理解增強(qiáng)生成任務(wù):最優(yōu)開源模型平均準(zhǔn)確率僅37.5%(即超60%的任務(wù)失敗),而最強(qiáng)閉源商業(yè)模型雖表現(xiàn)更優(yōu)(準(zhǔn)確率63%),但仍未突破 “及格線”,暴露開源與商業(yè)模型間明顯的技術(shù)代溝;
- 生成增強(qiáng)理解任務(wù):所有模型表現(xiàn)更糟,最優(yōu)開源模型準(zhǔn)確率僅39.3%,多數(shù)模型甚至無法完成“圖像重構(gòu)+計(jì)數(shù)”的基礎(chǔ)協(xié)同任務(wù),完全無法發(fā)揮“生成輔助理解” 的作用。
2. 分步評(píng)估:暴露 “能力分離” 真相
- 對(duì)理解增強(qiáng)生成任務(wù)拆分后,幾乎所有模型的表現(xiàn)都顯著提升:例如BAGEL模型從32.7%躍升至47.7%,提升幅度達(dá)15個(gè)百分點(diǎn)。這證明模型并非缺乏基礎(chǔ)能力(能推理、也能生成),而是無法在端到端場(chǎng)景中 “串聯(lián)” 兩種能力——如同 “會(huì)開車也認(rèn)路,卻不會(huì)邊開車邊導(dǎo)航,必須停下車看地圖”;
- 對(duì)生成增強(qiáng)理解任務(wù)拆分后,所有模型表現(xiàn)反而下降。研究發(fā)現(xiàn),模型在直接評(píng)估中常 “走捷徑”:不進(jìn)行圖像重構(gòu),而是基于原始輸入猜答案(如看到 “拼圖” 就默認(rèn) “有 3 個(gè)物體”),暴露其對(duì) “協(xié)同機(jī)制” 的根本性誤解。
3. 理想上限實(shí)驗(yàn):凸顯協(xié)同潛力
為驗(yàn)證“協(xié)同”的價(jià)值,研究團(tuán)隊(duì)構(gòu)建了 “理想組合”:將當(dāng)前最強(qiáng)理解模型(Gemini-2.5-Pro)與最強(qiáng)生成模型(GPT-Image-1)按“先理解后生成” 的步驟手動(dòng)銜接。結(jié)果顯示,該組合在理解增強(qiáng)生成任務(wù)上準(zhǔn)確率達(dá)72.7%,遠(yuǎn)超任何單一統(tǒng)一模型 —— 既證明了協(xié)同的巨大潛力,也反襯出當(dāng)前統(tǒng)一模型的整合效率有多低下。
此外,不同任務(wù)的難度差異也極為明顯:世界知識(shí)類任務(wù)(如“畫袋鼠”)最優(yōu)模型準(zhǔn)確率達(dá)89%,但數(shù)學(xué)推理、邏輯推理類任務(wù)準(zhǔn)確率普遍低于30%,代碼轉(zhuǎn)圖像任務(wù)(需理解代碼邏輯→執(zhí)行計(jì)算→生成圖像)更成為“重災(zāi)區(qū)”,多數(shù)模型準(zhǔn)確率低于10%,暴露多步推理與跨模態(tài)轉(zhuǎn)換能力的嚴(yán)重短板。
四、深層問題:為何統(tǒng)一模型 “合而不融”?
通過對(duì)失敗案例的深入分析,研究團(tuán)隊(duì)總結(jié)出三大核心問題:
1. 推理與生成“脫節(jié)”
模型在獲得明確的中間推理結(jié)果時(shí),往往能生成高質(zhì)量圖像(如直接告知 “愛因斯坦愛小提琴”,能精準(zhǔn)畫小提琴);但僅給模糊指令(如 “愛因斯坦最喜歡的樂器”),就無法完成 “知識(shí)檢索→推理→生成” 的鏈條——如同 “能精準(zhǔn)翻譯句子,卻不懂文字背后的文化語境”,基礎(chǔ)能力達(dá)標(biāo),深層關(guān)聯(lián)能力缺失。
2. 生成結(jié)果“無法復(fù)用”
在生成增強(qiáng)理解任務(wù)中,即便模型成功生成中間圖像(如重構(gòu)拼圖),也無法有效利用這些圖像答題:例如重構(gòu)的拼圖中 “少了1個(gè)物體”,導(dǎo)致后續(xù)計(jì)數(shù)錯(cuò)誤;或顏色、位置與原始圖像有偏差,最終影響推理結(jié)論。
3. 系統(tǒng)性約束能力弱
模型在處理 “多重約束” 任務(wù)時(shí)極易出錯(cuò):例如 “生成3本紅、綠、藍(lán)按序排列且綠書不在最右的書”,常出現(xiàn) “顏色錯(cuò)位”(綠書在最右)、“數(shù)量偏差”(多1本書)或 “布局混亂”(三本書重疊)—— 反映出對(duì)空間關(guān)系、數(shù)量準(zhǔn)確性、屬性一致性的整合能力不足。
這些問題的根源,仍指向訓(xùn)練方法的局限:當(dāng)前訓(xùn)練未針對(duì) “協(xié)同” 設(shè)計(jì)目標(biāo),僅靠 “共享參數(shù)” 無法讓理解與生成模塊學(xué)會(huì) “對(duì)話”。就像 “用培養(yǎng)獨(dú)奏家的方法訓(xùn)練合唱團(tuán)”,即便每個(gè)成員技藝精湛,也無法唱出和諧的和聲。
五、未來方向:從“表面統(tǒng)一”到“深度融合”
研究結(jié)果為多模態(tài)AI的發(fā)展指明了三大核心方向:
1. 革新訓(xùn)練策略:從“分離訓(xùn)練”到“協(xié)同訓(xùn)練”
需摒棄 “先訓(xùn)理解、再訓(xùn)生成” 的模式,在訓(xùn)練中融入大量 “跨模態(tài)協(xié)同任務(wù)”(如 “先推理后生成”“先重構(gòu)后理解”),讓模型從起步階段就學(xué)習(xí) “手腦配合”——如同培養(yǎng)合唱團(tuán)時(shí),從一開始就練習(xí)和聲,而非單獨(dú)訓(xùn)練每個(gè)聲部。
2. 重構(gòu)模型架構(gòu):增設(shè) “協(xié)同樞紐”
當(dāng)前 “共享參數(shù)” 的架構(gòu)無法保障協(xié)同,需設(shè)計(jì)專門的 “協(xié)調(diào)器模塊”:負(fù)責(zé)在理解與生成模塊間傳遞關(guān)鍵信息、校準(zhǔn)邏輯偏差,例如將“8÷4=2”的數(shù)學(xué)結(jié)果,轉(zhuǎn)化為“書架分4層、每層2本書”的視覺指令,成為連接兩種能力的 “橋梁”。
3. 完善評(píng)估體系:以 “協(xié)同能力” 為核心
傳統(tǒng)評(píng)估僅關(guān)注單項(xiàng)任務(wù)準(zhǔn)確率,未來需建立以 “協(xié)同能力” 為核心的標(biāo)準(zhǔn) —— 如 RealUnify 平臺(tái)的設(shè)計(jì)思路,通過 “多約束、多步驟” 任務(wù),全面測(cè)試模型的跨模態(tài)整合效率,推動(dòng)行業(yè)從 “追求功能數(shù)量” 轉(zhuǎn)向 “追求協(xié)同質(zhì)量”。
六、研究意義:重新定義AI“統(tǒng)一”的標(biāo)準(zhǔn)
這項(xiàng)研究的最大價(jià)值,在于打破了“架構(gòu)統(tǒng)一 = 能力統(tǒng)一”的行業(yè)誤區(qū),重新定義了多模態(tài)AI的“統(tǒng)一標(biāo)準(zhǔn)”——真正的統(tǒng)一,不是 “功能堆疊”,而是“1+1>2”的協(xié)同效應(yīng)。
對(duì)產(chǎn)業(yè)界而言,這一發(fā)現(xiàn)提供了關(guān)鍵的技術(shù)選型指導(dǎo):在當(dāng)前技術(shù)水平下,面對(duì)復(fù)雜協(xié)同任務(wù),“專業(yè)模型組合”(如用理解模型+生成模型手動(dòng)銜接)可能比單一統(tǒng)一模型更有效;企業(yè)需從“追求‘全能’模型”轉(zhuǎn)向“評(píng)估模型的協(xié)同適配性”,避免盲目投入。
對(duì)學(xué)術(shù)界而言,研究開創(chuàng)了“協(xié)同能力評(píng)估”的新方向,RealUnify平臺(tái)不僅提供了測(cè)試工具,更提出了一套方法論,將推動(dòng)更多研究聚焦 “模塊間協(xié)作機(jī)制”,而非單純追求模型規(guī)模。
從長遠(yuǎn)看,真正的多模態(tài)AI應(yīng)像人類一樣,自然整合視覺、語言、推理能力——看到一張圖片時(shí),能同時(shí)調(diào)用“視覺感知”“知識(shí)記憶”“邏輯分析”,且無需刻意協(xié)調(diào)。當(dāng)前的統(tǒng)一模型,距離這種 “自然協(xié)同” 仍有漫長的路,但這項(xiàng)研究至少讓行業(yè)看清了 “起點(diǎn)” 與 “方向”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.