你有沒有想過:一個從沒 “見過” 任何圖片的AI,只靠讀文字,居然能看懂圖像?這就像一個人沒摸過畫筆、沒看過畫作,單靠讀美術理論書,就能畫出像樣的畫——聽著離譜,卻是近年來 AI 領域最讓人困惑的現象之一。
直到2025年1月,Meta超級智能實驗室聯合牛津大學的韓俊林、湯盛邦、范大衛等團隊,在論文(編號 arXiv:2509.26625v1)里揭開了這個謎題。他們花了50萬 GPU小時,訓練了100多個不同模型,終于搞懂:原來文字訓練給大模型埋下了 “視覺種子”,只要稍作引導,就能長出 “看圖能力”。
一、AI的“看圖本事”,其實是兩套“工具”在分工
很多人以為AI“看懂圖” 是一種本事,可研究團隊拆解開發現:這其實是兩套獨立的“工具”在干活——就像一臺機器里裝了兩個引擎,一個管 “看見”,一個管 “想通”。
為了驗證這個想法,他們做了個大實驗:訓練105個不同模型,讓它們做四種視覺任務——認東西(通用視覺理解)、讀文字(文字識別)、用知識(知識密集型任務)、解難題(視覺推理)。結果很有意思:
- 認東西和讀文字的能力高度相關,它們靠的是 “感知工具”——就像AI的 “眼睛”,負責抓圖像里的基本信息,比如“這是紅色”“那是圓形”“這東西像蘋果”。
- 用知識和解難題的能力也相關,靠的是“推理工具”——相當于AI的“大腦”,負責分析關系,比如“蘋果在盤子里,盤子在桌子上”“這個邊界框更準,因為它剛好框住了叉子的柄和齒”。
更反常識的是:這兩套工具幾乎沒關系,甚至有時“此強彼弱”。比如一個AI能精準認出圖里的每一個小零件,卻算不出 “這堆零件能拼成什么”;另一個AI可能認不清細節,卻能快速推理出 “圖里的人在修自行車”。
他們還做了個 “換眼睛” 實驗:給同一個AI配三種不同的“視覺編碼器”(相當于三種不同的 “眼睛”),結果發現——不管換哪種“眼睛”,只要AI之前讀了很多代碼、數學這類“燒腦文字”,解視覺難題的能力就更強。這說明“推理工具”是通用的,能跨著“文字”和“圖像”用;但“感知工具”很依賴“眼睛”,換個“眼睛”,認東西的本事可能就變了。
這對開發AI太有用了:想讓AI會“看圖推理”,就多給它讀代碼、數學書;想讓AI認東西更準,就優化它的 “眼睛”(視覺編碼器),多給它看標注清晰的圖像數據。
![]()
二、學代碼、算數學,居然能幫AI“看懂圖”?
研究里最神奇的發現是:AI學代碼、數學時練出的 “推理本事”,居然能直接用到看圖像上——就像人學會騎自行車后,再學騎摩托會特別快,因為核心的 “平衡感” 是通用的。
為了證明這一點,團隊做了個實驗:讓AI回答視覺問題時,不僅給答案,還要 “說清楚怎么想的”,再用另一個AI評估它的“思考質量”(邏輯嚴不嚴密、想得深不深)。
結果嚇了一跳:當AI學代碼的比例從0%提到100%,它的推理邏輯嚴密性幾乎翻了一倍(從4.52%到9.52%),思考深度更是翻了6倍多(從8.31個文本單位到53.25個)。
舉個具體例子:讓AI判斷 “哪個邊界框更準地圈住了叉子”。沒學過代碼的AI只會說 “選第二個”,說不出理由;而學過大量代碼的AI會詳細解釋:“邊界框要完整覆蓋物體,第一個框漏了叉子的齒,第二個框剛好框住柄和齒,所以第二個更準”—— 就像程序員寫代碼時會詳細寫注釋,邏輯清清楚楚。
為什么代碼有這么大魔力?因為代碼本身是“嚴格的邏輯語言”:寫代碼時必須一步一步說清楚“先做什么、再做什么”,不能有半點模糊。AI學代碼的過程,其實是在練 “拆解問題、梳理邏輯” 的本事——這種本事不分“處理文字”還是“處理圖像”,遇到視覺推理題,自然能用上。
數學訓練也有類似效果,只是稍弱一點。這說明:只要是需要 “嚴密思考” 的文字,都能幫AI練出跨模態的 “推理力”。
![]()
三、喂AI“吃飯”有黃金配方:60%“燒腦文”+15%“看圖文”
搞懂了“工具”和“能力來源”,團隊接下來要找:怎么搭配訓練數據,才能讓 AI 既會“看”又會“想”,還不耽誤原本的文字能力?
他們像調“營養配方”一樣,試了24種數據組合:推理型文本(代碼、數學、學術論文)比例從50%到85%,視覺描述文本(比如 “紅色的蘋果放在白色盤子里”)比例從5%到30%,每種配方都訓練一個30億參數的模型。
最終找到一個 “黃金比例”:約60%推理型文本+15%視覺描述文本。更關鍵的是,這個配方證明:想讓AI有視覺能力,不用堆大量視覺文本——重點是先打好 “推理基礎”,再用少量視覺文本 “激活” 能力就行。
為了貼近實際開發,他們還選了6種常見數據源(網絡爬蟲文本、百科、學術論文、文學作品、數學、代碼),設計了從 “語言友好” 到 “視覺友好” 的漸變配方。
最開始的 “語言友好配方” 里,網絡文本占50%、文學作品20%、代碼20%,雖然文字任務表現好(困惑度13.46,準確率53%),但視覺能力弱。后來他們逐步增加推理文本比例,減少文學、網絡文本,直到 “mix6 配方” 達到平衡:
- mix6配方:40%網絡文本、8%百科、5%學術論文、2%文學作品、10%數學、35%代碼
- 效果:視覺準確率沖到33.3%,而文字能力幾乎沒下降 —— 相當于 AI “文武雙全” 了,還沒偏科。
![]()
四、想讓 AI “認東西準”,別只喂“看圖文”,要“雜著喂”
和 “推理能力” 來源清晰不同,AI的 “感知能力”(認東西、辨細節)培養起來更講究 —— 不是某類文本 “吃得越多越好”,而是 “吃得越雜越好”。
團隊專門做了個 “物體識別測試”(MLE-Bench):用1861張圖,按物體占畫面的比例分成 “小物體”(0~30%,比如圖里的小紐扣)、“中物體”(30~60%,比如一本書)、“大物體”(60~100%,比如占滿畫面的沙發),讓16個“單吃一種數據源” 的AI來認。
結果發現:用“網絡爬蟲文本”訓練的AI表現最好,尤其是認小物體和中物體時 ——因為網絡文本太雜了,從 “奶茶杯上的吸管是斜的” 到 “顯微鏡下的細胞呈圓形”,從日常瑣事到專業知識,啥都有,就像 “吃雜糧” 一樣,營養全面,AI自然能認更多樣的東西。
更意外的是:僅用25%視覺描述文本的AI,在某些復雜視覺任務上,居然比用100%視覺文本的AI表現還好。這說明:太多“看圖描述” 反而會讓AI“鉆牛角尖”——比如只記住“蘋果是紅色的”,卻忘了“還有綠色蘋果”,反而學不會抽象的視覺概念。
團隊還發現:如果后期訓練時刪掉 “感知導向的指令數據”(比如“教AI認顏色、形狀的文本”),AI認東西、讀文字的能力會掉5~10%;但刪掉“推理導向的指令數據”,影響的主要是解難題——再次證明,“感知” 和 “推理” 是兩套獨立的本事。
五、工業級測試:1萬億文字“喂”出的AI,真的更能“看圖”
實驗室里的結論靠譜嗎?團隊搞了次 “工業級驗證”:用1萬億個文字標記,訓練兩個70億參數的大模型——一個用傳統 “語言友好配方”,一個用“mix6平衡配方”,128個A100 GPU連跑32天(相當于中型 AI 公司幾個月的計算成本)。
結果超出預期:
- 語言能力:平衡配方的AI“困惑度”(越低越好)是7.49,比傳統配方的8.72還低;文字準確率從64.7%升到65.5%——之前擔心 “加推理文本會耽誤文字能力”,居然是多余的,反而因為推理能力強了,整體理解文字的本事也提了。
- 視覺能力:平衡配方的AI平均得分38.64%,比傳統配方的37.32%高1.32個百分點,而且是全面提升——不管是認東西、讀文字,還是用知識、解難題,都更好。尤其是“知識密集型視覺任務”(比如 “圖里的古建筑是哪種風格,為什么”),提升最明顯,正好印證了“推理能力跨模態”的結論。
之后他們還加了完整的多模態訓練(用250萬張圖 + 文本配對、700萬條多模態指令),發現之前文字訓練埋下的 “視覺種子”,真的能順利長成 “看圖能力”——這說明這些發現不是實驗室里的“小把戲”,而是能落地的實用方法。
六、意外風險:AI會“瞎編”答案?警惕“盲訓練”的雙刃劍
研究中還發現一個有趣又危險的現象:“盲視覺指令調優”——先讓AI只學“視覺任務的文字指令”(如“怎么回答圖里有什么”),不看任何圖,再學圖+文本配對。
這么做確實能提性能:傳統配方的 AI 視覺準確率從37.32%升到38.20%,平衡配方的從38.64%升到39.56%。但背后藏著坑:AI之所以能 “盲答”,靠的是 “猜”——用問題里的線索+之前讀的知識編答案,比如問 “圖里的貓是什么顏色”,AI 沒看圖,卻因為讀過上萬次 “貓常見顏色是橘色、白色”,就編“橘色”。
團隊測試了GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等主流AI,發現這種“幻覺” 普遍存在:哪怕故意不給圖,AI也會自信地“編答案”,仿佛真的“看見了”。這提醒我們:評估AI的“看圖能力”時,不能只看答案對不對,還要看它是不是真的 “看懂了”,不然很可能被“聰明的猜測”騙了。
當然,這種方法也不是沒用——把“學指令”和“學看圖”分開,像 “先學考試規則,再做題”,效率更高。關鍵是要做好“防幻覺”:比如讓AI在沒圖時明確說 “沒看到圖像,無法判斷”,而不是硬編。
七、背后的大道理:AI能從“文字影子”學出“現實規律”
這些發現,其實印證了一個重要的理論——“柏拉圖表征假說”。簡單說:文本和圖像,就像現實世界的 “影子”(比如 “蘋果是紅的、圓的” 是文字影子,蘋果的照片是圖像影子);足夠強的 AI,能從單一 “影子” 里,學出背后的 “現實規律”(比如蘋果的本質特征)。
團隊做了個實驗:用維基百科的圖+文本對,提取語言模型和三種視覺模型(ViT-Large、DINOv2-Giant、CLIP-Huge)的“特征”,看它們有多像。結果發現:讀了更多代碼、數學的語言模型,和視覺模型的 “特征相似度” 更高 —— 說明 AI 真的從文字里,學到了和圖像相通的 “底層規律”。
這背后的哲學意味很有意思:智能可能不依賴“看什么、聽什么”,而是看能不能抓住 “現實的本質”。不管是讀文字還是看圖像,AI最終都是在理解同一個世界——這也為未來的通用AI指明了方向:不用死磕 “多模態數據堆量”,而是要培養AI抓底層規律的能力。
八、未來:從“碰運氣”到“精準培養”,AI視覺能力有了說明書
這項研究最大的價值,是把AI的“視覺天賦”從“偶然發現” 變成了“刻意培養”。以前,開發者可能偶爾發現 “這個模型居然能看圖”,卻不知道為什么;現在,有了明確的 “說明書”:
- 想練 “推理”:多喂代碼、數學、學術論文,占比約60%;
- 想練 “感知”:用多樣化文本(比如網絡爬蟲內容),加少量視覺描述(約 15%),優化視覺編碼器;
- 想平衡:試試 mix6 配方,兼顧文字和視覺能力。
當然,研究也有局限:目前只測了 “常見的多模態架構”,對其他架構(比如端到端訓練)是否適用還不清楚;也只研究了靜態圖片,沒涉及視頻這類動態內容;另外,如果文字數據里有偏見(比如 “認為某種膚色的人更可能做某件事”),這些偏見也可能傳到視覺能力里,安全性和公平性還需要進一步解決。
但無論如何,這項研究給 AI 領域打開了一扇新門:原來文字和圖像之間,藏著這么深的關聯;原來不用 “題海戰術” 堆數據,精準調配 “訓練食材”,就能讓 AI 更聰明。或許未來,我們能看到更多 “會讀、會想、會看” 的通用 AI,在醫療、教育、設計等領域發揮更大作用 —— 而這一切的起點,只是一個 “沒見過圖卻能看圖” 的奇怪現象。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.