<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      Meta揭大模型“看圖”之謎:沒見圖也能行,文字訓練藏關鍵

      0
      分享至

      你有沒有想過:一個從沒 “見過” 任何圖片的AI,只靠讀文字,居然能看懂圖像?這就像一個人沒摸過畫筆、沒看過畫作,單靠讀美術理論書,就能畫出像樣的畫——聽著離譜,卻是近年來 AI 領域最讓人困惑的現象之一。

      直到2025年1月,Meta超級智能實驗室聯合牛津大學的韓俊林、湯盛邦、范大衛等團隊,在論文(編號 arXiv:2509.26625v1)里揭開了這個謎題。他們花了50萬 GPU小時,訓練了100多個不同模型,終于搞懂:原來文字訓練給大模型埋下了 “視覺種子”,只要稍作引導,就能長出 “看圖能力”。

      一、AI的“看圖本事”,其實是兩套“工具”在分工

      很多人以為AI“看懂圖” 是一種本事,可研究團隊拆解開發現:這其實是兩套獨立的“工具”在干活——就像一臺機器里裝了兩個引擎,一個管 “看見”,一個管 “想通”。

      為了驗證這個想法,他們做了個大實驗:訓練105個不同模型,讓它們做四種視覺任務——認東西(通用視覺理解)、讀文字(文字識別)、用知識(知識密集型任務)、解難題(視覺推理)。結果很有意思:

      • 認東西和讀文字的能力高度相關,它們靠的是 “感知工具”——就像AI的 “眼睛”,負責抓圖像里的基本信息,比如“這是紅色”“那是圓形”“這東西像蘋果”。
      • 用知識和解難題的能力也相關,靠的是“推理工具”——相當于AI的“大腦”,負責分析關系,比如“蘋果在盤子里,盤子在桌子上”“這個邊界框更準,因為它剛好框住了叉子的柄和齒”。

      更反常識的是:這兩套工具幾乎沒關系,甚至有時“此強彼弱”。比如一個AI能精準認出圖里的每一個小零件,卻算不出 “這堆零件能拼成什么”;另一個AI可能認不清細節,卻能快速推理出 “圖里的人在修自行車”。

      他們還做了個 “換眼睛” 實驗:給同一個AI配三種不同的“視覺編碼器”(相當于三種不同的 “眼睛”),結果發現——不管換哪種“眼睛”,只要AI之前讀了很多代碼、數學這類“燒腦文字”,解視覺難題的能力就更強。這說明“推理工具”是通用的,能跨著“文字”和“圖像”用;但“感知工具”很依賴“眼睛”,換個“眼睛”,認東西的本事可能就變了。

      這對開發AI太有用了:想讓AI會“看圖推理”,就多給它讀代碼、數學書;想讓AI認東西更準,就優化它的 “眼睛”(視覺編碼器),多給它看標注清晰的圖像數據。



      二、學代碼、算數學,居然能幫AI“看懂圖”?

      研究里最神奇的發現是:AI學代碼、數學時練出的 “推理本事”,居然能直接用到看圖像上——就像人學會騎自行車后,再學騎摩托會特別快,因為核心的 “平衡感” 是通用的。

      為了證明這一點,團隊做了個實驗:讓AI回答視覺問題時,不僅給答案,還要 “說清楚怎么想的”,再用另一個AI評估它的“思考質量”(邏輯嚴不嚴密、想得深不深)。

      結果嚇了一跳:當AI學代碼的比例從0%提到100%,它的推理邏輯嚴密性幾乎翻了一倍(從4.52%到9.52%),思考深度更是翻了6倍多(從8.31個文本單位到53.25個)。

      舉個具體例子:讓AI判斷 “哪個邊界框更準地圈住了叉子”。沒學過代碼的AI只會說 “選第二個”,說不出理由;而學過大量代碼的AI會詳細解釋:“邊界框要完整覆蓋物體,第一個框漏了叉子的齒,第二個框剛好框住柄和齒,所以第二個更準”—— 就像程序員寫代碼時會詳細寫注釋,邏輯清清楚楚。

      為什么代碼有這么大魔力?因為代碼本身是“嚴格的邏輯語言”:寫代碼時必須一步一步說清楚“先做什么、再做什么”,不能有半點模糊。AI學代碼的過程,其實是在練 “拆解問題、梳理邏輯” 的本事——這種本事不分“處理文字”還是“處理圖像”,遇到視覺推理題,自然能用上。

      數學訓練也有類似效果,只是稍弱一點。這說明:只要是需要 “嚴密思考” 的文字,都能幫AI練出跨模態的 “推理力”。



      三、喂AI“吃飯”有黃金配方:60%“燒腦文”+15%“看圖文”

      搞懂了“工具”和“能力來源”,團隊接下來要找:怎么搭配訓練數據,才能讓 AI 既會“看”又會“想”,還不耽誤原本的文字能力?

      他們像調“營養配方”一樣,試了24種數據組合:推理型文本(代碼、數學、學術論文)比例從50%到85%,視覺描述文本(比如 “紅色的蘋果放在白色盤子里”)比例從5%到30%,每種配方都訓練一個30億參數的模型。

      最終找到一個 “黃金比例”:約60%推理型文本+15%視覺描述文本。更關鍵的是,這個配方證明:想讓AI有視覺能力,不用堆大量視覺文本——重點是先打好 “推理基礎”,再用少量視覺文本 “激活” 能力就行。

      為了貼近實際開發,他們還選了6種常見數據源(網絡爬蟲文本、百科、學術論文、文學作品、數學、代碼),設計了從 “語言友好” 到 “視覺友好” 的漸變配方。

      最開始的 “語言友好配方” 里,網絡文本占50%、文學作品20%、代碼20%,雖然文字任務表現好(困惑度13.46,準確率53%),但視覺能力弱。后來他們逐步增加推理文本比例,減少文學、網絡文本,直到 “mix6 配方” 達到平衡:

      • mix6配方:40%網絡文本、8%百科、5%學術論文、2%文學作品、10%數學、35%代碼
      • 效果:視覺準確率沖到33.3%,而文字能力幾乎沒下降 —— 相當于 AI “文武雙全” 了,還沒偏科。



      四、想讓 AI “認東西準”,別只喂“看圖文”,要“雜著喂”

      和 “推理能力” 來源清晰不同,AI的 “感知能力”(認東西、辨細節)培養起來更講究 —— 不是某類文本 “吃得越多越好”,而是 “吃得越雜越好”。

      團隊專門做了個 “物體識別測試”(MLE-Bench):用1861張圖,按物體占畫面的比例分成 “小物體”(0~30%,比如圖里的小紐扣)、“中物體”(30~60%,比如一本書)、“大物體”(60~100%,比如占滿畫面的沙發),讓16個“單吃一種數據源” 的AI來認。

      結果發現:用“網絡爬蟲文本”訓練的AI表現最好,尤其是認小物體和中物體時 ——因為網絡文本太雜了,從 “奶茶杯上的吸管是斜的” 到 “顯微鏡下的細胞呈圓形”,從日常瑣事到專業知識,啥都有,就像 “吃雜糧” 一樣,營養全面,AI自然能認更多樣的東西。

      更意外的是:僅用25%視覺描述文本的AI,在某些復雜視覺任務上,居然比用100%視覺文本的AI表現還好。這說明:太多“看圖描述” 反而會讓AI“鉆牛角尖”——比如只記住“蘋果是紅色的”,卻忘了“還有綠色蘋果”,反而學不會抽象的視覺概念。

      團隊還發現:如果后期訓練時刪掉 “感知導向的指令數據”(比如“教AI認顏色、形狀的文本”),AI認東西、讀文字的能力會掉5~10%;但刪掉“推理導向的指令數據”,影響的主要是解難題——再次證明,“感知” 和 “推理” 是兩套獨立的本事。

      五、工業級測試:1萬億文字“喂”出的AI,真的更能“看圖”

      實驗室里的結論靠譜嗎?團隊搞了次 “工業級驗證”:用1萬億個文字標記,訓練兩個70億參數的大模型——一個用傳統 “語言友好配方”,一個用“mix6平衡配方”,128個A100 GPU連跑32天(相當于中型 AI 公司幾個月的計算成本)。

      結果超出預期:

      • 語言能力:平衡配方的AI“困惑度”(越低越好)是7.49,比傳統配方的8.72還低;文字準確率從64.7%升到65.5%——之前擔心 “加推理文本會耽誤文字能力”,居然是多余的,反而因為推理能力強了,整體理解文字的本事也提了。
      • 視覺能力:平衡配方的AI平均得分38.64%,比傳統配方的37.32%高1.32個百分點,而且是全面提升——不管是認東西、讀文字,還是用知識、解難題,都更好。尤其是“知識密集型視覺任務”(比如 “圖里的古建筑是哪種風格,為什么”),提升最明顯,正好印證了“推理能力跨模態”的結論。

      之后他們還加了完整的多模態訓練(用250萬張圖 + 文本配對、700萬條多模態指令),發現之前文字訓練埋下的 “視覺種子”,真的能順利長成 “看圖能力”——這說明這些發現不是實驗室里的“小把戲”,而是能落地的實用方法。

      六、意外風險:AI會“瞎編”答案?警惕“盲訓練”的雙刃劍

      研究中還發現一個有趣又危險的現象:“盲視覺指令調優”——先讓AI只學“視覺任務的文字指令”(如“怎么回答圖里有什么”),不看任何圖,再學圖+文本配對。

      這么做確實能提性能:傳統配方的 AI 視覺準確率從37.32%升到38.20%,平衡配方的從38.64%升到39.56%。但背后藏著坑:AI之所以能 “盲答”,靠的是 “猜”——用問題里的線索+之前讀的知識編答案,比如問 “圖里的貓是什么顏色”,AI 沒看圖,卻因為讀過上萬次 “貓常見顏色是橘色、白色”,就編“橘色”。

      團隊測試了GPT-5、Gemini 2.5 Pro、Claude Opus 4.1等主流AI,發現這種“幻覺” 普遍存在:哪怕故意不給圖,AI也會自信地“編答案”,仿佛真的“看見了”。這提醒我們:評估AI的“看圖能力”時,不能只看答案對不對,還要看它是不是真的 “看懂了”,不然很可能被“聰明的猜測”騙了。

      當然,這種方法也不是沒用——把“學指令”和“學看圖”分開,像 “先學考試規則,再做題”,效率更高。關鍵是要做好“防幻覺”:比如讓AI在沒圖時明確說 “沒看到圖像,無法判斷”,而不是硬編。

      七、背后的大道理:AI能從“文字影子”學出“現實規律”

      這些發現,其實印證了一個重要的理論——“柏拉圖表征假說”。簡單說:文本和圖像,就像現實世界的 “影子”(比如 “蘋果是紅的、圓的” 是文字影子,蘋果的照片是圖像影子);足夠強的 AI,能從單一 “影子” 里,學出背后的 “現實規律”(比如蘋果的本質特征)。

      團隊做了個實驗:用維基百科的圖+文本對,提取語言模型和三種視覺模型(ViT-Large、DINOv2-Giant、CLIP-Huge)的“特征”,看它們有多像。結果發現:讀了更多代碼、數學的語言模型,和視覺模型的 “特征相似度” 更高 —— 說明 AI 真的從文字里,學到了和圖像相通的 “底層規律”。

      這背后的哲學意味很有意思:智能可能不依賴“看什么、聽什么”,而是看能不能抓住 “現實的本質”。不管是讀文字還是看圖像,AI最終都是在理解同一個世界——這也為未來的通用AI指明了方向:不用死磕 “多模態數據堆量”,而是要培養AI抓底層規律的能力。

      八、未來:從“碰運氣”到“精準培養”,AI視覺能力有了說明書

      這項研究最大的價值,是把AI的“視覺天賦”從“偶然發現” 變成了“刻意培養”。以前,開發者可能偶爾發現 “這個模型居然能看圖”,卻不知道為什么;現在,有了明確的 “說明書”:

      • 想練 “推理”:多喂代碼、數學、學術論文,占比約60%;
      • 想練 “感知”:用多樣化文本(比如網絡爬蟲內容),加少量視覺描述(約 15%),優化視覺編碼器;
      • 想平衡:試試 mix6 配方,兼顧文字和視覺能力。

      當然,研究也有局限:目前只測了 “常見的多模態架構”,對其他架構(比如端到端訓練)是否適用還不清楚;也只研究了靜態圖片,沒涉及視頻這類動態內容;另外,如果文字數據里有偏見(比如 “認為某種膚色的人更可能做某件事”),這些偏見也可能傳到視覺能力里,安全性和公平性還需要進一步解決。

      但無論如何,這項研究給 AI 領域打開了一扇新門:原來文字和圖像之間,藏著這么深的關聯;原來不用 “題海戰術” 堆數據,精準調配 “訓練食材”,就能讓 AI 更聰明。或許未來,我們能看到更多 “會讀、會想、會看” 的通用 AI,在醫療、教育、設計等領域發揮更大作用 —— 而這一切的起點,只是一個 “沒見過圖卻能看圖” 的奇怪現象。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

      立即停用這種“廚房神器”,已致多人死亡,很多家庭還在用!

      DrX說
      2025-11-03 14:13:43
      美國:發明三三戰術不是人,是神!看起來人山人海,其實僅有27人

      美國:發明三三戰術不是人,是神!看起來人山人海,其實僅有27人

      云端小院
      2025-10-27 08:52:31
      俄烏沖突大反轉!紅軍城 9000 烏軍被困,澤連斯基說辭遭拆穿

      俄烏沖突大反轉!紅軍城 9000 烏軍被困,澤連斯基說辭遭拆穿

      井普椿的獨白
      2025-11-07 14:49:13
      棄車保帥!太子集團陳志末日已到,是被“自己人”滅口的

      棄車保帥!太子集團陳志末日已到,是被“自己人”滅口的

      吃瓜局
      2025-10-31 21:11:55
      一覺醒來,全網都知道了,內向的劉詩詩有一個讓她頭疼的魔丸兒子

      一覺醒來,全網都知道了,內向的劉詩詩有一個讓她頭疼的魔丸兒子

      洲洲影視娛評
      2025-11-06 20:38:52
      吳京深夜發文生無可戀,遭網友抵制并嘲諷,咋回事?

      吳京深夜發文生無可戀,遭網友抵制并嘲諷,咋回事?

      眼光很亮
      2025-11-06 10:15:22
      王偉瑩回應排名第5:有遺憾,但這或是最好結局 全紅嬋回了3表情

      王偉瑩回應排名第5:有遺憾,但這或是最好結局 全紅嬋回了3表情

      風過鄉
      2025-11-07 12:58:43
      兒子瑞士留學被拒收!沈伯洋搞分裂,代價由全家買單!

      兒子瑞士留學被拒收!沈伯洋搞分裂,代價由全家買單!

      娛樂圈的筆娛君
      2025-11-07 05:46:03
      林丹在西班牙為子慶生,謝杏芳盛裝笑容滿面,豪宅別墅顯得熱鬧

      林丹在西班牙為子慶生,謝杏芳盛裝笑容滿面,豪宅別墅顯得熱鬧

      科學發掘
      2025-11-06 13:42:50
      重慶為例,國家區劃調整大門重啟,膠州有可能撤市設區嗎?

      重慶為例,國家區劃調整大門重啟,膠州有可能撤市設區嗎?

      王二哥老搞笑
      2025-11-07 10:28:30
      2輪換+1首輪2次輪,ESPN:各隊認為莫蘭特交易價值與23年歐文相仿

      2輪換+1首輪2次輪,ESPN:各隊認為莫蘭特交易價值與23年歐文相仿

      懂球帝
      2025-11-07 08:53:06
      24投22中狂砍55分9板!張子宇這2戰殺瘋了:無愧女籃大殺器!

      24投22中狂砍55分9板!張子宇這2戰殺瘋了:無愧女籃大殺器!

      籃球快餐車
      2025-11-07 03:56:32
      老公半夜突發心臟病,婆婆:斷氣沒?一定要確定了再打120

      老公半夜突發心臟病,婆婆:斷氣沒?一定要確定了再打120

      徐俠客有話說
      2025-11-07 11:57:00
      臺灣問題,根本不是武統、和統的問題了,而是以下這兩方面問題!

      臺灣問題,根本不是武統、和統的問題了,而是以下這兩方面問題!

      壹知眠羊
      2025-07-05 08:27:25
      婚宴22桌賓客提前走,不是沒禮貌,是儀式感熬成了煎熬

      婚宴22桌賓客提前走,不是沒禮貌,是儀式感熬成了煎熬

      白宸侃片
      2025-11-01 12:23:34
      世界上平原面積最大的五個國家

      世界上平原面積最大的五個國家

      世界縱橫說
      2025-11-05 11:29:37
      63歲演員吳鎮宇刷老年卡坐公交,被疑“冒用他人證件”險被趕下車,當場掏身份證自證清白

      63歲演員吳鎮宇刷老年卡坐公交,被疑“冒用他人證件”險被趕下車,當場掏身份證自證清白

      極目新聞
      2025-11-04 21:57:03
      波克羅夫斯克尸橫遍野!小澤要求軍官誠實,俄軍換將疑為不實信息

      波克羅夫斯克尸橫遍野!小澤要求軍官誠實,俄軍換將疑為不實信息

      鷹眼Defence
      2025-11-04 18:01:46
      差距客觀存在!中國目前被歐美卡脖子最嚴重的幾個領域

      差距客觀存在!中國目前被歐美卡脖子最嚴重的幾個領域

      老謝談史
      2025-11-04 20:27:26
      趙勇下課?女排新帥或曝光,55歲,多次執教國家隊,蔡斌好友

      趙勇下課?女排新帥或曝光,55歲,多次執教國家隊,蔡斌好友

      樂聊球
      2025-11-07 12:14:07
      2025-11-07 16:44:49
      DATAVIEW
      DATAVIEW
      時刻討論和分析世界、行業、AI等熱門話題,只提取高價值信息
      32文章數 2關注度
      往期回顧 全部

      科技要聞

      75%贊成!特斯拉股東同意馬斯克天價薪酬

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      頭條要聞

      七旬老人帶一歲孫子住院:孩子父親去世母親下落不明

      體育要聞

      是天才更是強者,18歲的全紅嬋邁過三道坎

      娛樂要聞

      白百何回應東京電影節爭議

      財經要聞

      老登們的社交貨幣全崩了

      汽車要聞

      美式豪華就是舒適省心 林肯航海家場地試駕

      態度原創

      游戲
      教育
      手機
      時尚
      健康

      索尼打擊盜版PS周邊:索賠200萬美元

      教育要聞

      揚州市教育局局長:嚴禁重復性、懲罰性作業!南京的真實情況是....

      手機要聞

      折疊屏手機哪家好?2025年五款主流旗艦全面對比與選購指南

      有品味的中年阿姨,穿衣搭配都有4個共同點,學會了優雅到老

      超聲探頭會加重受傷情況嗎?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品成人无限看| 国产AV无码专区亚洲AV漫画| 日韩人妻av一区二区三区| 国产91精品丝袜美腿在线| 又爽又黄又无遮掩的免费视频| 亚洲sm另类一区二区三区| 免费观看一级欧美大| 白嫩少妇无套内谢视频| 国产91色在线精品三级| 麻豆av一区二区三区| 美女自卫慰黄网站| 婷婷久久综合九色综合88| 18禁一区二区每日更新| 2020年最新国产精品正在播放| 麻豆国产va免费精品高清在线 | 国产精品v欧美精品∨日韩| 亚洲a∨国产av综合av| 久热re这里精品视频在线6| 国产精品多p对白交换绿帽| 国产日韩入口一区二区| 亚洲综合无码AV在线观看| 国产成人久久777777| yyyy在线在片| 久久精品国产99久久久古代| 熟女人妻精品一区二区视频| 國产AV天堂| 日本极品少妇videossexhd| 海兴县| 四虎影视库国产精品一区| 波多野结衣在线精品视频| 亚洲av成人无码天堂| 高清欧美性猛交xxxx黑人猛交| 亚洲av伦理一区二区| 久久精品人人槡人妻人人玩 | 国产免费网站看v片元遮挡| 国产精品中出一区二区三区| 国产亚洲精品在av| 国产一精品一av一免费| 四虎成人精品永久免费av| 中文无码av一区二区三区 | 中文精品无码中文字幕无码专区 |