![]()
機器之心原創
編輯:吳昕、冷貓
這年頭,AI 創造的視覺世界真是炫酷至極。但真要跟細節較真兒,這些大模型的「眼力見兒」可就讓人難繃了。
比如,我讓它畫「一只穿紅外套的貓,站在一輛藍色跑車左邊,藍色跑車后面是一輛白色 SUV。」
![]()
抽卡兩次,全翻車。模型似乎還沒整明白,「后面」到底是個什么空間關系。
換個路子去搜圖:「一輛紅色的特斯拉,引擎蓋上很多鳥糞」。兩排圖翻下來,真正對得上的只有一張。
![]()
無論是淘一件女明星帶火的「藍色中式繭形設計棉服」,還是「大話西游里的周星馳,手拿緊箍咒」,結果嘛 ,都不讓人省心。
![]()
好消息是,這毛病終于要被整治了。
就在我還在吐槽它「看個大概、看不清細節」的時候,360 那邊又放了個大招FG-CLIP 2
它就像是給 AI 裝了一臺顯微鏡,看圖精確到像素級。毛發、斑點、色彩、表情、位置,全都看得清。
在八大類任務、29 項測試中,FG-CLIP 2 全面超越 Google 與 Meta, 一躍成為目前最強的圖文跨模態 VLM 模型
而且,中英文都玩得 6,真正的:全球最強,又最懂我們。更讓人拍手稱快的是,360 已經將它開源了!(搓搓小手)
![]()
- Github:
- https://github.com/360CVGroup/FG-CLIP
- 論文:
- https://arxiv.org/abs/2510.10921
- 項目主頁:
- https://360cvgroup.github.io/FG-CLIP/
「明察秋毫」,拿了 29 項第一
我們來看下面這張圖。你腦海里蹦出的第一個詞是什么?
大概率是「貓在看屏幕」,或者更具體點 「一只貓看著一只屏幕里的貓」。
很好,你一下敏銳捕捉到了畫面中最核心的信息,也就是一只貓在屏幕里。
![]()
FG-CLIP 2 貓咪圖像標簽匹配結果示意。「一只貍花貓和屏幕中的英短相互對視」的結果置信度 88%。
但對于傳統 CLIP 模型來說,從一張僅有二維平面信息的圖像中識別屏幕內的信息,恐怕已經超出了理解能力的上限 ——
它們只能認出貓和基本動作,卻完全搞不清它們的細節,尤其是屏幕里的那只。
而 FG-CLIP 2 不僅能準確理解空間關系,還通過毛發紋理的細節特征,精準區分出貓的品種:一只是貍花貓,另一只是屏幕里的英短貓。
這樣識微入毫能力,可不是憑空煉成的。
其實早在 2021 年,OpenAI 靠一篇 48 頁的論文打造出多模態領域的開山之作 CLIP——
它第一次讓機器學會了「圖文配對」,在同一個語義空間里理解世界,從此打開了視覺智能的大門。
此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撐起圖文理解模型的「天花板」。
但說實話,即便再強,這些傳統 CLIP 模型依然有一個致命短板 —— 它們都很近視:
- 看不清細節,毛發、紋理無法分辨;
- 搞不清方位,上下左右容易混淆;
- 分不清語義,相似的文字經常錯配;
- 中文,細粒度理解幾乎處于失明狀態。
因為近視,CLIP 系列模型在搜索、推薦、文生圖等任務里常常力不從心。
今年 4 月,360 推出了第一代 FG-CLIP,給模型裝上了「近視鏡」,初步解決了看不清細節的毛病。而這次的 FG-CLIP 2,相當于直接換上了「顯微鏡」—— 清晰度和理解力暴增。
再看看這張圖。戶外環境復雜、主體很多、還有高度迷惑性的動作。連人看了都要愣一下,這是干嘛呢?
![]()
MetaCLIP 2 非要說是「室內」, SigLIP 2 更離譜,說這是手拉手跳舞,只有 FG-CLIP 2 回答最接近圖片內容,「一個人形機器人在戶外帶領一群老年人做伸展操」。
結果,連 MetaCLIP 2、SigLIP 2 都被整啞火 ——MetaCLIP 2 認成了「室內」,SigLIP 2 更離譜,說是人和機器人「手拉手跳舞」,連地點也沒整明白。
只有 FG-CLIP 2 的回答與內容最為接近:一個人形機器人在戶外帶領一群老年人做伸展操。
這些能力的強大,不是自嗨,而是有數據支撐的。在全球 29 個多模態 Benchmark 測試中,FG-CLIP 2 幾乎實現「滿環」成績 ——29 項第一
不論是圖文匹配、零樣本分類還是跨模態檢索,它都穩定、全面、碾壓。
![]()
「多邊形」 戰士。FG-CLIP 2 不只是「擅長某些場景」,而是在全維度能力上達到 SOTA 水平,真正實現了全方位突破。
在英文任務上,FG-CLIP 2直接拿下了81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。
在中文任務上,它依舊是那個最懂中文語義的模型。不僅超越 Meta 的多語言模型,還穩壓阿里的 Chinese-CLIP,證明自己能真正做到中英雙通、語義統一。
![]()
在英文語言任務上,FG-CLIP 2 以 81.10 分的平均成績 取得了斷崖式領先。與之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 僅取得 64.10 分。
![]()
它在平均成績上超越了支持多國語言的 Meta CLIP 2,并領先阿里達摩院的 Chinese-CLIP 等專注中文優化的模型,證明了其雙語一致性與跨語種泛化能力。
數據、數據、還是數據
實現「像素級理解」的核心,是高質量的數據,是比硅谷更具優勢,更懂語義的圖文樣本。
熟悉跨模態模型的人都知道,模型的「理解力」不是靈光一現,而是從海量圖文對中,一點點學習出來的。
360 正是從這里入手,花了大力氣打造了屬于自己的「數據煉金爐」——FineHARD 數據集,也由此開辟了細粒度大規模數據的新紀元。
這套數據集,不僅規模足夠大,質量也卷到了新高度。FineHARD 的語義一致性、標注精度、局部劃分,突破性的填補了同類 CLIP 模型的數據空白。
為了讓模型在中文世界「游刃有余」,360 選擇了自建數據,僅中文部分就包含高達5 億對圖像與文本
更妙的是,他們還為中文評測補上了長期缺席的一環 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等長描述檢索集,以及 BoxClass-CN 區域分類集,首次實現了對跨模態模型在中文語言環境下的多維度、雙語細粒度能力的全面評估。
在訓練過程中,FG-CLIP 2 充分融合了海量的中英文高質量數據,學習兩種原生語境,讓模型既能「讀懂世界」,也能「看懂中國」。
除此以外,360 在數據結構上動了不少巧思,不只是「多」,而是要「精」。
傳統 CLIP 的文本描述大多很短,像「這是一只貓」—— 告訴模型「有貓」,但沒告訴它「貓在干嘛」。FG-CLIP 2 的數據更加完整,每張圖片都配了兩段描述:
一條短文本,幫模型迅速把握全局;另一條平均 150 個詞的長文本,描繪背景、屬性、動作與空間關系等細節。
于是,模型不再只是認識「貓」,而是能理解 「那只趴在沙發上、瞇著眼的小橘貓」,在數據層面實現了超高的語義密度。
更進一步,團隊還引入了開放世界目標檢測(OVD)機制,把每張圖片都分解成多個目標區域,并為每個區域生成精準的描述。
最終,整個 FineHARD 數據集最終包含4000 萬個目標框及其對應的細粒度描述,模型由此學會了在像素級層面「看世界」。
![]()
數據集中包含的長文本、短文本、區域描述示意
當然,要讓模型真正有「辨別力」,光知道什么是對的還不夠 —— 還得知道什么是錯的。
于是,360 又加了一道「狠料」:1000 萬組細粒度難負樣本
這些樣本乍看幾乎一模一樣,只在細節處藏著陷阱:項圈的顏色、服裝的材質、動作的微妙變化。模型若不夠尖銳,就會立刻被迷惑。就像之前展示的圖像中「伸展操」和「跳舞」的微小區別一樣,足以讓一般的模型看走眼。
正是這些干擾項,逼著模型不斷打磨語義判斷力,學會在文本圖像的統一空間中遠離錯誤匹配。在復雜場景和相似描述下,也能精準鎖定。
![]()
細粒度難負樣本數據示意
火中淬煉,修得「火眼金睛」
數據集的進化只是序章。要練就像素級的「火眼金睛」,訓練方法也得升級。
360 在多模態領域早已是久經沙場的老將,曾發布過開放世界目標檢測的 LMM-Det,多模態大模型 360VL 等高質量代表作。
這次,他們把多年積累的經驗融會貫通,凝成讓模型脫胎換骨的「修煉秘籍」——兩階段訓練策略 + 五維協同優化體系,讓模型經歷一次徹底的蛻變。
修煉的第一步,是「筑基」。模型要先對世界有「全局感知」, 才能在此基礎上識別細節。
在這一階段,FG-CLIP 2 采用與 CLIP 類似的整體語義配對方式,先讓模型學會理解圖像的大致含義。
但不同的是,FG-CLIP 2 沒有停留在 CLIP 的「入門階段」,而是充分利用訓練數據的優勢,融入更豐富的語義細節,為模型打下了堅實的「世界觀地基」,為后來的像素級學習鋪平了路。
![]()
CLIP 系列模型對齊訓練示意圖
「筑基」完畢,便是「煉體」。這一階段,模型不再停留于整體配對,而是開始聚焦局部,精修細節。
FG-CLIP 2 拋棄了傳統的整體對齊策略,轉而采用全新的訓練策略:圖像局部信息與文本局部信息對齊
于是,當它看到「貓咪對視」時,不僅知道貓咪品種,還能準確判斷毛發細節、位置關系、甚至是屏幕里的虛擬空間。
模型的視覺能力,也從「識物」進化到「識微」,從模糊的大視野變成了像素級顯微鏡。
![]()
FG-CLIP 2 的兩階段訓練
而讓 FG-CLIP 2 最終成型的,是五維協同的優化體系。
傳統模型往往只對齊圖像和文本的整體特征,而 FG-CLIP 2 則在訓練目標函數上,同時在五個維度發力 —— 全局對齊、細粒度視覺、細粒度文本、跨模態排序、文本對比學習。
當五條「經脈」同時被打通,模型在對齊精度、語義分辨率、抗干擾性上就有了全面覺醒。
除了訓練策略革新,FG-CLIP 2 在視覺處理上也動了巧心思。
他們獨創了數據自適應分辨率策略:能根據每批圖像的最大尺寸自動選擇最佳分辨率,既避免了隨機縮放帶來的變形,又提高了效率。
看似小改動,卻帶來了大提升。
看得清,更要用得 6:從基石到行業新支點
如果說 FG-CLIP 2 的誕生,讓 AI 第一次擁有了像素級的火眼金睛。那么,它更深遠的意義,不只是「看得清」,而是真正被用起來。
如今,FG-CLIP 2 已在 360 的多項業務中落地。如廣告配圖、IoT 攝像機智能檢索、信息流圖像搜索、云盤圖片識別,成為這些業務場景的智能底座。
更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面開放,面向開發者與企業用戶,希望這份跨模態理解力,能成為千行百業智能化升級的底層引擎。
在圖文檢索中,FG-CLIP 2 能真正做到「以文搜圖」。輸入 「穿紅裙、手拿咖啡的女性」,它就能精準鎖定對應圖像。這一能力在電商、安防、媒體內容管理中極具價值。相比傳統 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉細節、召回更準、結果更穩。
在 AIGC 內容生成中,它則是生成模型的「細節監督官」,確保畫面在品牌元素、顏色、布局等關鍵維度與提示語一致,讓 AI 生成的內容更精準、可靠。
在內容審核和安防監控領域,它能理解圖像局部語義,識別人物、符號或敏感元素,實現「用語言搜視頻」的自然檢索,大幅提升效率與準確性。
而在具身智能領域,機器人能 get 物體狀態與空間關系,依循命令「拿起餐桌上的紅色水杯」,「把玩具放進綠色收納箱」。
厚積成峰,360「棋局」初成
未來的智能競爭,不在于誰的應用更炫,而在于誰能構建出統一、強大的 自主 AI 核心能力。作為一家以安全著稱,擁有豐富產品生態的科技企業,360 早已布好棋局,掌控關鍵落子。
360 人工智能研究院在多模態概念尚未普及之前,就開始投入視覺 — 語言理解方向的研究。他們以「讓 AI 看清世界、理解世界、再創造世界」為目標,構建了由三個階段組成的多模態技術體系:視覺 AIGC、多模態大模型和開放世界目標檢測(OVD)。
其中,CLIP 系列模型是整個體系的基石,負責實現視覺與語言的語義對齊。LMM-Det 和 360VL 聚焦于視覺感知與高層語義理解。而 SEEChat、PlanGen 和 HiCo 則將底層能力封裝為多模態交互、生成與知識增強功能,形成了可復用、可擴展的多模態技術鏈條。
與此同時,研究團隊也持續保持較高的科研產出。過去三年中,多篇論文被 ICLR、NeurIPS、ICML、ICCV 等國際頂級學術會議接收,逐步形成了從基礎研究到應用落地的完整技術閉環。
可以說,FG-CLIP 2 已不僅是一項模型成果,更代表著中國團隊在多模態基礎研究上的一次系統性探索。未來,隨著視覺與語言理解技術的融合深化,這樣的底層能力或將成為通用智能的重要支點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.