<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      中英雙語、29項第一:360 FG-CLIP2登頂全球最強圖文跨模態模型

      0
      分享至



      機器之心原創

      編輯:吳昕、冷貓

      這年頭,AI 創造的視覺世界真是炫酷至極。但真要跟細節較真兒,這些大模型的「眼力見兒」可就讓人難繃了。

      比如,我讓它畫「一只穿紅外套的貓,站在一輛藍色跑車左邊,藍色跑車后面是一輛白色 SUV。」



      抽卡兩次,全翻車。模型似乎還沒整明白,「后面」到底是個什么空間關系。

      換個路子去搜圖:「一輛紅色的特斯拉,引擎蓋上很多鳥糞」。兩排圖翻下來,真正對得上的只有一張。



      無論是淘一件女明星帶火的「藍色中式繭形設計棉服」,還是「大話西游里的周星馳,手拿緊箍咒」,結果嘛 ,都不讓人省心。



      好消息是,這毛病終于要被整治了。

      就在我還在吐槽它「看個大概、看不清細節」的時候,360 那邊又放了個大招FG-CLIP 2

      它就像是給 AI 裝了一臺顯微鏡,看圖精確到像素級。毛發、斑點、色彩、表情、位置,全都看得清。

      在八大類任務、29 項測試中,FG-CLIP 2 全面超越 Google 與 Meta, 一躍成為目前最強的圖文跨模態 VLM 模型

      而且,中英文都玩得 6,真正的:全球最強,又最懂我們。更讓人拍手稱快的是,360 已經將它開源了!(搓搓小手)



      • Github:
      • https://github.com/360CVGroup/FG-CLIP
      • 論文:
      • https://arxiv.org/abs/2510.10921
      • 項目主頁:
      • https://360cvgroup.github.io/FG-CLIP/

      「明察秋毫」,拿了 29 項第一

      我們來看下面這張圖。你腦海里蹦出的第一個詞是什么?

      大概率是「貓在看屏幕」,或者更具體點 「一只貓看著一只屏幕里的貓」。

      很好,你一下敏銳捕捉到了畫面中最核心的信息,也就是一只貓在屏幕里。



      FG-CLIP 2 貓咪圖像標簽匹配結果示意。「一只貍花貓和屏幕中的英短相互對視」的結果置信度 88%。

      但對于傳統 CLIP 模型來說,從一張僅有二維平面信息的圖像中識別屏幕內的信息,恐怕已經超出了理解能力的上限 ——

      它們只能認出貓和基本動作,卻完全搞不清它們的細節,尤其是屏幕里的那只。

      而 FG-CLIP 2 不僅能準確理解空間關系,還通過毛發紋理的細節特征,精準區分出貓的品種:一只是貍花貓,另一只是屏幕里的英短貓。

      這樣識微入毫能力,可不是憑空煉成的。

      其實早在 2021 年,OpenAI 靠一篇 48 頁的論文打造出多模態領域的開山之作 CLIP——

      它第一次讓機器學會了「圖文配對」,在同一個語義空間里理解世界,從此打開了視覺智能的大門。

      此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撐起圖文理解模型的「天花板」。

      但說實話,即便再強,這些傳統 CLIP 模型依然有一個致命短板 —— 它們都很近視:

      • 看不清細節,毛發、紋理無法分辨;
      • 搞不清方位,上下左右容易混淆;
      • 分不清語義,相似的文字經常錯配;
      • 中文,細粒度理解幾乎處于失明狀態。

      因為近視,CLIP 系列模型在搜索、推薦、文生圖等任務里常常力不從心。

      今年 4 月,360 推出了第一代 FG-CLIP,給模型裝上了「近視鏡」,初步解決了看不清細節的毛病。而這次的 FG-CLIP 2,相當于直接換上了「顯微鏡」—— 清晰度和理解力暴增。

      再看看這張圖。戶外環境復雜、主體很多、還有高度迷惑性的動作。連人看了都要愣一下,這是干嘛呢?



      MetaCLIP 2 非要說是「室內」, SigLIP 2 更離譜,說這是手拉手跳舞,只有 FG-CLIP 2 回答最接近圖片內容,「一個人形機器人在戶外帶領一群老年人做伸展操」。

      結果,連 MetaCLIP 2、SigLIP 2 都被整啞火 ——MetaCLIP 2 認成了「室內」,SigLIP 2 更離譜,說是人和機器人「手拉手跳舞」,連地點也沒整明白。

      只有 FG-CLIP 2 的回答與內容最為接近:一個人形機器人在戶外帶領一群老年人做伸展操。

      這些能力的強大,不是自嗨,而是有數據支撐的。在全球 29 個多模態 Benchmark 測試中,FG-CLIP 2 幾乎實現「滿環」成績 ——29 項第一

      不論是圖文匹配、零樣本分類還是跨模態檢索,它都穩定、全面、碾壓。



      「多邊形」 戰士。FG-CLIP 2 不只是「擅長某些場景」,而是在全維度能力上達到 SOTA 水平,真正實現了全方位突破。

      在英文任務上,FG-CLIP 2直接拿下了81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

      在中文任務上,它依舊是那個最懂中文語義的模型。不僅超越 Meta 的多語言模型,還穩壓阿里的 Chinese-CLIP,證明自己能真正做到中英雙通、語義統一。



      在英文語言任務上,FG-CLIP 2 以 81.10 分的平均成績 取得了斷崖式領先。與之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 僅取得 64.10 分。



      它在平均成績上超越了支持多國語言的 Meta CLIP 2,并領先阿里達摩院的 Chinese-CLIP 等專注中文優化的模型,證明了其雙語一致性與跨語種泛化能力。

      數據、數據、還是數據

      實現「像素級理解」的核心,是高質量的數據,是比硅谷更具優勢,更懂語義的圖文樣本。

      熟悉跨模態模型的人都知道,模型的「理解力」不是靈光一現,而是從海量圖文對中,一點點學習出來的。

      360 正是從這里入手,花了大力氣打造了屬于自己的「數據煉金爐」——FineHARD 數據集,也由此開辟了細粒度大規模數據的新紀元。

      這套數據集,不僅規模足夠大,質量也卷到了新高度。FineHARD 的語義一致性、標注精度、局部劃分,突破性的填補了同類 CLIP 模型的數據空白。

      為了讓模型在中文世界「游刃有余」,360 選擇了自建數據,僅中文部分就包含高達5 億對圖像與文本

      更妙的是,他們還為中文評測補上了長期缺席的一環 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等長描述檢索集,以及 BoxClass-CN 區域分類集,首次實現了對跨模態模型在中文語言環境下的多維度、雙語細粒度能力的全面評估。

      在訓練過程中,FG-CLIP 2 充分融合了海量的中英文高質量數據,學習兩種原生語境,讓模型既能「讀懂世界」,也能「看懂中國」。

      除此以外,360 在數據結構上動了不少巧思,不只是「多」,而是要「精」。

      傳統 CLIP 的文本描述大多很短,像「這是一只貓」—— 告訴模型「有貓」,但沒告訴它「貓在干嘛」。FG-CLIP 2 的數據更加完整,每張圖片都配了兩段描述:

      一條短文本,幫模型迅速把握全局;另一條平均 150 個詞的長文本,描繪背景、屬性、動作與空間關系等細節。

      于是,模型不再只是認識「貓」,而是能理解 「那只趴在沙發上、瞇著眼的小橘貓」,在數據層面實現了超高的語義密度。

      更進一步,團隊還引入了開放世界目標檢測(OVD)機制,把每張圖片都分解成多個目標區域,并為每個區域生成精準的描述。

      最終,整個 FineHARD 數據集最終包含4000 萬個目標框及其對應的細粒度描述,模型由此學會了在像素級層面「看世界」。



      數據集中包含的長文本、短文本、區域描述示意

      當然,要讓模型真正有「辨別力」,光知道什么是對的還不夠 —— 還得知道什么是錯的。

      于是,360 又加了一道「狠料」:1000 萬組細粒度難負樣本

      這些樣本乍看幾乎一模一樣,只在細節處藏著陷阱:項圈的顏色、服裝的材質、動作的微妙變化。模型若不夠尖銳,就會立刻被迷惑。就像之前展示的圖像中「伸展操」和「跳舞」的微小區別一樣,足以讓一般的模型看走眼。

      正是這些干擾項,逼著模型不斷打磨語義判斷力,學會在文本圖像的統一空間中遠離錯誤匹配。在復雜場景和相似描述下,也能精準鎖定。



      細粒度難負樣本數據示意

      火中淬煉,修得「火眼金睛」

      數據集的進化只是序章。要練就像素級的「火眼金睛」,訓練方法也得升級。

      360 在多模態領域早已是久經沙場的老將,曾發布過開放世界目標檢測的 LMM-Det,多模態大模型 360VL 等高質量代表作。

      這次,他們把多年積累的經驗融會貫通,凝成讓模型脫胎換骨的「修煉秘籍」——兩階段訓練策略 + 五維協同優化體系,讓模型經歷一次徹底的蛻變。

      修煉的第一步,是「筑基」。模型要先對世界有「全局感知」, 才能在此基礎上識別細節。

      在這一階段,FG-CLIP 2 采用與 CLIP 類似的整體語義配對方式,先讓模型學會理解圖像的大致含義。

      但不同的是,FG-CLIP 2 沒有停留在 CLIP 的「入門階段」,而是充分利用訓練數據的優勢,融入更豐富的語義細節,為模型打下了堅實的「世界觀地基」,為后來的像素級學習鋪平了路。



      CLIP 系列模型對齊訓練示意圖

      「筑基」完畢,便是「煉體」。這一階段,模型不再停留于整體配對,而是開始聚焦局部,精修細節。

      FG-CLIP 2 拋棄了傳統的整體對齊策略,轉而采用全新的訓練策略:圖像局部信息與文本局部信息對齊

      于是,當它看到「貓咪對視」時,不僅知道貓咪品種,還能準確判斷毛發細節、位置關系、甚至是屏幕里的虛擬空間。

      模型的視覺能力,也從「識物」進化到「識微」,從模糊的大視野變成了像素級顯微鏡。



      FG-CLIP 2 的兩階段訓練

      而讓 FG-CLIP 2 最終成型的,是五維協同的優化體系。

      傳統模型往往只對齊圖像和文本的整體特征,而 FG-CLIP 2 則在訓練目標函數上,同時在五個維度發力 —— 全局對齊、細粒度視覺、細粒度文本、跨模態排序、文本對比學習。

      當五條「經脈」同時被打通,模型在對齊精度、語義分辨率、抗干擾性上就有了全面覺醒。

      除了訓練策略革新,FG-CLIP 2 在視覺處理上也動了巧心思。

      他們獨創了數據自適應分辨率策略:能根據每批圖像的最大尺寸自動選擇最佳分辨率,既避免了隨機縮放帶來的變形,又提高了效率。

      看似小改動,卻帶來了大提升。

      看得清,更要用得 6:從基石到行業新支點

      如果說 FG-CLIP 2 的誕生,讓 AI 第一次擁有了像素級的火眼金睛。那么,它更深遠的意義,不只是「看得清」,而是真正被用起來。

      如今,FG-CLIP 2 已在 360 的多項業務中落地。如廣告配圖、IoT 攝像機智能檢索、信息流圖像搜索、云盤圖片識別,成為這些業務場景的智能底座。

      更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面開放,面向開發者與企業用戶,希望這份跨模態理解力,能成為千行百業智能化升級的底層引擎。

      在圖文檢索中,FG-CLIP 2 能真正做到「以文搜圖」。輸入 「穿紅裙、手拿咖啡的女性」,它就能精準鎖定對應圖像。這一能力在電商、安防、媒體內容管理中極具價值。相比傳統 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉細節、召回更準、結果更穩。

      在 AIGC 內容生成中,它則是生成模型的「細節監督官」,確保畫面在品牌元素、顏色、布局等關鍵維度與提示語一致,讓 AI 生成的內容更精準、可靠。

      在內容審核和安防監控領域,它能理解圖像局部語義,識別人物、符號或敏感元素,實現「用語言搜視頻」的自然檢索,大幅提升效率與準確性。

      而在具身智能領域,機器人能 get 物體狀態與空間關系,依循命令「拿起餐桌上的紅色水杯」,「把玩具放進綠色收納箱」。

      厚積成峰,360「棋局」初成

      未來的智能競爭,不在于誰的應用更炫,而在于誰能構建出統一、強大的 自主 AI 核心能力。作為一家以安全著稱,擁有豐富產品生態的科技企業,360 早已布好棋局,掌控關鍵落子。

      360 人工智能研究院在多模態概念尚未普及之前,就開始投入視覺 — 語言理解方向的研究。他們以「讓 AI 看清世界、理解世界、再創造世界」為目標,構建了由三個階段組成的多模態技術體系:視覺 AIGC、多模態大模型和開放世界目標檢測(OVD)。

      其中,CLIP 系列模型是整個體系的基石,負責實現視覺與語言的語義對齊。LMM-Det 和 360VL 聚焦于視覺感知與高層語義理解。而 SEEChat、PlanGen 和 HiCo 則將底層能力封裝為多模態交互、生成與知識增強功能,形成了可復用、可擴展的多模態技術鏈條。

      與此同時,研究團隊也持續保持較高的科研產出。過去三年中,多篇論文被 ICLR、NeurIPS、ICML、ICCV 等國際頂級學術會議接收,逐步形成了從基礎研究到應用落地的完整技術閉環。

      可以說,FG-CLIP 2 已不僅是一項模型成果,更代表著中國團隊在多模態基礎研究上的一次系統性探索。未來,隨著視覺與語言理解技術的融合深化,這樣的底層能力或將成為通用智能的重要支點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      再見,皇馬!1.5億“帝星”正式決定離隊!8000萬歐中衛“空降”

      再見,皇馬!1.5億“帝星”正式決定離隊!8000萬歐中衛“空降”

      頭狼追球
      2025-11-06 09:01:52
      大媽花50萬買基金,賬號忘了15年,孫子找回看到余額,全家愣住了

      大媽花50萬買基金,賬號忘了15年,孫子找回看到余額,全家愣住了

      黃家湖的憂傷
      2025-08-12 17:05:12
      場均40分11板9助,NBA歷史首人!要這么打,本賽季MVP懸念不大了

      場均40分11板9助,NBA歷史首人!要這么打,本賽季MVP懸念不大了

      老梁體育漫談
      2025-11-07 00:53:50
      震撼!美國貨機滿載14.4萬升燃油墜毀,巨大火球遮天蔽日,宛如核爆…

      震撼!美國貨機滿載14.4萬升燃油墜毀,巨大火球遮天蔽日,宛如核爆…

      英國那些事兒
      2025-11-06 23:04:38
      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      久功不克俄羅斯連撤兩員大將!西爾斯基:紅軍城守住了

      史政先鋒
      2025-11-03 11:54:13
      東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

      東風就緒!神舟二十號3人乘組準備回家,神二十二1人將飛行超1年

      古事尋蹤記
      2025-11-06 10:11:15
      反轉來了!美高院三人倒戈,貝森特攤牌:沒了關稅整個國家會陪葬

      反轉來了!美高院三人倒戈,貝森特攤牌:沒了關稅整個國家會陪葬

      軍機Talk
      2025-11-06 11:44:45
      四川廣元辟謠“某餐飲店老板患艾滋病仍經營”:該店14名從業人員均未感染HIV

      四川廣元辟謠“某餐飲店老板患艾滋病仍經營”:該店14名從業人員均未感染HIV

      極目新聞
      2025-11-06 17:57:10
      震驚:歐冠最佳射手不是姆巴佩哈蘭德和凱恩,居然是他

      震驚:歐冠最佳射手不是姆巴佩哈蘭德和凱恩,居然是他

      姜大叔侃球
      2025-11-06 19:40:35
      免稅店政策“上新” 一組海報帶你劃重點

      免稅店政策“上新” 一組海報帶你劃重點

      人民網
      2025-11-06 11:26:23
      150億造了個“門”?珠海超級項目爛尾,網友:史上最牛大門!

      150億造了個“門”?珠海超級項目爛尾,網友:史上最牛大門!

      GA環球建筑
      2025-11-06 15:56:04
      太空碎片威脅升級,神舟二十號飛船遭撞擊,專家:不排除形成災難

      太空碎片威脅升級,神舟二十號飛船遭撞擊,專家:不排除形成災難

      一個有靈魂的作者
      2025-11-06 09:00:47
      國務院批復同意《成渝地區雙城經濟圈國土空間規劃(2021—2035年)》

      國務院批復同意《成渝地區雙城經濟圈國土空間規劃(2021—2035年)》

      界面新聞
      2025-11-06 17:07:54
      張韶涵演唱會疑拉稀!裙子有黃色污漬,前排聞臭味,助理攙扶離場

      張韶涵演唱會疑拉稀!裙子有黃色污漬,前排聞臭味,助理攙扶離場

      八星人
      2025-11-06 11:51:17
      副院長出軌眼科主任后續!女方長得很漂亮,衛健委通報:基本屬實

      副院長出軌眼科主任后續!女方長得很漂亮,衛健委通報:基本屬實

      奇思妙想草葉君
      2025-11-06 17:20:01
      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      98年他花5萬買下上海弄堂破閣樓,鄰居都笑他癡,20年后全都閉嘴了

      溫情郵局
      2025-10-21 11:41:22
      俄外長拉夫羅夫缺席俄羅斯內部會議,成為美俄峰會失敗的罪魁禍首

      俄外長拉夫羅夫缺席俄羅斯內部會議,成為美俄峰會失敗的罪魁禍首

      山河路口
      2025-11-06 23:02:10
      X上最近很火的高跟鞋鉤住絲襪,不出意外又被玩壞了

      X上最近很火的高跟鞋鉤住絲襪,不出意外又被玩壞了

      BB姬
      2025-11-06 23:24:20
      隨著陳芋汐奪冠,全紅嬋第5!誕生了兩個不可思議和三個不爭事實

      隨著陳芋汐奪冠,全紅嬋第5!誕生了兩個不可思議和三個不爭事實

      凡人說體育
      2025-11-06 20:17:26
      茍如虎跨省履新上海市楊浦區副區長

      茍如虎跨省履新上海市楊浦區副區長

      魯中晨報
      2025-11-06 07:11:04
      2025-11-07 04:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11665文章數 142499關注度
      往期回顧 全部

      科技要聞

      小鵬機器人里藏真人?何小鵬發一鏡到底視頻

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      頭條要聞

      美參議員提議:政府不“開門”國會議員就停薪

      體育要聞

      送走兩位全明星,公牛成了東部第一

      娛樂要聞

      “黑料纏身”的白百何 誰給她的勇氣?

      財經要聞

      南銀法巴加速發展背后:資金饑渴癥待解

      汽車要聞

      是我眼花了么?怎么大猩猩都來參加新車發布了?

      態度原創

      藝術
      親子
      旅游
      公開課
      軍事航空

      藝術要聞

      驚人!一幅畫拍出3.45億,竟然他早已去世62年!真相令人震驚!

      親子要聞

      讓寶寶少咳嗽、讓孩子晚近視、為罕見病早行動 進博展商交出兒童健康民生答卷

      旅游要聞

      11月6日最佳情報|濟南郎茂山日出美如畫,三媳婦山奇峰峻美!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國發射洲際彈道導彈 俄方回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产香蕉尹人综合在线观看| 亚洲精品色国语对白在线| 久久国产自拍一区二区三区| 麻豆精品久久久久久久99蜜桃| 国产精品大全中文字幕| 老鸭窝在线视频| 妖精视频yjsp毛片永久| 97久久综合亚洲色hezyo| 国产高清精品在线91| 米奇影院888奇米色99在线| 樱花草视频www日本韩国| 国产一区二区三区在线观| 久久精品国产只有精品96| 日韩精品久久久肉伦网站| 99精品国产一区二区三区| 日韩av裸体在线播放| 成在人线av无码免费| 亚洲av日韩av永久无码电影| 国产福利精品一区二区| 国产午夜亚洲精品福利| 亚洲欧美日韩成人综合一区| 荔浦县| 国产自产一区二区三区视频| 国产精品普通话国语对白露脸| 中文字幕亚洲国产精品| 人妻熟女一二三区夜夜爱| 色婷婷亚洲精品综合影院| 欧美丰满熟妇xxxx性| 国产伊人网视频在线观看| 人人爽亚洲aⅴ人人爽av人人片| 久久人人97超碰精品| 日本一卡2卡3卡四卡精品网站 | 亚洲国产成人资源在线| 黑人大战中国av女叫惨了| 亚洲熟女精品一区二区| 综合偷自拍亚洲乱中文字幕| 大姚县| 99热门精品一区二区三区无码| 中文字幕亚洲高清在线一区| 99久久精品久久久久久婷婷 | 广水市|