<blockquote id="ue9b1"></blockquote>
    
    

    <style id="ue9b1"></style>
      <sub id="ue9b1"><p id="ue9b1"><form id="ue9b1"></form></p></sub>

      <strong id="ue9b1"><button id="ue9b1"><mark id="ue9b1"></mark></button></strong>
      成年午夜性影院,下面一进一出好爽视频,国产无遮挡又黄又爽又色,国产精品爽爽v在线观看无码,国产人妻久久精品一区二区三区,国产伦精品一区二区三区免费迷,国产欧美精品一区二区三区,日韩精品一区二区三区视频
      網易首頁 > 網易號 > 正文 申請入駐

      中英雙語、29項第一:360 FG-CLIP2登頂全球最強圖文跨模態模型

      0
      分享至



      機器之心原創

      編輯:吳昕、冷貓

      這年頭,AI 創造的視覺世界真是炫酷至極。但真要跟細節較真兒,這些大模型的「眼力見兒」可就讓人難繃了。

      比如,我讓它畫「一只穿紅外套的貓,站在一輛藍色跑車左邊,藍色跑車后面是一輛白色 SUV。」



      抽卡兩次,全翻車。模型似乎還沒整明白,「后面」到底是個什么空間關系。

      換個路子去搜圖:「一輛紅色的特斯拉,引擎蓋上很多鳥糞」。兩排圖翻下來,真正對得上的只有一張。



      無論是淘一件女明星帶火的「藍色中式繭形設計棉服」,還是「大話西游里的周星馳,手拿緊箍咒」,結果嘛 ,都不讓人省心。



      好消息是,這毛病終于要被整治了。

      就在我還在吐槽它「看個大概、看不清細節」的時候,360 那邊又放了個大招FG-CLIP 2

      它就像是給 AI 裝了一臺顯微鏡,看圖精確到像素級。毛發、斑點、色彩、表情、位置,全都看得清。

      在八大類任務、29 項測試中,FG-CLIP 2 全面超越 Google 與 Meta, 一躍成為目前最強的圖文跨模態 VLM 模型

      而且,中英文都玩得 6,真正的:全球最強,又最懂我們。更讓人拍手稱快的是,360 已經將它開源了!(搓搓小手)



      • Github:
      • https://github.com/360CVGroup/FG-CLIP
      • 論文:
      • https://arxiv.org/abs/2510.10921
      • 項目主頁:
      • https://360cvgroup.github.io/FG-CLIP/

      「明察秋毫」,拿了 29 項第一

      我們來看下面這張圖。你腦海里蹦出的第一個詞是什么?

      大概率是「貓在看屏幕」,或者更具體點 「一只貓看著一只屏幕里的貓」。

      很好,你一下敏銳捕捉到了畫面中最核心的信息,也就是一只貓在屏幕里。



      FG-CLIP 2 貓咪圖像標簽匹配結果示意。「一只貍花貓和屏幕中的英短相互對視」的結果置信度 88%。

      但對于傳統 CLIP 模型來說,從一張僅有二維平面信息的圖像中識別屏幕內的信息,恐怕已經超出了理解能力的上限 ——

      它們只能認出貓和基本動作,卻完全搞不清它們的細節,尤其是屏幕里的那只。

      而 FG-CLIP 2 不僅能準確理解空間關系,還通過毛發紋理的細節特征,精準區分出貓的品種:一只是貍花貓,另一只是屏幕里的英短貓。

      這樣識微入毫能力,可不是憑空煉成的。

      其實早在 2021 年,OpenAI 靠一篇 48 頁的論文打造出多模態領域的開山之作 CLIP——

      它第一次讓機器學會了「圖文配對」,在同一個語義空間里理解世界,從此打開了視覺智能的大門。

      此后,Google 推出 SigLIP,Meta 推出 MetaCLIP,一度撐起圖文理解模型的「天花板」。

      但說實話,即便再強,這些傳統 CLIP 模型依然有一個致命短板 —— 它們都很近視:

      • 看不清細節,毛發、紋理無法分辨;
      • 搞不清方位,上下左右容易混淆;
      • 分不清語義,相似的文字經常錯配;
      • 中文,細粒度理解幾乎處于失明狀態。

      因為近視,CLIP 系列模型在搜索、推薦、文生圖等任務里常常力不從心。

      今年 4 月,360 推出了第一代 FG-CLIP,給模型裝上了「近視鏡」,初步解決了看不清細節的毛病。而這次的 FG-CLIP 2,相當于直接換上了「顯微鏡」—— 清晰度和理解力暴增。

      再看看這張圖。戶外環境復雜、主體很多、還有高度迷惑性的動作。連人看了都要愣一下,這是干嘛呢?



      MetaCLIP 2 非要說是「室內」, SigLIP 2 更離譜,說這是手拉手跳舞,只有 FG-CLIP 2 回答最接近圖片內容,「一個人形機器人在戶外帶領一群老年人做伸展操」。

      結果,連 MetaCLIP 2、SigLIP 2 都被整啞火 ——MetaCLIP 2 認成了「室內」,SigLIP 2 更離譜,說是人和機器人「手拉手跳舞」,連地點也沒整明白。

      只有 FG-CLIP 2 的回答與內容最為接近:一個人形機器人在戶外帶領一群老年人做伸展操。

      這些能力的強大,不是自嗨,而是有數據支撐的。在全球 29 個多模態 Benchmark 測試中,FG-CLIP 2 幾乎實現「滿環」成績 ——29 項第一

      不論是圖文匹配、零樣本分類還是跨模態檢索,它都穩定、全面、碾壓。



      「多邊形」 戰士。FG-CLIP 2 不只是「擅長某些場景」,而是在全維度能力上達到 SOTA 水平,真正實現了全方位突破。

      在英文任務上,FG-CLIP 2直接拿下了81.10 的平均分,比 Meta CLIP 2 的 72.71、Google SigLIP 2 的 71.87、OpenAI CLIP 的 64.10 都高出一大截。

      在中文任務上,它依舊是那個最懂中文語義的模型。不僅超越 Meta 的多語言模型,還穩壓阿里的 Chinese-CLIP,證明自己能真正做到中英雙通、語義統一。



      在英文語言任務上,FG-CLIP 2 以 81.10 分的平均成績 取得了斷崖式領先。與之相比,Meta CLIP 2 取得了 72.71 分,Google SigLip 2 取得了 71.87 分,而 OpenAI CLIP 僅取得 64.10 分。



      它在平均成績上超越了支持多國語言的 Meta CLIP 2,并領先阿里達摩院的 Chinese-CLIP 等專注中文優化的模型,證明了其雙語一致性與跨語種泛化能力。

      數據、數據、還是數據

      實現「像素級理解」的核心,是高質量的數據,是比硅谷更具優勢,更懂語義的圖文樣本。

      熟悉跨模態模型的人都知道,模型的「理解力」不是靈光一現,而是從海量圖文對中,一點點學習出來的。

      360 正是從這里入手,花了大力氣打造了屬于自己的「數據煉金爐」——FineHARD 數據集,也由此開辟了細粒度大規模數據的新紀元。

      這套數據集,不僅規模足夠大,質量也卷到了新高度。FineHARD 的語義一致性、標注精度、局部劃分,突破性的填補了同類 CLIP 模型的數據空白。

      為了讓模型在中文世界「游刃有余」,360 選擇了自建數據,僅中文部分就包含高達5 億對圖像與文本

      更妙的是,他們還為中文評測補上了長期缺席的一環 —— 自建了 LIT-CN、DCI-CN、DOCCI-CN 等長描述檢索集,以及 BoxClass-CN 區域分類集,首次實現了對跨模態模型在中文語言環境下的多維度、雙語細粒度能力的全面評估。

      在訓練過程中,FG-CLIP 2 充分融合了海量的中英文高質量數據,學習兩種原生語境,讓模型既能「讀懂世界」,也能「看懂中國」。

      除此以外,360 在數據結構上動了不少巧思,不只是「多」,而是要「精」。

      傳統 CLIP 的文本描述大多很短,像「這是一只貓」—— 告訴模型「有貓」,但沒告訴它「貓在干嘛」。FG-CLIP 2 的數據更加完整,每張圖片都配了兩段描述:

      一條短文本,幫模型迅速把握全局;另一條平均 150 個詞的長文本,描繪背景、屬性、動作與空間關系等細節。

      于是,模型不再只是認識「貓」,而是能理解 「那只趴在沙發上、瞇著眼的小橘貓」,在數據層面實現了超高的語義密度。

      更進一步,團隊還引入了開放世界目標檢測(OVD)機制,把每張圖片都分解成多個目標區域,并為每個區域生成精準的描述。

      最終,整個 FineHARD 數據集最終包含4000 萬個目標框及其對應的細粒度描述,模型由此學會了在像素級層面「看世界」。



      數據集中包含的長文本、短文本、區域描述示意

      當然,要讓模型真正有「辨別力」,光知道什么是對的還不夠 —— 還得知道什么是錯的。

      于是,360 又加了一道「狠料」:1000 萬組細粒度難負樣本

      這些樣本乍看幾乎一模一樣,只在細節處藏著陷阱:項圈的顏色、服裝的材質、動作的微妙變化。模型若不夠尖銳,就會立刻被迷惑。就像之前展示的圖像中「伸展操」和「跳舞」的微小區別一樣,足以讓一般的模型看走眼。

      正是這些干擾項,逼著模型不斷打磨語義判斷力,學會在文本圖像的統一空間中遠離錯誤匹配。在復雜場景和相似描述下,也能精準鎖定。



      細粒度難負樣本數據示意

      火中淬煉,修得「火眼金睛」

      數據集的進化只是序章。要練就像素級的「火眼金睛」,訓練方法也得升級。

      360 在多模態領域早已是久經沙場的老將,曾發布過開放世界目標檢測的 LMM-Det,多模態大模型 360VL 等高質量代表作。

      這次,他們把多年積累的經驗融會貫通,凝成讓模型脫胎換骨的「修煉秘籍」——兩階段訓練策略 + 五維協同優化體系,讓模型經歷一次徹底的蛻變。

      修煉的第一步,是「筑基」。模型要先對世界有「全局感知」, 才能在此基礎上識別細節。

      在這一階段,FG-CLIP 2 采用與 CLIP 類似的整體語義配對方式,先讓模型學會理解圖像的大致含義。

      但不同的是,FG-CLIP 2 沒有停留在 CLIP 的「入門階段」,而是充分利用訓練數據的優勢,融入更豐富的語義細節,為模型打下了堅實的「世界觀地基」,為后來的像素級學習鋪平了路。



      CLIP 系列模型對齊訓練示意圖

      「筑基」完畢,便是「煉體」。這一階段,模型不再停留于整體配對,而是開始聚焦局部,精修細節。

      FG-CLIP 2 拋棄了傳統的整體對齊策略,轉而采用全新的訓練策略:圖像局部信息與文本局部信息對齊

      于是,當它看到「貓咪對視」時,不僅知道貓咪品種,還能準確判斷毛發細節、位置關系、甚至是屏幕里的虛擬空間。

      模型的視覺能力,也從「識物」進化到「識微」,從模糊的大視野變成了像素級顯微鏡。



      FG-CLIP 2 的兩階段訓練

      而讓 FG-CLIP 2 最終成型的,是五維協同的優化體系。

      傳統模型往往只對齊圖像和文本的整體特征,而 FG-CLIP 2 則在訓練目標函數上,同時在五個維度發力 —— 全局對齊、細粒度視覺、細粒度文本、跨模態排序、文本對比學習。

      當五條「經脈」同時被打通,模型在對齊精度、語義分辨率、抗干擾性上就有了全面覺醒。

      除了訓練策略革新,FG-CLIP 2 在視覺處理上也動了巧心思。

      他們獨創了數據自適應分辨率策略:能根據每批圖像的最大尺寸自動選擇最佳分辨率,既避免了隨機縮放帶來的變形,又提高了效率。

      看似小改動,卻帶來了大提升。

      看得清,更要用得 6:從基石到行業新支點

      如果說 FG-CLIP 2 的誕生,讓 AI 第一次擁有了像素級的火眼金睛。那么,它更深遠的意義,不只是「看得清」,而是真正被用起來。

      如今,FG-CLIP 2 已在 360 的多項業務中落地。如廣告配圖、IoT 攝像機智能檢索、信息流圖像搜索、云盤圖片識別,成為這些業務場景的智能底座。

      更重要的是,FG-CLIP 2 已以 「API + MCP」 的形式全面開放,面向開發者與企業用戶,希望這份跨模態理解力,能成為千行百業智能化升級的底層引擎。

      在圖文檢索中,FG-CLIP 2 能真正做到「以文搜圖」。輸入 「穿紅裙、手拿咖啡的女性」,它就能精準鎖定對應圖像。這一能力在電商、安防、媒體內容管理中極具價值。相比傳統 CLIP 只能「抓大意」,FG-CLIP 2 能捕捉細節、召回更準、結果更穩。

      在 AIGC 內容生成中,它則是生成模型的「細節監督官」,確保畫面在品牌元素、顏色、布局等關鍵維度與提示語一致,讓 AI 生成的內容更精準、可靠。

      在內容審核和安防監控領域,它能理解圖像局部語義,識別人物、符號或敏感元素,實現「用語言搜視頻」的自然檢索,大幅提升效率與準確性。

      而在具身智能領域,機器人能 get 物體狀態與空間關系,依循命令「拿起餐桌上的紅色水杯」,「把玩具放進綠色收納箱」。

      厚積成峰,360「棋局」初成

      未來的智能競爭,不在于誰的應用更炫,而在于誰能構建出統一、強大的 自主 AI 核心能力。作為一家以安全著稱,擁有豐富產品生態的科技企業,360 早已布好棋局,掌控關鍵落子。

      360 人工智能研究院在多模態概念尚未普及之前,就開始投入視覺 — 語言理解方向的研究。他們以「讓 AI 看清世界、理解世界、再創造世界」為目標,構建了由三個階段組成的多模態技術體系:視覺 AIGC、多模態大模型和開放世界目標檢測(OVD)。

      其中,CLIP 系列模型是整個體系的基石,負責實現視覺與語言的語義對齊。LMM-Det 和 360VL 聚焦于視覺感知與高層語義理解。而 SEEChat、PlanGen 和 HiCo 則將底層能力封裝為多模態交互、生成與知識增強功能,形成了可復用、可擴展的多模態技術鏈條。

      與此同時,研究團隊也持續保持較高的科研產出。過去三年中,多篇論文被 ICLR、NeurIPS、ICML、ICCV 等國際頂級學術會議接收,逐步形成了從基礎研究到應用落地的完整技術閉環。

      可以說,FG-CLIP 2 已不僅是一項模型成果,更代表著中國團隊在多模態基礎研究上的一次系統性探索。未來,隨著視覺與語言理解技術的融合深化,這樣的底層能力或將成為通用智能的重要支點。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      樓市大跌30%后,銀行擠滿了瘋狂換日元的香港人

      掘金日本房產
      2025-11-04 19:28:57
      5款!華為Mate80 變化巨大,這新技術有點猛

      5款!華為Mate80 變化巨大,這新技術有點猛

      科技堡壘
      2025-11-03 10:58:24
      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      利物浦狂喜?1.36億水貨復活!狂跑11公里+5造殺機,送空門被吐餅

      我愛英超
      2025-11-05 07:22:05
      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      歷經30年,世界上每臺電腦都標配的技術,終于要被拋棄了……

      碼農翻身
      2025-11-03 08:58:46
      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      恭喜!全紅嬋新搭檔奪第二金:22歲破繭成蝶,擊敗陳芋汐新搭檔

      李喜林籃球絕殺
      2025-11-04 23:03:26
      邵佳一,國足新帥!

      邵佳一,國足新帥!

      新京報
      2025-11-05 17:19:38
      高鐵直達!中國最適合退休后去的6個地方,爭取每年去一個!

      高鐵直達!中國最適合退休后去的6個地方,爭取每年去一個!

      布拉旅游說
      2025-10-28 13:39:04
      邵佳一獨立帶隊時間不足一年半,此前曾擔任國足助教

      邵佳一獨立帶隊時間不足一年半,此前曾擔任國足助教

      懂球帝
      2025-11-05 17:12:14
      安帥:內馬爾能力很強,但我不會帶缺比賽強度的球員去世界杯

      安帥:內馬爾能力很強,但我不會帶缺比賽強度的球員去世界杯

      懂球帝
      2025-11-04 13:15:07
      中央定調,延遲退休落地,2025年-2029年退休更受益,你符合嗎?

      中央定調,延遲退休落地,2025年-2029年退休更受益,你符合嗎?

      史行途
      2025-11-05 15:37:08
      此人與蔣介石勢不兩立,56年毛主席得知其職位后:不行,地位太低

      此人與蔣介石勢不兩立,56年毛主席得知其職位后:不行,地位太低

      大運河時空
      2025-11-05 16:50:03
      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      白所成宣判死刑,被稱“緬北名媛”的愛女白應蘭,如今又在何處?

      特特農村生活
      2025-11-05 14:31:59
      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      中方下了“最后通牒”,認定荷蘭100%擔責,再不悔改一切后果自負

      鐵錘簡科
      2025-11-05 15:19:29
      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      立冬吃餃子,別管多忙,記得:2餡不吃、4事不做,別犯忌諱

      阿龍美食記
      2025-11-04 11:50:20
      震驚!長沙女子曬出生育津貼104412.75元,休了173天,每天603元

      震驚!長沙女子曬出生育津貼104412.75元,休了173天,每天603元

      火山詩話
      2025-11-04 18:38:12
      湖南一女子3歲走失,40歲成為千萬富豪后,登上電視尋親,不料,親生父母無人到場,得知內情她崩潰大哭

      湖南一女子3歲走失,40歲成為千萬富豪后,登上電視尋親,不料,親生父母無人到場,得知內情她崩潰大哭

      阿呆爸
      2025-11-04 21:37:51
      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結局如何?

      鶴羽說個事
      2025-11-04 16:56:07
      記者:多位高管對莫蘭特不感興趣,他可能只能換另一位問題球星

      記者:多位高管對莫蘭特不感興趣,他可能只能換另一位問題球星

      懂球帝
      2025-11-05 08:13:26
      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      449平方米,1.17億元!馬來西亞首富之子郭孔華,買下上海大平層,該樓盤曾3小時售出158套房

      每日經濟新聞
      2025-11-02 23:32:08
      爆冷12分惜敗又8分輸球!成新賽季最失望球隊之一,交易徹底失敗

      爆冷12分惜敗又8分輸球!成新賽季最失望球隊之一,交易徹底失敗

      籃球掃地僧
      2025-11-05 16:52:57
      2025-11-05 17:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11655文章數 142498關注度
      往期回顧 全部

      科技要聞

      大轉彎!特朗普再提名馬斯克盟友任NASA局長

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      頭條要聞

      足球報:邵佳一出任國足新帥 將攜外籍助教上任

      體育要聞

      贏下皇馬,會是利物浦的轉折點嗎?

      娛樂要聞

      港星林尚武突發心臟病去世

      財經要聞

      中方官宣!對美關稅,調整!

      汽車要聞

      智己LS9入局"9系"混戰 全尺寸SUV市場迎來新變量

      態度原創

      藝術
      房產
      手機
      本地
      公開課

      藝術要聞

      院士親自下場“把關”!溫州園博園山水中國館,預計年底建成!

      房產要聞

      最新!海南樓市10月熱銷榜單出爐!

      手機要聞

      小米REDMI Turbo 5 Pro曝光:9000mAh大電池+超聲波指紋

      本地新聞

      秋顏悅色 | 在榆中,秋天是一場盛大的視覺交響

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人一区二区三区视频免费| 亚洲精品自拍在线视频| 丰满人妻一区二区三区无码AV| 色爱av综合网国产精品| 中文人妻AV大区中文不卡| 亚洲精品乱码久久久久久自慰| 亚洲AV成人片在线观看| 国产熟女高潮一区二区三区| 久久精品国产久精国产69| 个旧市| 久久99精品久久久久久| 国产成人高清亚洲综合| 国产男女黄视频在线观看| 国产av亚洲一区二区| 国产激情艳情在线看视频| 成人亚欧欧美激情在线观看| 国产在线一区二区在线视频| 亚洲区一区二区三区亚洲| 97精品伊人久久久大香线蕉 | 欲香欲色天天天综合和网| 婷婷综合亚洲| 自拍偷拍第一区二区三区| 国内精品一区二区在线观看| 亚洲精品一区二区美女| 亚洲综合天堂一区二区三区| 东京热一精品无码av| 么公的好大好硬好深好爽视频| 青青草无码免费一二三区| 亚洲乱色熟女一区二区蜜臀| 国产精品久久久久乳精品爆 | 凹凸国产熟女精品视频| 亚洲gv天堂无码男同在线观看| 精品综合一区二区三区四区| 亚洲国产色播AV在线| 国产线播放免费人成视频播放 | 狠狠色丁香婷婷综合久久来来去 | 西西人体大胆444WWW| 内射囯产旡码丰满少妇| 亚洲人黑人一区二区三区| 一级片一区二区中文字幕| 精品无码人妻一区二区三区|