近期,360集團低調開源的視覺語言對齊模型FG-CLIP2,在全球科技圈掀起熱議。這款模型在涵蓋長短文本圖文檢索、目標檢測等在內的29項權威公開基準測試中,全面超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2,標志著中國在AI基礎模型領域取得了又一突破性進展。
![]()
FG-CLIP 2性能雷達圖
![]()
中文benchmark綜合排名
從“看得見”到“看得清”:攻克AI視覺“細粒度”難題
如果說OpenAI在2021年提出的CLIP模型,為AI配上了一副能“看清世界”的普通眼鏡;那么360的FG-CLIP2,則是為AI裝備了一臺“高精度光學顯微鏡”,使其能夠“洞察入微”。它成功攻克了CLIP模型長期存在的“細粒度識別”痛點。
傳統CLIP模型善于理解圖像的全局概念,但在區分細微的物體屬性、復雜的空間關系以及精準的語言表達時,往往力不從心。FG-CLIP2則實現了質的飛躍:它不僅能辨別出貓的具體品種,還能在遮擋情況下精準判斷其狀態;面對包含多個物體的復雜場景,其細節識別置信度仍高達96%。這種從“宏觀”到“微觀”的能力躍遷,是AI真正理解物理世界的關鍵一步。
![]()
FG-CLIP2效果案例
三大根本性創新,構筑技術護城河
在模型核心上,它實現了三大根本創新:第一,層次化對齊架構,讓模型能像人眼一樣,同時把握宏觀場景與微觀細節,實現從“看得見”到“看得清”的跨越。第二,動態注意力機制,使模型可以智能聚焦于圖像關鍵區域,以最小算力代價換取精準的細節捕捉能力。第三,雙語協同優化策略,從底層解決了中英文理解不平衡的難題,實現了真正的雙語原生支持。
卓越的性能離不開強大的底層支撐。FG-CLIP2依托于自研的超大規模高質量數據集FineHARD。該數據集不僅包含詳盡的全局描述和千萬級的局部區域標注,還創新性地引入了由大模型生成的“難負樣本”,極大地錘煉了模型的辨別能力。
在訓練方法上,模型采用了革命性的兩階段策略。其關鍵的第二階段摒棄了傳統CLIP的“整體對整體”的粗放對齊模式,升級為“局部對局部”的精細對齊,這正是其實現細粒度理解的精髓所在。
通過這一系列緊密結合的技術創新,FG-CLIP2成功攻克了長期困擾行業的“細粒度識別”難題,并將其領先能力通過API等形式開放,賦能千行百業的智能化升級。
![]()
FG-CLIP2訓練策略
告別“差不多”AI:細粒度視覺撬動產業新支點
FG-CLIP2的價值不僅在于實驗室指標的領先,更在于其廣泛而深遠的行業應用潛力,推動AI從“感知”走向“認知”,從“可用”走向“好用”。
在電商領域,它能精準理解“白色蕾絲邊、袖口有珍珠裝飾的連衣裙”等復雜描述,實現“所想即所得”的精準搜索,徹底革新商品檢索與推薦體驗,減少退貨率,直接提升商業轉化。
在具身智能領域,它是機器人的“慧眼”,能精準執行“拿餐桌上的紅色水杯”或“把玩具放進綠色收納箱”等指令,通過精準識別物體屬性與空間關系,讓機器人在家庭、倉儲等復雜場景中的操作成為可能。
此外,其能力同樣賦能于AIGC內容生成、內容審核及安防監控等多個關鍵場景,通過洞察細節,確保生成內容的精準性、審核的可靠性以及安防檢索的高效性,為各行各業的智能化升級奠定了堅實的視覺理解基石。
構建AI底層能力:360的AI長期主義
FG-CLIP2的技術突破并非偶然,而是360對AI底層能力的長期堅持。作為國內較早布局人工智能研究的企業,360人工智能研究院已持續深耕多模態領域多年。從21年起,在大模型方向上團隊累計在ICML、NeurIPS、ICCV等頂級會議發表論文12篇,并在多項國際AI競賽中奪冠。
此外,360依托瀏覽器、搜索、安全等豐富的業務生態,積累了百億級的圖文數據,并結合自研的大規模高質量數據集FineHARD,為訓練FG-CLIP2這樣的頂尖模型提供了獨一無二的“數據燃料”。同時,強大的工程化能力確保了模型不僅在學術上領先,更能在實際業務中高效、穩定地運行,其推理速度達到同類模型的1.5倍。
此次開源FG-CLIP2,是360在AI基礎模型領域的一次關鍵落子,其意義遠不止于展示技術實力,更是為中國構建自主可控的AI技術體系,添上一塊重要基石。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.