11月3日消息,360集團低調開源的視覺語言對齊模型FG-CLIP2,據介紹,這款模型在涵蓋長短文本圖文檢索、目標檢測等在內的29項權威公開基準測試中,超越了科技巨頭Google的SigLIP 2與Meta的MetaCLIP2。
在模型核心上,它實現了三大創新:第一,層次化對齊架構,讓模型能像人眼一樣,同時把握宏觀場景與微觀細節,實現從“看得見”到“看得清”的跨越。第二,動態注意力機制,使模型可以智能聚焦于圖像關鍵區域,以最小算力代價換取精準的細節捕捉能力。第三,雙語協同優化策略,從底層解決了中英文理解不平衡的難題,實現了真正的雙語原生支持。
據介紹,FG-CLIP2的價值不僅在于實驗室指標的領先,更在于其廣泛而深遠的行業應用潛力,推動AI從“感知”走向“認知”,從“可用”走向“好用”。(定西)
本文來自網易科技報道,更多資訊和深度內容,關注我們。
