![]()
多模態(tài)圖片檢索是計(jì)算機(jī)視覺(jué)和多模態(tài)機(jī)器學(xué)習(xí)領(lǐng)域很重要的一個(gè)任務(wù)。現(xiàn)在大家做多模態(tài)圖片檢索一般會(huì)用 CLIP/SigLIP 這種視覺(jué)語(yǔ)言大模型,因?yàn)樗麄兘?jīng)過(guò)了大規(guī)模的預(yù)訓(xùn)練,所以 zero-shot 的能力比較強(qiáng)。
牛津 VGG ,港大,上交大團(tuán)隊(duì)這篇論文旨在提供一種方法,能夠用學(xué)術(shù)界的資源來(lái)增強(qiáng)視覺(jué)語(yǔ)言大模型的預(yù)訓(xùn)練 (Enhance Language-Image Pre-training),使得其可以更好地用于文字 - 圖片檢索。這篇論文被 IEEE 國(guó)際基于內(nèi)容的多媒體索引大會(huì)(IEEE International Conference on Content-Based Multimedia Indexing)接受,并被評(píng)選為最佳論文提名,大會(huì)近期在愛(ài)爾蘭都柏林召開(kāi)。
![]()
- 關(guān)鍵詞:大模型;視覺(jué)語(yǔ)言模型;圖片檢索
- 項(xiàng)目主頁(yè):https://www.robots.ox.ac.uk/~vgg/research/elip/
- 論文鏈接:https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf
- 代碼倉(cāng)庫(kù):https://github.com/ypliubit/ELIP
方法概覽
下圖是這篇文章方法的預(yù)覽圖。ELIP 方法的核心思想是,先用傳統(tǒng)的 CLIP/SigLIP 對(duì)全體圖片做一次 ranking,然后選出 top-k candidate 再做一次 re-ranking。做 re-ranking 的時(shí)候,作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的 MLP mapping network,可以用文字的特征來(lái)定義一些視覺(jué)域中的 token,并把這些 token 插入到 image encoder 當(dāng)中,使得 image encoder 在編碼圖片信息的時(shí)候可以感知到語(yǔ)言信息。這樣重新編碼之后的圖片信息和語(yǔ)言信息再做比對(duì)的時(shí)候,同一個(gè)語(yǔ)言 query 能得到更好的 ranking 結(jié)果。ELIP 可以應(yīng)用到一系列大模型上,比如 CLIP/SigLIP/SigLIP-2/BLIP-2,作者稱(chēng)之為 ELIP-C/ELIP-S/ELIP-S-2/ELIP-B。
![]()
學(xué)術(shù)界研究的挑戰(zhàn)
視覺(jué)語(yǔ)言大模型的預(yù)訓(xùn)練,一般都是工業(yè)界做的事情,但作者提出的方法使得用學(xué)術(shù)界兩張 GPU 做訓(xùn)練也變得可能。想法的創(chuàng)新點(diǎn)主要在模型架構(gòu)和訓(xùn)練數(shù)據(jù)上。
創(chuàng)新點(diǎn):模型架構(gòu)
模型架構(gòu)上,龐大的圖片編碼器和文本編碼器的權(quán)重是固定的,只有作者涉及的由三層 linear + GeLU 構(gòu)成的 MLP maping network 需要打開(kāi)訓(xùn)練。
下圖是 ELIP-C 和 ELIP-S 的訓(xùn)練圖示。訓(xùn)練的時(shí)候,一個(gè) batch 的文本圖片對(duì)輸入模型,文本特征映射到視覺(jué)特征空間來(lái)引導(dǎo)圖片信息的編碼。對(duì)于 CLIP 沿用 InfoNCE 損失函數(shù),對(duì)于 SigLIP 沿用 Sigmoid 損失函數(shù),來(lái)對(duì)齊文本特征和重新計(jì)算的圖片特征。
![]()
下圖是 ELIP-B 的訓(xùn)練圖示。和 CLIP/SigLIP 類(lèi)似,MLP mapping network 把文本特征映射到視覺(jué)特征空間。唯一不同的是,在這里由文本引導(dǎo)的圖片特征放進(jìn)了 Q-Former 來(lái)和輸入的文本做 cross-attention,并最終由 ITM Head 來(lái)預(yù)測(cè)圖片和文本是否匹配。訓(xùn)練的時(shí)候,ELIP-B 沿用 BLIP-2 的 BCE 損失函數(shù)。
![]()
創(chuàng)新點(diǎn):訓(xùn)練數(shù)據(jù)
訓(xùn)練數(shù)據(jù)上,在學(xué)術(shù)界做大模型訓(xùn)練要面臨的挑戰(zhàn)就是 GPU 數(shù)量不夠,沒(méi)法開(kāi)很大的 batch size 訓(xùn)練,這樣可能訓(xùn)練出來(lái)的模型分辨能力就會(huì)下降。而 ELIP 卻是要去分辨 CLIP/SigLIP 排序出來(lái)的 hard sample,對(duì)模型分辨能力的要求就更高了。為了解決這樣的挑戰(zhàn),作者在訓(xùn)練的時(shí)候先算了一下每個(gè)訓(xùn)練圖片和對(duì)應(yīng)文字標(biāo)題的 CLIP 特征,然后把相似特征的圖文對(duì)聚集在一起形成 hard sample training batch。下圖是作者聚合的訓(xùn)練 batch 的例子。對(duì)于每一行,第一個(gè) sample 被用來(lái)聚合其他 sample。第一行的 caption 從左往右分別是:'a wooden table with no base'; 'a wooden table with a couple of folding legs on it'; 'a table that has a metal base with an olive wood top'; 'small table outdoors sitting on top of the asphalt'。第二行的 caption 從左往右分別是:'a huge body of blue ice floats in a mountain stream'; 'the big chunk of glacier is falling off of the cliff'; 'there is a broken piece of glass that has been broken from the ground'; 'a body of water surrounded by a forest near a mountain'。
![]()
新的評(píng)測(cè)數(shù)據(jù)集
除了在標(biāo)準(zhǔn)測(cè)試集比如 COCO, Flickr 上做測(cè)試之外,作者還提出了兩個(gè)新的 OOD 測(cè)試集:Occluded COCO 和 ImageNet-R。對(duì)于 Occluded COCO,正樣本包含了文字中描述的物體(物體通常被遮擋);對(duì)于 ImageNet-R,正樣本中包含了文字中描述的物體,但是是來(lái)自一些不常見(jiàn)的領(lǐng)域的。負(fù)樣本中不含文字中描述的物體。下圖是一些例子,第一行是正樣本,第二行是負(fù)樣本。對(duì)于 Occluded COCO,正樣本中含有被遮擋的自行車(chē),負(fù)樣本中不含自行車(chē);對(duì)于 ImageNet-R,正樣本中含有金魚(yú),負(fù)樣本中不含金魚(yú)。
![]()
實(shí)驗(yàn)結(jié)果
文章的結(jié)果如下表。可以看到,應(yīng)用了 ELIP 之后,CLIP/SigLIP/SigLIP-2 的圖片檢索表現(xiàn)都顯著增長(zhǎng),甚至于 SigLIP 系列模型達(dá)到了和 BLIP-2 接近的表現(xiàn)。ELIP-B 應(yīng)用到 BLIP-2 上之后,也提升了 BLIP-2 的表現(xiàn),超過(guò)了最新的 Q-Pert 方法。
![]()
在 OOD 的測(cè)試數(shù)據(jù)集上,ELIP-C/ELIP-S/ELIP-S-2/ELIP-B 都取得了 zero-shot 的泛化提升。如果我們?cè)趯?duì)應(yīng)的 domain 上做一些 fine-tune,比如對(duì)于 Occluded COCO 我們?cè)?COCO 數(shù)據(jù)集上 fine-tune,對(duì)于 ImageNet-R 數(shù)據(jù)集我們?cè)?ImageNet 數(shù)據(jù)集上 fine-tune,可以得到更顯著的提升。這進(jìn)一步說(shuō)明了 ELIP 除了增強(qiáng)預(yù)訓(xùn)練之外,還提供了一種高效的 adaptation 的方式。
![]()
作者進(jìn)一步觀察了注意力圖,發(fā)現(xiàn)當(dāng) text query 和圖片相關(guān)時(shí),ELIP 可以提高圖片信息提取 CLS token 對(duì)于文字描述的相關(guān)區(qū)域的注意力和信息提取。
![]()
更多細(xì)節(jié)詳見(jiàn)論文原文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.