ICCVAug, 2021
使用预训练的视觉语言模型在现实生活图像上进行图像检索
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models
Zheyuan Liu, Cristian Rodriguez-Opazo, Damien Teney, Stephen Gould
TL;DR本研究提出了一个基于 Transformers 的模型 CIRPLANT,使用人类自然语言条件进行直观特征的修改,并结合最近邻方法实现图像的检索,实验结果表明该模型在开放域图像检索中具有很好的性能。