ICCVAug, 2021

使用预训练的视觉语言模型在现实生活图像上进行图像检索

TL;DR本研究提出了一个基于 Transformers 的模型 CIRPLANT,使用人类自然语言条件进行直观特征的修改,并结合最近邻方法实现图像的检索,实验结果表明该模型在开放域图像检索中具有很好的性能。