ICLRMar, 2024

基于图像到句子的不对称零样本组合图像检索

TL;DR基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果表明该方法能够更好地应对真实检索场景,提高检索的准确性和效率。