预训练时像推理一样:掩码调整提升零样本复合图像检索
我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR 通过这种简单的策略,非常高效且高效,LinCIR 搭配 CLIP ViT-G 骨干网络在 48 分钟内进行训练,在 CIRCO、GeneCIS、FashionIQ 和 CIRR 四个不同的 CIR 基准上展现出最佳的零 - shot CIR 性能,甚至在 FashionIQ 上超过了有监督方法。
Dec, 2023
提出了一种考虑查询目标关系的零样本组合图像检索方法,通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络,预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。
Jun, 2024
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy through novel target-anchored contrastive learning for text encoders.
Jun, 2024
通过使用大规模视觉语言模型(VLMs)和大型语言模型(LLMs)并基于文本目标修改对参考图像进行标题化,然后通过 CLIP 进行检索,我们提出了一种简单、人类可理解且可扩展的 CIReVL 方法,以训练免费的方式解决 CIR 问题,并取得了与有监督的方法相竞争的性能。
Oct, 2023
提出了一种名为 Pic2Word 的方法,该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的 CIR 模型。
Feb, 2023
本文提出了一种不需要标记的数据集来解决 CIR 问题的新方法 Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的 SEARLE 方法,同时提出了一个名为 CIRCO 的真实场景数据集,实验表明 SEARLE 在 CIRCO 数据集上的表现优于基线方法。
Mar, 2023
本文介绍了一个新方法,通过多模态信息的融合来准确地检索符合查询的图像,并在零样本场景下,在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。
Jun, 2023
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 ZS-CIR 基准测试上的大量实验证明了该方法在开放领域数据集 CIRR、CIRCO 以及时尚领域数据集 FashionIQ 上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
Dec, 2023
该研究提出了对比度调整(contrastive-tuning)方法,通过对比训练使图像和文本模型对齐,该方法能够在使用预训练的同时仍然发挥其优势,其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot 迁移能力,能够迁移新的视觉任务,本研究在多个预训练方法(有监督和无监督)以及不同架构 (ResNet, Vision Transformers 和 MLP-Mixer) 的三个不同的图像-文本数据集上得到了可靠的效果。
Nov, 2021
基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果表明该方法能够更好地应对真实检索场景,提高检索的准确性和效率。
Mar, 2024