HyCIR: 利用合成标签增强零样本组合图像检索
提出了一种名为Pic2Word的方法,该方法可以在没有标记三元组的情况下使用弱标记和未标记的数据集训练出一个具有很好泛化性能的CIR模型。
Feb, 2023
本文提出了一种不需要标记的数据集来解决CIR问题的新方法Zero-Shot CIR,并介绍了一个基于视觉特征和文本描述的SEARLE方法,同时提出了一个名为CIRCO的真实场景数据集,实验表明SEARLE在CIRCO数据集上的表现优于基线方法。
Mar, 2023
本文介绍了一种新的非标注、预训练的掩码调整方法,以减少预训练模型与下游组合图像检索任务之间的差距,并通过将视觉-语言对比学习重新定义为组合图像检索任务,并提出掩码调整来学习原始图像的修改,进而捕捉到细粒度的文本引导修改。广泛的实验证明了我们方法在FashionIQ、CIRR和CIRCO三个组合图像检索数据集上相对于基线模型具有显著的优势。
Nov, 2023
我们提出了一种只使用语言进行训练的新型CIR框架,名为LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相同的潜在嵌入向量。LinCIR通过这种简单的策略,非常高效且高效,LinCIR搭配CLIP ViT-G骨干网络在48分钟内进行训练,在CIRCO、GeneCIS、FashionIQ和CIRR四个不同的CIR基准上展现出最佳的零-shot CIR性能,甚至在FashionIQ上超过了有监督方法。
Dec, 2023
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法(TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制(LCR)来聚焦于从修改指令中提取的有区别的局部信息。在三个ZS-CIR基准测试上的大量实验证明了该方法在开放领域数据集CIRR、CIRCO以及时尚领域数据集FashionIQ上实现了与最先进方法相当的性能,并明显优于其他无需训练的方法。
Dec, 2023
我们提出了一种新的半监督图像检索方法,通过在辅助数据中搜索参考图像及其相关目标图像,并学习基于大型语言模型的视觉差异生成器(VDG),以生成描述两个图像之间视觉差异(即视觉增量)的文本。VDG具备流畅的语言知识和模型无关性,能够生成伪三元组来提升组合图像检索模型的性能。我们的方法显著改进了现有的监督学习方法,并在组合图像检索基准测试中取得了最先进的结果。
Apr, 2024
通过使用球形线性插值(Slerp)和文本锚定调整(TAT)方法,我们提出了一种新的零样本合成图像检索(ZS-CIR)技术,使得图像和文本的融合嵌入更加准确,从而实现了在合成图像检索基准上的最先进的检索性能。
May, 2024
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy through novel target-anchored contrastive learning for text encoders.
Jun, 2024
本研究解决了在监督下训练组合图像检索模型所需的繁重数据收集问题。提出了一种无需训练的零-shot图像检索新方法WeiMoCIR,采用简单的加权平均将图像与文本模态有效结合。实验结果验证了该方法在FashionIQ和CIRR数据集上的优越性能,突显了其在图像搜索领域的潜在影响。
Sep, 2024
本研究解决了传统复合图像检索在模型训练中对大量数据集的依赖问题。提出了一种无训练的零样本复合图像检索新方法WeiMoCIR,通过加权平均有效融合图像和文本模态,简化了查询表示的构建过程。此外,利用多模态大语言模型生成数据库图像的文本描述,实验证明该方法在FashionIQ和CIRR数据集上提升了检索性能。
Sep, 2024