- 减少文本编码器在零样本组合图像检索中的任务差异
Composed Image Retrieval (CIR) using zero-shot setting and CLIP encoders can be improved by reducing task discrepancy th - CaLa: 补充关联学习增强组合图像检索
该论文提出了一种综合了图像和文本之间多种关系的方法,通过使用基于对齐机制和互补思考策略的框架,提高了复杂图像检索的性能。
- 遥感图像的组合检索
本文介绍了一种应用于遥感的组合图像检索方法,该方法允许通过图像示例和文本描述在大型图像库中进行查询,丰富了对单模态查询(无论是视觉还是文本)的描述能力。我们介绍了一种融合了图像 - 图像和文本 - 图像相似度的新方法,证明了视觉 - 语言模 - ICCViSEARLE:改进文本线性进行零样本组合图像检索
基于图像和相关说明的复合图像检索(CIR)是旨在检索与参考图像在视觉上相似并包含相关说明中指定的变化的目标图像。本文引入了一项名为 Zero-Shot CIR(ZS-CIR)的新任务,该任务不需要有标签的训练数据集,提出了一种名为 iSEA - 零样例组合图像检索的球形线性插值与文本锚定
通过使用球形线性插值(Slerp)和文本锚定调整(TAT)方法,我们提出了一种新的零样本合成图像检索(ZS-CIR)技术,使得图像和文本的融合嵌入更加准确,从而实现了在合成图像检索基准上的最先进的检索性能。
- 大型多模态模型的视觉增量生成器用于半监督组合图像检索
我们提出了一种新的半监督图像检索方法,通过在辅助数据中搜索参考图像及其相关目标图像,并学习基于大型语言模型的视觉差异生成器(VDG),以生成描述两个图像之间视觉差异(即视觉增量)的文本。VDG 具备流畅的语言知识和模型无关性,能够生成伪三元 - 通过缩放的正负样本对比学习提升组合图像检索
通过构建三元组并利用大型多模态语言模型,提出了解决复合图像检索问题的数据生成方法,并设计了用于优化表示空间的两阶段微调框架,实验结果显示方法在多个数据集上实现了最先进的结果,并在低资源场景下的复合图像检索中表现出色。
- ICLR基于图像到句子的不对称零样本组合图像检索
基于图像 - 句子综合检索 (ISA) 的异构零样本综合图像检索方法,通过适应性 Token 学习者将图像映射到 VL 模型的词嵌入空间中,结合文本修饰符进一步提取图像的视觉信息,使用轻量级模型进行查询,大规模 VL 模型用于图库,实验结果 - VQA4CIR:用视觉问答提升组合图像检索
通过使用视觉问答技术来解决复合图像检索中的不一致性问题,提出了 VQA4CIR 方法,该方法能够显著提高检索性能,实验证明其优于目前的 CIR 方法。
- 无训练的零样本组合图像检索和本地概念重新排序
本文提出了一种新的基于零样本训练的无需训练的组合图像检索方法 (TFCIR),通过将查询翻译成易于理解的文本,提高计算效率并保持模型的泛化性。此外,引入了局部概念再排序机制 (LCR) 来聚焦于从修改指令中提取的有区别的局部信息。在三个 Z - 仅语言实现高效训练的零样本组合图像检索
我们提出了一种只使用语言进行训练的新型 CIR 框架,名为 LinCIR,通过一种名为自掩蔽投影(SMP)的新颖自我监督方法,将文本的潜在嵌入投影到标记嵌入空间,并构建一个新的文本,替换原始文本中的关键词标记,从而使得新文本和原始文本具有相 - 句级提示有利于复合图像检索
通过学习适当的句子级提示(SPRC),我们提出了一种有效的组合图像检索方法,该方法使用句子级提示与相关说明相结合,并利用图像 - 文本对比损失和文本提示对齐损失来增强检索性能。我们的实验证明,该方法在 Fashion-IQ 数据集上表现优越 - NEUCORE:用于组合图像检索的神经概念推理
综合图像检索通过结合参考图像和文本修饰器来识别所需的目标图像是一项具有挑战性的任务,需要模型理解视觉和语言模态及其相互作用。本研究提出了一种名为 NEUral COncept REasoning (NEUCORE) 模型,将多模态理解移动到 - 分解复式图像检索的语义转移
在组合图像检索任务中,我们将文本作为指导说明,提出了一种语义转换网络(SSN),通过将语义转换分解为两个步骤:从参考图像到视觉原型,再从视觉原型到目标图像,以改善现有方法在检索性能上的不足。
- 组合图像检索的双重关系对齐
我们提出了一种新的合成图像检索框架,名为双关系对齐,它将显式和隐式关系相结合,充分利用三元组之间的相关性,通过融合参考图像和目标图像设计了一个视觉组合器,显著提升了合成图像检索性能。
- 多模态梯度注意力学习用于可解释的组合图像检索
我们提出了一种基于梯度注意的学习目标,用于解决组合图像检索问题。通过引入新的注意力计算技术和学习目标,我们展示了对图像区域进行更准确的定位和改进,并通过标准基准数据集显示了更好的可解释性和竞争性的定量检索性能。
- CoVR:从网络视频字幕中学习组合视频检索
通过自动数据集创建方法,我们提出了一个可扩展的 Composed Image Retrieval(CoIR)任务,使用由视频标题对生成的三元组,扩展任务范围到 Composed Video Retrieval(CoVR)。通过在庞大的数据库 - MM使用对比学习和面向任务的 CLIP 特征的组合图像检索
利用 OpenAI CLIP 模型中的视觉和文本特征进行任务细化微调,然后通过训练 Combiner 网络来整合双模态信息,并提供用于检索的组合特征,结果表明这种方法在复合图像检索方面优于当前先进方法。
- 零样本组合文本 - 图像检索
本文介绍了一个新方法,通过多模态信息的融合来准确地检索符合查询的图像,并在零样本场景下,在 CIRR 和 FashionIQ 等数据集上明显优于现有的最新技术。
- 使用双重多模式编码器对合成图像检索进行候选集重新排序
该研究提出了一个两阶段模型:第一阶段使用常规向量距离度量,快速对候选项进行修剪;第二阶段采用双编码器体系结构,对参考文本 - 候选项 - 文本进行有效注视和重新排序,利用视觉和语言预训练网络,实现了组合先前方法的优点。