该论文提出了一种综合了图像和文本之间多种关系的方法,通过使用基于对齐机制和互补思考策略的框架,提高了复杂图像检索的性能。
May, 2024
该研究提出了一个两阶段模型:第一阶段使用常规向量距离度量,快速对候选项进行修剪;第二阶段采用双编码器体系结构,对参考文本 - 候选项 - 文本进行有效注视和重新排序,利用视觉和语言预训练网络,实现了组合先前方法的优点。
May, 2023
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验,证明了相对于计算成本高的交叉注意方法,CORA 在召回得分上具有优势,同时实现了双编码器的快速计算速度。
Jun, 2024
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019
本文提出了一种基于图像和文本相结合的检索方法,利用相似度度量、嵌入式学习以及组合函数对目标图像进行了描述,并在三种不同数据集上进行了验证,证明了该方法在输入查询分类和图像检索方面的有效性。
Dec, 2018
本文研究了基于多模态(图像 - 文本)查询的图像检索问题,提出了自编码器模型 ComposeAE,采用深度度量学习方法学习了推动源图像和文本查询组成更接近目标图像的度量,并在 MIT-States、Fashion200k 和 FashionIQ 三个基准数据集上优于当前最先进的 TIRG 方法。
Jun, 2020
研究了跨模态对齐的图像检索问题,提出了一种 IRRA 框架,并在三个公共数据集上获得了优于现有方法的最新成果。
Mar, 2023
提出了一种考虑查询目标关系的零样本组合图像检索方法,通过遮蔽的图像文本对。通过利用遮蔽策略学习查询目标关系并训练旨在检索的文本反转网络,预期可以实现精确的零样本组合图像检索。实验结果显示了该方法的有效性。
通过构建三元组并利用大型多模态语言模型,提出了解决复合图像检索问题的数据生成方法,并设计了用于优化表示空间的两阶段微调框架,实验结果显示方法在多个数据集上实现了最先进的结果,并在低资源场景下的复合图像检索中表现出色。
Apr, 2024
我们研究了零样本组合图像检索任务,提出了一种知识增强的双流零样本组合图像检索框架(KEDs),该框架通过数据库丰富了伪词令牌,并采用额外的流来对伪词令牌与文本概念进行对齐,从而在细粒度语义中显式地识别出参考图像。大量实验证明,KEDs 优于之前的零样本组合图像检索方法。
Mar, 2024