多重查询图像检索的分层匹配和推理
本文研究图像文本匹配问题,提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐,从而推断图像与文本之间的相似性,实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。
Mar, 2018
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在MS-COCO和Flickr30K数据集上取得了相对于最佳方法分别为6.8%和4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K数据集上分别提高了12.6%和5.8%的图像检索和字幕检索。
Sep, 2019
本研究针对图像和文本匹配问题,提出了一种新颖的基于相似性图推理和注意力过滤的网络模型(SGRAF),通过学习矢量化的相似性表示,利用局部和全局对齐信息进行关系感知相似度计算,并通过注意力机制选择性地整合对齐信息,实现了在Flickr30K和MSCOCO数据集上取得最新的最佳表现。
Jan, 2021
本文提出了一种逐步分层对齐网络 (SHAN) 的图像 - 文本匹配方法,将图像 - 文本匹配分解成多步跨模态推理过程以捕捉层次化的细粒度相关性,并在两个基准数据集上进行了实验。
Jun, 2021
该论文通过观察文本到图像和图像到图像检索两者的关系,提出并验证了一种利用特殊关系而不需预训练大型架构等辅助信息,且表现最优秀的基于注意力机制协调图像和自由格式文本修饰符检索的方法。
Mar, 2022
本文提出了一种名为ALADIN的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎90倍的速度下与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
Jul, 2022
本文提出了一种新的可学习的基于框架的重新排序范式,该范式可以捕捉图片和文本之间的邻居关系,提高单模态检索任务的性能。实验结果表明,该范例具有很好的鲁棒性和推广性能力,并且可以在不同的基础模型上取得很好的效果。
Apr, 2023
提出了一种基于内容的图像检索方法,通过构建视觉层次结构来捕捉视觉和语义的相似性,将其融合到相似度搜索的距离计算度量中,实验证明该方法在图像检索方面具有优越性能。
Aug, 2023
我们提出了一种新的合成图像检索框架,名为双关系对齐,它将显式和隐式关系相结合,充分利用三元组之间的相关性,通过融合参考图像和目标图像设计了一个视觉组合器,显著提升了合成图像检索性能。
Sep, 2023
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了10%的召回率改善。
Apr, 2024