文本到图像的跨模态隐含关系推理和对齐的人物检索

CVPRMar, 2023

文本到图像的跨模态隐含关系推理和对齐的人物检索

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

Ding Jiang, Mang Ye

TL;DR研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Abstract

text-to-image person retrieval aims to identify the target person based on a given textual description query. The primary challenge is to learn the mapping of visual and textual modalities into a common latent space. Prior works have attempted to address this challenge by leveraging se

text-to-image person retrieval cross-modal alignment implicit relation reasoning similarity distribution matching state-of-the-art results

发现论文，激发创造

文本到图像的跨模态自适应双重关联

本文提出了 CADA：交叉模态自适应双向关联机制，通过文本到图像和图像到文本的双向关联来实现文本到图像的人物再识别，实验证明了该双向关联机制的优越性。

Dec, 2023

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

学习关系对准以进行校准的跨模态检索

本论文提出一种新的 Intra-modal Self-attention Distance（ISD）度量方法和 Inter-modal Alignment on Intra-modal Self-attentions（IAIS）正则化训练方法，旨在通过 ISD 度量语言和视觉关系之间的语义距离并通过 IAIS 进行交叉训练，从而提高 Flickr30k 和 MS COCO 数据集中的跨模态检索性能。

May, 2021

IMRAM: 交替匹配循环注意力记忆模型用于跨模态图像 - 文本检索

本文提出一种迭代匹配循环注意力存储（IMRAM）的方法，用于捕捉图像和文本之间的细粒度对应关系，表现出了最先进的性能。

Mar, 2020

可学习的基于支柱的图像 - 文本重排序

本文提出了一种新的可学习的基于框架的重新排序范式，该范式可以捕捉图片和文本之间的邻居关系，提高单模态检索任务的性能。实验结果表明，该范例具有很好的鲁棒性和推广性能力，并且可以在不同的基础模型上取得很好的效果。

Apr, 2023

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

通过对齐学习：利用跨模态对应关系进行可见光 - 红外人员再识别

本研究提出了一种新颖的特征学习框架，通过利用密集对应的交叉模态人物图像，像素级地抑制与模态相关的特征，从而更有效地促进交叉模态本地特征的判别式特征学习，从而解决了可见 - 红外人物重识别的问题。

Aug, 2021

Hire: 多关系增强的图片文字匹配的混合模态交互

我们提出了一种具有多重关系增强的混合模态交互（称为 Hire）的图像文本匹配方法，通过内外模态语义相关性的关联来改善物体和文本的上下文表示，进而获得更好的图像文本匹配结果。

Jun, 2024

对抗表示学习用于文本到图像匹配

本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型，该模型可以学习到模态不变的特征表示，在四个公开数据集上取得了最优的交叉模态匹配性能，排名 1 的准确率提高了 2％到 5％。

Aug, 2019