以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

ECCVAug, 2022

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval

Xiujun Shu, Wei Wen, Haoqian Wu, Keyu Chen, Yiran Song...

TL;DR本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Abstract

text-based person retrieval aims to find the query person based on a textual description. The key is to learn a common latent space mapping between visual-textual modalities. To achieve this goal, existing works employ segmentation to obtain explicitly cross-modal alignments or utilize

text-based person retrieval implicit visual-textual framework cross-modal alignment multi-level alignment bidirectional mask modeling

发现论文，激发创造

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

面向文本属性的隐式模态对齐的人物搜索

通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU IMC) Loss，实现了文本属性人物搜索中文本属性与图像之间的对齐和表示匹配，进一步优化了语义排列。

Jun, 2024

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

学习文本人物搜索的语义对齐特征表示

本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Dec, 2021

Hire: 多关系增强的图片文字匹配的混合模态交互

我们提出了一种具有多重关系增强的混合模态交互（称为 Hire）的图像文本匹配方法，通过内外模态语义相关性的关联来改善物体和文本的上下文表示，进而获得更好的图像文本匹配结果。

Jun, 2024

通过生成模型改进文本 - 视觉交叉检索：观察、想象和匹配

本文提出一种新的跨模态检索方法，利用生成式模型学习多模态数据的全局和本地特征，从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。

Nov, 2017

ViTAA: 自然语言下的人物搜索中，视觉 - 文本属性对齐

本文提出一种基于属性对齐的视觉 - 文本对齐方法 (ViTAA)，通过较轻的属性分割计算模块分离人物特征空间并使用对比学习损失函数对视觉和文本属性进行对齐，从而成功提升了自然语言下的人物搜索和属性 - 短语查询任务的表现，实现了最先进的结果。

May, 2020

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

基于文本的人物搜索中的图像特定信息抑制和隐式局部对齐

本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索，该网络能够准确定位和对齐图像和文本之间的信息，并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐，并在多个数据库上取得了优越的性能。

Aug, 2022