学习文本人物搜索的语义对齐特征表示

Dec, 2021

学习文本人物搜索的语义对齐特征表示

Learning Semantic-Aligned Feature Representation for Text-based Person Search

Shiping Li, Min Cao, Min Zhang

TL;DR本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Abstract

text-based person search aims to retrieve images of a certain pedestrian by a textual description. The key challenge of this task is to eliminate the inter-modality gap and achieve the feature alignment across mo

text-based person search semantic-aligned embedding method multi-head attention module feature alignment state-of-the-art performances

发现论文，激发创造

通过文本特征可解释嵌入和外部攻击节点插入进行人物文本 - 图像匹配

该研究提出了一种人物文本 - 图像匹配方法，它通过嵌入文本特征可解释性和外部攻击节点，采用图卷积作为特征表示的基本框架，并模拟了文本和图像多样性对特征提取的对抗攻击和防御来提高模型的鲁棒性，从而有效解决了现有方法面临的挑战。

Nov, 2022

文本人物搜索的跨模态特征校准

本文提出一种基于文本的人物搜索的新颖有效方法，使用双编码器和分离的跨模态解码器架构，采用两种新的损失来提供细粒度的跨模态特征，并在 CUHK-PEDES，ICFG-PEDES 和 RSTPReID 等三个流行基准测试中创造了排名前三的成绩。

Apr, 2023

以精细化理解带来更丰富的视野：基于隐含模态对文本人物检索的对齐

本研究提出了一种隐式视觉 - 文本框架，通过多级和双向遮罩建模方法实现跨模态匹配，提高了人物的文本检索效果。

Aug, 2022

基于文本的人物搜索中的图像特定信息抑制和隐式局部对齐

本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索，该网络能够准确定位和对齐图像和文本之间的信息，并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐，并在多个数据库上取得了优越的性能。

Aug, 2022

基于姿态引导的多粒度注意力网络用于基于文本的人物搜索

该研究提出了一种基于文本描述搜索人物图像的方法，通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配，其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明，该方法在 top-1 指标上比现有方法高出 15％。

Sep, 2018

文本 - 图像语义自对齐网络用于部位感知的人员再识别

本文提出了一种语义自对齐网络 (SSAN)，旨在解决文本到图像中的人物再识别 (text-to-image person re-identification) 中的问题。SSAN 使用一个新颖的手段 —— 自动从两种模态提取语义对齐的部分级特征，并通过设计一个多视角非局部网络来捕捉身体部分之间的关系，从而建立更好的身体部位和名词短语之间的对应关系。此外， SSAN 还引入了一种 Compound Ranking (CR) loss，利用同一身份的其他图像的文本描述提供额外的监督，从而有效地降低文本特征的类内差异。经过广泛的实验，证明了该方法在性能上优于现有的最先进方法和一些高级算法，并提供了新的 ICFG-PEDES 数据集和 SSAN 代码。

Jul, 2021

AXM-Net：人员重新识别的隐式跨模态特征对齐

本研究提出了一种基于卷积神经网络的新型架构，用于学习语义对齐的跨模态视觉和文本表示，其以 AXM-Block 作为基本构建块，动态地利用两种模态的多尺度知识，并根据共享语义重新校准每种模态。该框架利用文本数据作为视觉表示学习的超级注释信号，能够有效地学习模态之间的对齐语义，自动拒绝不相关信息，并在 CUHK-PEDES 数据集上表现出较高性能。

Jan, 2021

释放文本的想象力：通过探索文字的力量实现文本到图像的人员检索的新框架

提出了一种用于文本到图像人物检索的新框架，旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器，以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失，该方法在三个流行的基准数据集上取得了最先进的结果。

Jul, 2023

VGSG: 基于视觉引导的文本人物检索的语义组网络

通过提出一种视觉引导的语义组网络 (VGSG)，本文针对基于文本的人物搜索 (TBPS) 问题，在引导的视觉线索下提取了对齐良好的细粒度视觉和文本特征，并设计了一种关系性知识传递方法来适应地传播信息从而在无需外部工具和复杂配对交互的情况下将语义组文本特征与相应的视觉特征进行对齐，该方法在两个具有挑战性的基准测试中展现了优越性。

Nov, 2023

文本到图像的跨模态隐含关系推理和对齐的人物检索

研究了跨模态对齐的图像检索问题，提出了一种 IRRA 框架，并在三个公共数据集上获得了优于现有方法的最新成果。

Mar, 2023