文本 - 图像语义自对齐网络用于部位感知的人员再识别

Jul, 2021

文本 - 图像语义自对齐网络用于部位感知的人员再识别

Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification

Zefeng Ding, Changxing Ding, Zhiyin Shao, Dacheng Tao

TL;DR本文提出了一种语义自对齐网络 (SSAN)，旨在解决文本到图像中的人物再识别 (text-to-image person re-identification) 中的问题。SSAN 使用一个新颖的手段 —— 自动从两种模态提取语义对齐的部分级特征，并通过设计一个多视角非局部网络来捕捉身体部分之间的关系，从而建立更好的身体部位和名词短语之间的对应关系。此外， SSAN 还引入了一种 Compound Ranking (CR) loss，利用同一身份的其他图像的文本描述提供额外的监督，从而有效地降低文本特征的类内差异。经过广泛的实验，证明了该方法在性能上优于现有的最先进方法和一些高级算法，并提供了新的 ICFG-PEDES 数据集和 SSAN 代码。

Abstract

text-to-image person re-identification (ReID) aims to search for images containing a person of interest using textual descriptions. However, due to the significant modality gap and the large intra-class variance

person re-identification text-to-image semantically self-aligned network part-level features compound ranking loss

发现论文，激发创造

面向人员再识别的语义对齐表示学习

本论文提出了一种通过细致的监督设计，驱动重新识别网络学习语义对齐特征表示的框架，其中包括了一个带编码器（SA-Enc）的 Semantics Aligning Network (SAN) 用于重新识别，以及一个解码器（SA-Dec）用于重建 / 回归密集语义对齐全纹理图像，并在三元组 ReID 约束下增加感知损失，以确保推断的计算效率。该设计取得了基准数据集 CUHK03，Market1501，MSMT17 和部分人物重新 ID 数据集 Partial REID 等的最佳表现。

May, 2019

基于文本的人物搜索中的图像特定信息抑制和隐式局部对齐

本论文提出了一种有效的联合信息和语义对齐网络 (ISANet) 用于文本驱动的人物搜索，该网络能够准确定位和对齐图像和文本之间的信息，并能够适应性地聚合图像和文本特征以实现本地细粒度对应关系和全局对齐，并在多个数据库上取得了优越的性能。

Aug, 2022

学习文本人物搜索的语义对齐特征表示

本文提出了一种基于语义对齐的嵌入方法，采用多头注意力模块和特征聚合网络进行特征对齐，以实现对于文本描述的行人图像搜索，并在 CUHK-PEDES 和 Flickr30K 数据集上取得了最先进的性能。

Dec, 2021

大规模人员再识别的行人对齐网络

该论文提出了一种名为 PAN（行人对齐网络）的算法，该算法采用卷积神经网络进行表示学习和行人对齐，以解决行人重识别中的对齐问题，并在三个大规模数据集上展示了具有竞争性的准确性。

Jul, 2017

密集语义对齐的人员再识别

本研究提出了一种基于密集语义对齐的人员再识别框架，通过利用人图像的密集语义估计，构建了一组密集语义对齐的部分图像，设计了一个两流网络，其中一个流具有密集语义对齐，它通过引导主全流学习来解决不同图像之间的身体不对齐问题。最终，在 CUHK03、CUHK01 和 Market1501 数据集上将表现优于现有方法，最高 rank-1 精度达到 95.7％。

Dec, 2018

人物再识别的全局和组件化的语义表示自监督学习

通过使用交互式分割模型（ISM）进行自适应的基于部位的语义提取，本文提出了 SemReID，一种自我监督的 ReID 模型，通过技术手段（如图像遮罩和 KoLeo 正则化）改进其语义表示，证明了其在三种类型的 ReID 数据集上具有优越的性能，并引入了 LUPerson-Part 数据集来增强对细粒度部位语义的获取，以提高鲁棒性。

Nov, 2023

基于姿态引导的多粒度注意力网络用于基于文本的人物搜索

该研究提出了一种基于文本描述搜索人物图像的方法，通过使用多层次的视觉内容对不同语义相关性的相关图像和描述进行匹配，其中包括了多粒度的视觉信息。在 CUHK-PEDES 数据集上进行的实验表明，该方法在 top-1 指标上比现有方法高出 15％。

Sep, 2018

AXM-Net：人员重新识别的隐式跨模态特征对齐

本研究提出了一种基于卷积神经网络的新型架构，用于学习语义对齐的跨模态视觉和文本表示，其以 AXM-Block 作为基本构建块，动态地利用两种模态的多尺度知识，并根据共享语义重新校准每种模态。该框架利用文本数据作为视觉表示学习的超级注释信号，能够有效地学习模态之间的对齐语义，自动拒绝不相关信息，并在 CUHK-PEDES 数据集上表现出较高性能。

Jan, 2021

身份引导的人体语义分割用于人员再识别

本文提出了一种基于身份指导的人类语义解析方法（ISP），通过级联聚类来生成伪标签，并仅利用人的身份标签来定位人体部位和个人物品并实现像素级别的对齐，最终从中获得人体部位和个人物品的本地特征，验证表明，该方法在三个被广泛使用的数据集上优于大量先进方法。

Jul, 2020

文本到图像的人物重识别的噪声一致化学习

提出了一种用于文本到图像的人物再识别的鲁棒双重嵌入方法 (RDE)，能够学习到在存在噪音对应的情况下的可靠的视觉语义关联。

Aug, 2023