Jul, 2021

文本 - 图像语义自对齐网络用于部位感知的人员再识别

TL;DR本文提出了一种语义自对齐网络 (SSAN),旨在解决文本到图像中的人物再识别 (text-to-image person re-identification) 中的问题。SSAN 使用一个新颖的手段 —— 自动从两种模态提取语义对齐的部分级特征,并通过设计一个多视角非局部网络来捕捉身体部分之间的关系,从而建立更好的身体部位和名词短语之间的对应关系。此外, SSAN 还引入了一种 Compound Ranking (CR) loss,利用同一身份的其他图像的文本描述提供额外的监督,从而有效地降低文本特征的类内差异。经过广泛的实验,证明了该方法在性能上优于现有的最先进方法和一些高级算法,并提供了新的 ICFG-PEDES 数据集和 SSAN 代码。