Jan, 2021

全尺度文本人物搜索的背景下的上下文非局部对齐

TL;DR本文提出了一种名为 NAFS 的方法,能够自适应地在所有尺度上对齐图像和文本特征。该方法首先提出了一种新的阶梯型网络结构,以更好地提取全尺度的图像特征,其次,提出了一种具有局部约束注意力的 BERT 模型,用于获得不同尺度上的描述表示,然后,采用一种新颖的上下文非局部注意力机制,同时探测所有尺度上的潜在对齐。实验结果表明,该方法在基于文本的人物搜索数据集上的 top-1 和 top-5 均优于现有方法 5.53% 和 5.35%。