Apr, 2024

掩码式多查询槽注意力用于无监督对象发现

TL;DR通过利用 DINO ViT 特征的集合查询表示来重建输入特征,我们提出了一种基于物体为中心的方法,通过遮罩输入特征,有选择性地忽略背景区域,以便模型在重建阶段更关注显著对象。此外,我们将 slot attention 拓展为多查询方法,使模型学习多套槽,产生更稳定的遮罩。我们在 PASCAL-VOC 2012 数据集上的实验结果和验证显示了每个组件的重要性,并突出了它们的组合如何不断改善物体定位。