SPOT: 自身训练的基于补丁顺序置换的自回归 Transformer 的物体中心学习

Dec, 2023

SPOT: 自身训练的基于补丁顺序置换的自回归 Transformer 的物体中心学习

SPOT: Self-Training with Patch-Order Permutation for Object-Centric Learning with Autoregressive Transformers

Ioannis Kakogeorgiou, Spyros Gidaris, Konstantinos Karantzalos, Nikos Komodakis

TL;DR非监督式物体中心学习中引入了两个新技术：一种基于注意力的自我训练方法，通过从解码器到编码器提取出优越的基于槽的注意力掩码来增强物体分割；一种创新的自回归变换器中的补丁顺序排列策略，加强了槽向量在重构中的作用。这些策略的有效性在实验证明了该方法明显优于以往的基于槽的自编码器方法，特别是在处理复杂的真实图像时。具体实现代码请参考此网址。

Abstract

unsupervised object-centric learning aims to decompose scenes into interpretable object entities, termed slots. slot-based auto-encoders stand out as a prominent method for this task. Within them, crucial aspects

unsupervised object-centric learning slot-based auto-encoders attention-based self-training approach autoregressive transformers unsupervised object segmentation

发现论文，激发创造

不变槽注意力机制：基于槽中心参考系的物体发现

本文介绍了一种通过基于槽的神经网络、空间对称和基于槽的参考帧来提高目标探测的数据效率的方法，并通过多个合成和真实场景以及挑战性的数据集进行了评估和实验。

Feb, 2023

无监督的条件槽注意力用于对象为中心的学习

本研究提出了一种基于无监督条件化槽注意力和概率槽字典（PSD）的方法，利用抽象的物体属性向量作为关键字、参数化高斯分布作为相应值，来学习特定的物体级别条件分布，并在多个下游任务中展示了其在物体发现、组合场景生成和组合视觉推理方面的优势。在物体发现任务中，我们的方法表现出相似或更好的性能，并在组合视觉推理的少样本适应性任务中显著提高了场景构成能力。

Jul, 2023

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020

自适应槽注意力机制：动态槽位目标发现

基于对象的学习（OCL）通过使用槽来提取对象的表征，提供了灵活性和可解释性的卓越结合，以抽象化低级感知特征。在 OCL 中被广泛采用的方法是槽注意机制，它利用注意机制迭代地改进槽的表示。然而，大多数基于对象的模型，包括槽注意机制，在很大程度上依赖于预定义槽的数量。为了克服这一基本限制，我们提出了一种新颖的适应性自动编码器框架，其中引入了一种自适应槽注意机制（AdaSlot），根据数据的内容动态确定最佳槽的数量。我们的框架在各种数据集上进行了广泛测试，表现出与顶级固定槽模型相当甚至超过的性能。此外，我们的分析证实，我们的方法能够根据每个实例的复杂性动态调整槽的数量，为槽注意研究提供了进一步的探索潜力。

Jun, 2024

点云自监督学习的掩蔽自编码器

本文提出一种新颖的掩码自编码点云自监督学习方案，通过划分输入点云为不规则点区块和高比例随机掩码，设计了一种基于 Transformer 的自编码器，该方案在预训练过程中高效并且在各种下游任务中具有很好的泛化能力，包括在少样本物体分类方面表现出色。

Mar, 2022

掩码式多查询槽注意力用于无监督对象发现

通过利用 DINO ViT 特征的集合查询表示来重建输入特征，我们提出了一种基于物体为中心的方法，通过遮罩输入特征，有选择性地忽略背景区域，以便模型在重建阶段更关注显著对象。此外，我们将 slot attention 拓展为多查询方法，使模型学习多套槽，产生更稳定的遮罩。我们在 PASCAL-VOC 2012 数据集上的实验结果和验证显示了每个组件的重要性，并突出了它们的组合如何不断改善物体定位。

Apr, 2024

基于注意力机制和软最大值的无监督多目标分割

利用平移等变性注意机制进行的无监督物体中心表示学习和多物体检测与分割架构，其中使用注意机制来预测场景中物体的坐标并为每个物体关联一个特征向量。

May, 2022

优化查询以改善对象中心学习

本论文提出了一种新方法 Bi-level Optimized Query Slot Attention，利用可学习的查询初始化 Slot-Attention，配合双层优化方法，实现了在无监督图像分割和重构中最先进的结果，并展示了其在概念绑定和零样本学习中的巨大潜力。

Oct, 2022

基于概率槽注意力的可识别物体中心表示学习

学习模块化的物体中心表示对于系统化的泛化至关重要。现有的方法在经验上显示出有前景的物体绑定能力，但理论上的可识别性保证相对较少。理解何时可以在理论上识别物体中心表示对于按槽位进行高维图像的扩展方法具有重要意义且具有正确性保证。为此，我们提出了一种概率化的槽位注意力算法，通过在物体中心化槽位表示上施加聚合混合先验，从而在没有监督的情况下提供槽位可识别性保证，达到等价关系。我们通过简单的二维数据和高分辨率成像数据集进行了我们的理论可识别性结果的实证验证。

Jun, 2024

语义与时间关联：视频中自监督目标中心学习

自我监督方法在学习高层语义和低层时间对应方面取得了显著进展，本文在此基础上进一步探索了整合这两个特征以增强以对象为中心的表示的可能性。我们提出了一种新颖的语义感知遮蔽插槽注意力模型，通过融合语义特征和对应关系图，有效地识别多个对象实例，达到了在无监督视频对象发现和密集标签传播任务上的有希望结果，展示了以对象为中心的分析的潜力。

Aug, 2023