SlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟

ICLROct, 2022

SlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟

SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric Models

Ziyi Wu, Nikita Dvornik, Klaus Greff, Thomas Kipf, Animesh Garg

TL;DR本文介绍了一种基于 SlotFormer 的 Transformer 自回归模型，利用学习到的目标中心表示来模拟物体间的关系，成功地应用于视频预测和 VQA 等多个领域，并表明它作为模型为基础的规划世界模型的能力与针对该任务专门设计的方法相媲美。

Abstract

Understanding dynamics from visual observations is a challenging problem that requires disentangling individual objects from the scene and learning their interactions. While recent object-centric models can successfully decompose a scene into objects, modeling their dynamics effectively still remains a challenge. We address this problem by introducing

slotformer transformer-based model object-centric representations video prediction visual question answering

发现论文，激发创造

SlotGNN：无监督发现多物体表示和视觉动态

利用无监督技术从视觉数据中学习多对象动态是一项具有挑战性的任务。本文提出一种新的框架，通过机器人交互学习可以学到稳健的对象表示的两个新架构：SlotTransport 用于从 RGB 图像中发现对象表示，SlotGNN 用于从 RGB 图像和机器人交互中预测它们的集体动态。

Oct, 2023

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

SlotDiffusion: 以扩散模型实现以物体为中心的生成建模

本研究聚焦于提高物体图像生成的关键点到图像解码，为了达到高质量的视觉生成，提出了一种基于对象中心潜在扩散模型 SlotDiffusion，该模型在六个数据集上表现优异，并可用于现有的用于视频预测质量和下游时间推理任务的对象中心动力学模型，同时还展示了该模型和自监督预训练图像编码器在非约束性现实数据集上的可扩展性。

May, 2023

槽位结构化世界模型

感知和推理个体物体及其相互作用是构建智能人工系统的目标，而 Slot Structured World Models 是一种结合基于 Slot Attention 的物体中心化编码器和潜在图形动力学模型的世界模型，用于解决当前方法在提取物体表示和区分相似物体方面存在的问题。

Jan, 2024

物体中心视觉预测的物理动态学习

本研究提出了一种无监督的物体中心预测模型，通过学习物体之间的视觉动态来进行未来预测，实验结果表明该模型在生成视觉质量和物理可靠性方面优于现有技术。

Mar, 2024

槽位状态空间模型

我们介绍了一种新颖的框架 SlotSSMs，用于在状态空间模型中引入独立机制以保持或促进信息的分离，评估表明我们的设计在多对象建模和长期时间依赖性的任务中显著提高了性能。

Jun, 2024

不变槽注意力机制：基于槽中心参考系的物体发现

本文介绍了一种通过基于槽的神经网络、空间对称和基于槽的参考帧来提高目标探测的数据效率的方法，并通过多个合成和真实场景以及挑战性的数据集进行了评估和实验。

Feb, 2023

视频的推理增强的物体中心学习

通过设计一种名为 STATM 的新型推理模块，可以显著增强基于插槽的视频模型的物体中心学习能力。

Mar, 2024

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

基于 Slot Attention 的物体中心场景生成

提出了一种将 slot attention 与分层 VAE 框架结合的生成模型 Slot-VAE，其能够生成具有高质量和准确的场景结构的样本效果优于基于 slot attention 的生成模型。

Jun, 2023