通过Transformer在面向对象模型中学习视觉动态预测的解缩放表示

Jul, 2024

通过Transformer在面向对象模型中学习视觉动态预测的解缩放表示

Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers

Sanket Gandhi, Atul, Samanyu Mahajan, Vishal Sharma, Rushil Gupta...

TL;DR最近的研究表明，基于对象的表示可以极大地提高学习动力学的准确性，同时带来可解释性。本研究进一步探讨了这一想法，探讨了在基于对象模型中学习解缠表示是否可以进一步提高视觉动力学预测的准确性。我们的体系结构的关键部分是“块”的概念，多个块组成一个对象，每个块都是一组可学习的概念向量的线性组合，在学习过程中逐步完善。我们的模型中的块是以无监督的方式发现的，通过关注对象掩码，并以类似于“槽”发现的方式进行密集基于对象的表示学习。通过Transformer和自注意力机制，我们对 discovered blocks 进行自我-注意力操作以预测下一个状态，从而发现视觉动力学。我们在几个基准2D和3D数据集上进行了一系列实验，证明了我们的体系结构：(1)可以发现有语义意义的块；(2)相对于SOTA的基于对象模型，帮助提高动力学预测的准确性；(3)在未见过训练阶段的特定属性组合的OOD设置中表现明显更好。我们的实验证明了对视觉动力学预测的解缠表示的发现的重要性。

Abstract

Recent work has shown that object-centric representations can greatly help improve the accuracy of learning dynamics while also bringing interpretability. In this work, we take this idea one step further, ask the

发现论文，激发创造

面向结构模型视频预测的可解释潜空间

我们提出了一种物体为中心的模型，使用图神经网络中的对比学习在潜在空间中预测未来的状态，并注入了显式归纳偏置以帮助提高模型的预测准确性。我们的模型不仅可捕捉物体交互作用，而且能够提高物体位置的定位能力，且实验表明我们的模型在多个领域中具有显著的优势。

Jul, 2021

通过判别权重生成建立物体空间的目标追踪

本文提出了一种利用交互学习物体特征的框架，并采用卷积超级网络对每个物体进行编码，以提高标签效率。

Dec, 2021

可证明学习物体为中心的表达

通过引入组合性和不可约性假设，分析了何时可以在无监督情况下学习对象为中心的表示，并通过在合成数据上的实验验证了结果。还提供了证据表明该理论具有现有对象为中心模型的预测能力。

May, 2023

面向对象的架构实现高效因果表示学习

利用因果表征学习和面向物体的学习相结合，通过修改Slot Attention架构，开发出了一种利用稀疏扰动进行弱监督的物体中心化架构，以更少的扰动成功解缠多个物体的属性。

Oct, 2023

目标中心学习中的明确解耦表示

从原始视觉数据中提取结构化表示是机器学习中一个重要且长期存在的挑战。最近，无监督学习目标为客观中心化表示的技术引起了越来越多的关注。本文提出了一种新颖的架构，通过在潜在空间维度的两个不重叠的子集中偏置客观中心化模型，以将形状和纹理成分分离开。在一系列客观中心化基准测试中的实验证明了我们的方法实现了所需的分离性，并在大多数情况下在数值上提高了基准性能。此外，我们还展示了我们的方法可以为特定对象生成新颖的纹理或在具有不同形状的对象之间传递纹理。

Jan, 2024

物体中心视觉预测的物理动态学习

本研究提出了一种无监督的物体中心预测模型，通过学习物体之间的视觉动态来进行未来预测，实验结果表明该模型在生成视觉质量和物理可靠性方面优于现有技术。

Mar, 2024

无监督物体本体运动动力学预测

我们提出了一种名为Object-Centric Kinematics (OCK)的动态预测框架，利用了对象为中心的表示方法，并通过各种转换机制进行综合，以实现有效的对象为中心的动态建模。该模型在处理复杂场景中的对象和背景时表现出卓越的性能，同时在不同的合成环境中展示了泛化能力，突显了它在与视觉相关的任务中的潜力。

Apr, 2024

离散群聚表示引导物体为中心的学习

类似于人类将视觉场景视为对象，基于目标的学习（OCL）可以将密集图像或视频抽象成稀疏的对象级特征。我们提出了“Grouped Discrete Representation”（GDR）方法，通过将特征分组为属性并使用元组编号对其进行索引，解决了将特征视为最小单位而忽视特征组成的属性的问题，并且在不同的查询初始化、数据集形式和模型架构的广泛实验中一致提高了收敛性和泛化能力。可视化结果显示我们的方法有效捕捉了特征中的属性级别信息。

Jul, 2024

基于静态-动态条件解耦的序列表示学习

本研究解决了序列数据中自监督解耦表示学习的难题，特别是如何区分视频中的时间独立和时间变化因素。作者提出的新模型通过明确考虑静态/动态变量之间的因果关系，打破了以往的独立假设，并引入了一种新的理论基础的解耦约束，从而提高了模型的表现力。实验表明，该方法在场景动态受内容影响的情况下，显著优于以往复杂的尖端技术。

Aug, 2024

零样本对象中心表示学习

本研究解决了对象中心表示学习在未见数据和任务中的应用问题。通过引入一个涵盖多种合成与真实世界数据集的基准，探讨了零样本泛化的影响因素，并提出了一种新的微调策略，使得预训练视觉编码器适应对象发现任务。研究发现，该方法在无监督对象发现任务中实现了最新的性能，并展现出强大的零样本迁移能力。

Aug, 2024