Jul, 2024

通过Transformer在面向对象模型中学习视觉动态预测的解缩放表示

TL;DR最近的研究表明,基于对象的表示可以极大地提高学习动力学的准确性,同时带来可解释性。本研究进一步探讨了这一想法,探讨了在基于对象模型中学习解缠表示是否可以进一步提高视觉动力学预测的准确性。我们的体系结构的关键部分是“块”的概念,多个块组成一个对象,每个块都是一组可学习的概念向量的线性组合,在学习过程中逐步完善。我们的模型中的块是以无监督的方式发现的,通过关注对象掩码,并以类似于“槽”发现的方式进行密集基于对象的表示学习。通过Transformer和自注意力机制,我们对 discovered blocks 进行自我-注意力操作以预测下一个状态,从而发现视觉动力学。我们在几个基准2D和3D数据集上进行了一系列实验,证明了我们的体系结构:(1)可以发现有语义意义的块;(2)相对于SOTA的基于对象模型,帮助提高动力学预测的准确性;(3)在未见过训练阶段的特定属性组合的OOD设置中表现明显更好。我们的实验证明了对视觉动力学预测的解缠表示的发现的重要性。