Apr, 2024

定制制作:通过自主学习的视频排序发现单调时间变化

TL;DR我们的目标是发现和定位图像序列中的单调时间变化。为了实现这一目标,我们利用了一个简单的代理任务,即对乱序图像序列进行排序,通过 ` 时间 ' 作为监督信号,因为只有与时间单调变化的改变才能产生正确的排序。我们还引入了一种灵活的基于 Transformer 的模型,用于任意长度图像序列的通用排序,并具备内置的归因图。经过训练,该模型成功地发现和定位了单调变化,同时忽略了周期性和随机性的变化。我们展示了该模型在多种视频场景和对象类型中的应用,发现了未见序列中的对象级和环境变化。我们还证明了基于注意力的归因图作为有效的提示用于分割变化区域,并且学到的表示可以用于下游应用。最后,我们展示了该模型在对图像集进行排序的标准基准上达到了业界最高水平。