Oct, 2023

具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

TL;DR我们提出了一种终身音视频遮罩自编码器,它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言,我们提出了两个创新点来解决这个问题:(1)局部对齐:我们引入了一个小型可训练的多模态编码器,用于预测彼此相互对齐的音频和视频令牌。这使得模型只学习具有准确多模态关系的高度相关的音视频补丁。(2)忘却鲁棒多模态补丁选择:我们比较当前数据对之间每个音视频补丁的相对重要性,以减轻先前学习的音视频表示的意外漂移。因此,我们提出的方法 FLAVA 在一系列预训练任务上训练期间捕捉音频和视频模态之间的复杂关系,并减轻了已学习音视频相关性的遗忘。我们的实验证实了 FLAVA 在持续音视频表示学习场景下的几个基准数据集上优于现有的持续学习方法。