ICCVSep, 2023

无监督开放词汇视频物体定位

TL;DR通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位,我们展示了近期视频表征学习和预训练视觉语言模型的重要进展,取得了显著的提升,并成为首个在常规视频基准数据集上具有良好结果的无监督方法。