Mar, 2022

通过序列对比学习获取长视频的逐帧动作表示

TL;DR本文提出了一种新颖的对比行动表示学习(CARL)框架,用于以自我监督的方式学习帧级行动表示,特别是针对长视频。该框架包括一个简单而高效的视频编码器,以及应用于一系列时空数据增强的新颖序列对比损失(SCL)。我们通过FineGym,PennAction和Pouring数据集的实验证明,该方法在下游的细粒度行动分类任务上表现出明显的优越性。 令人惊讶的是,即使没有对配对视频进行训练,我们的方法在视频对齐和细粒度帧检索任务上也表现出了出色的性能。