Nov, 2020
层次化解耦空间-时间对比用于自监督视频表征学习
Hierarchically Decoupled Spatial-Temporal Contrast for Self-supervised
Video Representation Learning
TL;DR提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。