时空对比视频表征学习

Aug, 2020

Spatiotemporal Contrastive Video Representation Learning

Rui Qian, Tianjian Meng, Boqing Gong, Ming-Hsuan Yang, Huisheng Wang...

TL;DR本文引入了一种基于对比损失的自监督对比视频表示学习方法，利用在嵌入空间中相同短视频的两个增强剪辑进行学习，同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识，在 Kinetics-600 数据集上，该方法可以超过 ImageNet 和 SimCLR 的性能，达到70.4%的top-1准确率

Abstract

We present a self-supervised contrastive video representation learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Inspired by the recently proposed self-supervised contrastive learning framework, our representations are learned using a contrasti

发现论文，激发创造

通过预测动态和外观统计信息进行视频自监督时空表示学习

在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Apr, 2019

视频表示学习中的视觉节奏一致性

本文提出一种基于视觉节奏的自监督学习方法，通过 VTHCL 算法，最大化慢速和快速视频表示之间的互信息来学习视频表示，并在动作识别任务上实现了较为竞争的表现。

Jun, 2020

层次化解耦空间-时间对比用于自监督视频表征学习

提出一种新的自监督视频表示学习技术，通过将学习目标分解为两个对比子任务并分层进行，强调空间和时间特征，从而鼓励多尺度理解。通过实验表明，可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义，并提出一种方式，使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。

Nov, 2020

可组合增强编码用于视频表示学习

研究自监督视频表示学习中的对比方法，提出一种考虑数据增强变量的对比学习框架，以提高针对时间信息进行的微粒视频动作识别的性能，并在多个视频基准测试中达到最先进水平。

Apr, 2021

时间等变对比视频表示学习

介绍了一种新的自监督对比学习方法，旨在从未标记的视频中学习表示。该方法利用新的约束条件，以建立对时间变换等价的表示，并更好地捕捉视频动态。实验表明，时间等变表示在UCF101，HMDB51和Diving48的视频检索和动作识别基准测试中实现了最先进的结果。

Dec, 2021

具有自监督的情境化时空对比学习

本文提出了一种基于上下文感知的时空对比学习（ConST-CL）的方法，该方法成功地实现了学习细粒度视频表示，利用区域预文本任务引导模型从一个视角到另一个视角转换，并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示，并展示了ConST-CL在6个数据集上取得了具有竞争力的结果，包括Kinetics，UCF，HMDB，AVA-Kinetics，AVA和OTB。

Dec, 2021

以动作为中心的对比学习视频表征

本文提出了一种基于Motion-focused对比学习的方法，利用光流采样和梯度图校准训练视频特征，加强了自监督视频表示学习中的数据增强和特征学习，实验结果表明方法有效，超过了传统监督预训练的表现。

Jan, 2022

通过序列对比学习获取长视频的逐帧动作表示

本文提出了一种新颖的对比行动表示学习（CARL）框架，用于以自我监督的方式学习帧级行动表示，特别是针对长视频。该框架包括一个简单而高效的视频编码器，以及应用于一系列时空数据增强的新颖序列对比损失（SCL）。我们通过FineGym，PennAction和Pouring数据集的实验证明，该方法在下游的细粒度行动分类任务上表现出明显的优越性。令人惊讶的是，即使没有对配对视频进行训练，我们的方法在视频对齐和细粒度帧检索任务上也表现出了出色的性能。

Mar, 2022

时空表示的双重对比学习

该论文提出了一种新的双重对比学习框架来解决背景场景偏差问题并有效地学习时空表示，实验证明在UCF-101，HMDB-51和Diving-48数据集上具有最先进的性能。

Jul, 2022

基于运动敏感的对比学习方法用于自监督视频表征

本文提出了一种Motion Sensitive Contrastive Learning (MSCL)方法，将光流获取的运动信息注入到RGB帧中，强化特征学习，通过局部运动对比学习（LMCL），以及流旋转增强（FRA）和运动差分采样（MDS）等方法对其进行扩展，对标准基准数据集进行了广泛的实验，提高了UCF101和Something-Something v2的视频分类性能，并显著提高了UCF101的视频检索性能。

Aug, 2022