自监督视频表示的对比时空预训练学习

Dec, 2021

自监督视频表示的对比时空预训练学习

Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video Representation

Yujia Zhang, Lai-Man Po, Xuyuan Xu, Mengyang Liu, Yexin Wang...

TL;DR本文提出了一种新的预训练任务方案，即基于空时重叠率 (STOR) 预测，旨在通过判断生成样本之间的 STOR 来学习视频自监督表示学习，并结合对比学习和预训练任务进行联合优化，从而进一步提高视频理解的空时表示学习。

Abstract

spatio-temporal representation learning is critical for video self-supervised representation. Recent approaches mainly use contrastive learning and pretext tasks. However, these approaches learn representation by

发现论文，激发创造

通过预测动态和外观统计信息进行视频自监督时空表示学习

在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Apr, 2019

利用Inter-intra对比框架进行自监督视频表示学习

本文提出了一种基于自我监督学习的视频特征表示方法，在传统自我监督学习的基础上通过引入内部负样本来扩展负样本集，从而使单个视频更加充分地表达时空信息，并能够有效地提高视频检索和识别的性能。

Aug, 2020

时空对比视频表征学习

本文引入了一种基于对比损失的自监督对比视频表示学习方法，利用在嵌入空间中相同短视频的两个增强剪辑进行学习，同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识，在 Kinetics-600 数据集上，该方法可以超过 ImageNet 和 SimCLR 的性能，达到70.4%的top-1准确率

Aug, 2020

通过发掘时空统计信息进行自监督视频表示学习

本文旨在提出一种自监督视频表示学习的新型先验任务，通过计算一系列时空统计摘要信息，利用神经网络训练来产生摘要信息，采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度，在四个3D骨干网络上的实验结果表明，该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。

Aug, 2020

预文本对比学习：自监督视频表示学习的良好实践

本文提出了一种联合优化框架 Pretext-Contrastive Learning (PCL) 可以显著提高预训练任务和对比学习的表现，在自监督视频特征学习任务中可以超过当前的 SOTA 方法。

Oct, 2020

层次化解耦空间-时间对比用于自监督视频表征学习

提出一种新的自监督视频表示学习技术，通过将学习目标分解为两个对比子任务并分层进行，强调空间和时间特征，从而鼓励多尺度理解。通过实验表明，可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义，并提出一种方式，使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。

Nov, 2020

无监督时空表征学习大规模研究

本文通过对四个最新的基于图像的视角的统一，提出了一种可以很好地概括所有这些方法的简单目标，该目标鼓励同一视频中的时间持久特征，在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人，我们从该研究中得出了一系列有趣的观察结果，例如，即使时间跨度为60秒，鼓励长时间持久性也可以很有效。

Apr, 2021

具有自监督的情境化时空对比学习

本文提出了一种基于上下文感知的时空对比学习（ConST-CL）的方法，该方法成功地实现了学习细粒度视频表示，利用区域预文本任务引导模型从一个视角到另一个视角转换，并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示，并展示了ConST-CL在6个数据集上取得了具有竞争力的结果，包括Kinetics，UCF，HMDB，AVA-Kinetics，AVA和OTB。

Dec, 2021

时空表示的双重对比学习

该论文提出了一种新的双重对比学习框架来解决背景场景偏差问题并有效地学习时空表示，实验证明在UCF-101，HMDB-51和Diving-48数据集上具有最先进的性能。

Jul, 2022

学习用于半监督动作识别的判别时空表示

采用自适应对比学习策略和多尺度时间学习策略，提出一种新型半监督动作识别方法，用于改进少量标记数据下的时空推理能力，取得了比之前先进方法更优越的结果。

Apr, 2024