通过预测动态和外观统计信息进行视频自监督时空表示学习

Apr, 2019

通过预测动态和外观统计信息进行视频自监督时空表示学习

Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics

Jiangliu Wang, Jianbo Jiao, Linchao Bao, Shengfeng He, Yunhui Liu...

TL;DR在没有人工标注标签的前提下，本文提出了一种自我监督学习方法来学习视频的时空特征，通过回归时空维度上的外观和运动统计量来提取视觉特征，并在视频分类任务中验证了其有效性。

Abstract

We address the problem of video representation learning without human-annotated labels. While previous efforts address the problem by designing novel self-supervised tasks using video data, the learned features are merely on a frame-by-frame basis, which are not applicable to many vide

发现论文，激发创造

通过视频旋转预测进行自监督空时特征学习

本文提出了3DRotNet，一种全自我监管的方法，用于从未标记的视频中学习空间时间特征来提高视频理解任务的性能

Nov, 2018

利用可变的回放速度预测视频的自监督视觉学习

提出了一种无需标注数据的自我监督视觉学习方法，通过预测视频播放速度的变化来学习视频的时空视觉表示，同时运用可变播放速度下视觉外观的变化来学习整个视频的时空视觉特征，并提出了一种新的可应用于三维卷积神经网络的可靠的时间组归一化方法，最终在UCF-101和HMDB-51数据集上验证了该方法的有效性。

Mar, 2020

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高UCF101和HMDB51上的动作识别的传递性能。

Jul, 2020

时空对比视频表征学习

本文引入了一种基于对比损失的自监督对比视频表示学习方法，利用在嵌入空间中相同短视频的两个增强剪辑进行学习，同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识，在 Kinetics-600 数据集上，该方法可以超过 ImageNet 和 SimCLR 的性能，达到70.4%的top-1准确率

Aug, 2020

通过发掘时空统计信息进行自监督视频表示学习

本文旨在提出一种自监督视频表示学习的新型先验任务，通过计算一系列时空统计摘要信息，利用神经网络训练来产生摘要信息，采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度，在四个3D骨干网络上的实验结果表明，该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。

Aug, 2020

无监督时空表征学习大规模研究

本文通过对四个最新的基于图像的视角的统一，提出了一种可以很好地概括所有这些方法的简单目标，该目标鼓励同一视频中的时间持久特征，在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人，我们从该研究中得出了一系列有趣的观察结果，例如，即使时间跨度为60秒，鼓励长时间持久性也可以很有效。

Apr, 2021

具有自监督的情境化时空对比学习

本文提出了一种基于上下文感知的时空对比学习（ConST-CL）的方法，该方法成功地实现了学习细粒度视频表示，利用区域预文本任务引导模型从一个视角到另一个视角转换，并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示，并展示了ConST-CL在6个数据集上取得了具有竞争力的结果，包括Kinetics，UCF，HMDB，AVA-Kinetics，AVA和OTB。

Dec, 2021

视频自监督学习综述

本篇综述论文讨论了自监督学习在视频领域的应用，主要归纳了四种不同的自监督学习方法，分别为预测任务、生成式学习、对比学习和跨模态协议，并讨论了现有方法的局限性和未来发展方向。

Jun, 2022

不再取巧：实现时间自监督的潜力

我们提出了更具挑战性的帧级自我监督任务和有效的增强策略，通过增加Transformer模型来训练从对比学习中预训练的单帧视频表示，大幅提升了通过时间自我监督学习到的特征的质量，并且在高水平语义任务和低水平时序任务上表现出卓越的性能。

Dec, 2023

深度视频表示学习综述

该论文提供了对视频表示学习的综述，对于顺序视觉数据的时空特征学习方法进行分类，并比较它们在视频分析中的优缺点。

May, 2024