DistInit: 不使用单个带标签视频学习视频表示

ICCVJan, 2019

DistInit: 不使用单个带标签视频学习视频表示

DistInit: Learning Video Representations Without a Single Labeled Video

Rohit Girdhar, Du Tran, Lorenzo Torresani, Deva Ramanan

TL;DR本文提出了一种另类的方法，通过使用预训练的图像模型作为 “老师” 来训练视频模型，从而实现对视频表示的无监督学习。相比于现有的技术，该方法在 input modalities 的不同数据源下具有更强的迁移性能，并在彻底未被筛选的原始视频数据来源下进行训练。

Abstract

video recognition models have progressed significantly over the past few years, evolving from shallow classifiers trained on hand-crafted features to deep spatiotemporal networks. However, labeled video data requ

video recognition deep spatiotemporal networks distillation framework video representations unsupervised learning

发现论文，激发创造

从未标记的视频中进行表征学习：看着世界走过去

本研究提出了使用视频自然增广的无标签视频学习方法，可以有效地提取单个图像的表示，并可用于各种时间和非时间任务中。

Mar, 2020

自监督视频预训练产生强大的图像表示

提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Oct, 2022

无标签视频中的物体中心表示学习

本研究介绍了一种从未标记的视频中进行无监督学习的新方法，通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体，并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。

Dec, 2016

利用视频进行无监督学习的视觉表示

本文介绍了一种使用大量未标记数据进行无监督学习的方法，通过使用数十万个未标记的 web 视频作为数据集，设计了一个具有排名损失函数的 Siamese-Triplet 网络，用于深度卷积神经网络的无监督学习，可在不使用 ImageNet 的情况下，获得 52% 的 mAP 的性能，并展示了此非监督网络在其它任务中表现出竞争性。

May, 2015

针对无标签视频表示学习的演化损失

提出一个新的方法，利用无标签数据学习视频表示，采用多模态、多任务学习的方法，并采用进化算法寻找更好的损失函数来训练这个表示空间，从而将音频、光流和时间信息蒸馏到一个单一的基于 RGB 的卷积神经网络中。

Jun, 2019

多任务自监督学习知识蒸馏在视频分类中的应用

本文提出了一种基于图的蒸馏框架，将来自多个自监督任务的知识进行传递和压缩，以提高视频表示的学习效果和模型推理速度。

Apr, 2018

遮蔽视频蒸馏：重新思考遮蔽特征建模，以进行自监督视频表示学习

本文提出基于两阶段模型的掩模视频蒸馏方法 (MVD)，并采用空间 - 时间共同教学方法进行电影变换器的预训练，实验证明该方法对于多个视频数据集优于现有方法。

Dec, 2022

野外视频中的表示学习：以对象为中心的方法

该篇论文提出了一种从未加工过的视频中学习图像表示的方法，该方法将来自现成物体检测器的监督损失和自我监督损失相结合，取得了在 19 个迁移学习任务中有竞争力的结果，其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。

Oct, 2020

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

从视频中无监督地学习解缠表示

DrNET 是一种用于学习从视频中生成分离图像表示的新型模型，通过利用视频的时间一致性和新型的对抗性损失函数来学习一种表示，该表示将每一帧分解为一个固定部分和一个随时间变化的成分，这种分离的表示可以用于一系列任务，例如将标准 LSTM 应用于随时间变化的成分，从而预测未来的帧。

May, 2017