针对无标签视频表示学习的演化损失

CVPRJun, 2019

针对无标签视频表示学习的演化损失

Evolving Losses for Unlabeled Video Representation Learning

AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo

TL;DR提出一个新的方法，利用无标签数据学习视频表示，采用多模态、多任务学习的方法，并采用进化算法寻找更好的损失函数来训练这个表示空间，从而将音频、光流和时间信息蒸馏到一个单一的基于 RGB 的卷积神经网络中。

Abstract

We present a new method to learn video representations from unlabeled data. Given large-scale unlabeled video data, the objective is to benefit from such data by learning a generic and transferable representation space that can be directly used for a new task such as zero/few-shot learning. We formulate our →

unsupervised representation learning multi-modal multi-task learning evolutionary algorithm rgb-based convolutional neural network

发现论文，激发创造

无监督视频表示学习的演化损失

本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示，采用无监督表示学习作为多模式、多任务学习问题，利用进化搜索算法来自动找到捕获许多（自我监督）任务和模态的优化损失函数的组合，并提出了一种基于 Zipf 定律的无监督表示验证度量，该度量不受任何标签的指导，可产生类似于弱监督、特定任务的结果，该方法得到了单一 RGB 网络的无监督表示学习，并且胜过了之前的方法。

Feb, 2020

从未标记的视频中进行表征学习：看着世界走过去

本研究提出了使用视频自然增广的无标签视频学习方法，可以有效地提取单个图像的表示，并可用于各种时间和非时间任务中。

Mar, 2020

DistInit: 不使用单个带标签视频学习视频表示

本文提出了一种另类的方法，通过使用预训练的图像模型作为 “老师” 来训练视频模型，从而实现对视频表示的无监督学习。相比于现有的技术，该方法在 input modalities 的不同数据源下具有更强的迁移性能，并在彻底未被筛选的原始视频数据来源下进行训练。

Jan, 2019

野外视频中的表示学习：以对象为中心的方法

该篇论文提出了一种从未加工过的视频中学习图像表示的方法，该方法将来自现成物体检测器的监督损失和自我监督损失相结合，取得了在 19 个迁移学习任务中有竞争力的结果，其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。

Oct, 2020

无标签视频中的物体中心表示学习

本研究介绍了一种从未标记的视频中进行无监督学习的新方法，通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体，并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。

Dec, 2016

用于自监督学习的多模聚类网络：来自无标签视频

本文提出了一个自监督训练框架，通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性，进而学习一个共同的多模态嵌入空间，并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.

Apr, 2021

针对不同步视听事件的弱监督表征学习

本文提出了一种基于多模态学习的新型框架，可以从非同步的音频和视觉事件中学习，用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。

Apr, 2018

多任务自监督学习知识蒸馏在视频分类中的应用

本文提出了一种基于图的蒸馏框架，将来自多个自监督任务的知识进行传递和压缩，以提高视频表示的学习效果和模型推理速度。

Apr, 2018

利用视频进行无监督学习的视觉表示

本文介绍了一种使用大量未标记数据进行无监督学习的方法，通过使用数十万个未标记的 web 视频作为数据集，设计了一个具有排名损失函数的 Siamese-Triplet 网络，用于深度卷积神经网络的无监督学习，可在不使用 ImageNet 的情况下，获得 52% 的 mAP 的性能，并展示了此非监督网络在其它任务中表现出竞争性。

May, 2015

无监督学习视角不变动作表示

提出一种无监督学习框架，利用未标记的数据来学习视频表示，通过学习推断不同视图的三维运动，捕捉视角不变的动作特征，以及增强视角不变特征的学习方法，并在多个数据集上证明该方法对动作识别的有效性。

Sep, 2018