自监督视频预训练产生强大的图像表示

Oct, 2022

自监督视频预训练产生强大的图像表示

Self-supervised video pretraining yields strong image representations

Nikhil Parthasarathy, S. M. Ali Eslami, João Carreira, Olivier J. Hénaff

TL;DR提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与ImageNet预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Abstract

Videos contain far more information than still images and hold the potential for learning rich representations of the visual world. Yet, pretraining on image datasets has remained the dominant paradigm for learning representations that capture spatial information, and previous attempts at video pretraining have fallen short on image understanding tasks. In t

发现论文，激发创造

从未标记的视频中进行表征学习：看着世界走过去

本研究提出了使用视频自然增广的无标签视频学习方法，可以有效地提取单个图像的表示，并可用于各种时间和非时间任务中。

Mar, 2020

野外视频中的表示学习: 以对象为中心的方法

该篇论文提出了一种从未加工过的视频中学习图像表示的方法，该方法将来自现成物体检测器的监督损失和自我监督损失相结合，取得了在19个迁移学习任务中有竞争力的结果，其中包括18/19的少样本学习任务和8/8的数据集泛化任务。

Oct, 2020

对比检测的高效视觉预训练

引入对比检测算法的自监督目标，通过在图像增强中识别物体水平特征提取富有学习信息的信号，实现高效的自监督预训练，拥有多种下游任务的领先转移精度。在 ImageNet 预训练模型表现与大型自监督系统 SEER 相当的同时，需要少至 10 倍的预训练数据量，最终该目标还能轻松应对更复杂的图像。

Mar, 2021

对比度视觉表征学习何时有效？

本文研究了自监督学习在四个不同的大规模数据集上的对比学习方法，通过数据量、数据领域、数据质量和任务粒度，得出了有关成功自监督学习所需条件的新见解，其中包括：(i) 除500k张图像外，额外的预训练数据的收益有限；(ii) 添加来自另一个领域的预训练图像不会产生更通用的表示。(iii) 比较学习在细粒度的视觉分类任务中远远落后于监督学习。

May, 2021

视频Transformer的长短时对比学习

本文提出了一种叫做“长短时对比学习（LSTCL）”的学习程序，可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时，学习一个有效的剪辑级表示，并在多项视频基准测试上取得了有竞争力的表现，成为有监督基于图像的预训练的有力替代方案。

Jun, 2021

视频自监督学习综述

本篇综述论文讨论了自监督学习在视频领域的应用，主要归纳了四种不同的自监督学习方法，分别为预测任务、生成式学习、对比学习和跨模态协议，并讨论了现有方法的局限性和未来发展方向。

Jun, 2022

自监督视频表示学习的静态和动态概念

该研究提出了一种新的自监督视频表示学习方案，分别学习全局视觉概念和局部特征，使用交叉注意力机制聚合不同概念的详细本地特征来执行局部概念对比，并取得了UCF-101、HMDB-51和Diving-48的最新成果。

Jul, 2022

自监督视频表征学习基准测试

本文提出了用于视频领域的自监督学习基准，并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析，同时提出一种新方法，不需要过多的训练数据，即可超越现有自监督预训练的先进水平。

Jun, 2023

从一段长的无标签视频中学习强大的图像编码器，ImageNet是否值得？

通过研究第一人称视频和引入“漫步旅行”数据集，本文介绍了一种新颖的适用于连续视频学习的自监督图像预训练方法，称为DoRA方法，通过跟踪和学习来发现和追踪对象，使得单个“漫步旅行”视频在多个图像和视频下游任务中成为ImageNet的强有力竞争者。

Oct, 2023

不再取巧：实现时间自监督的潜力

我们提出了更具挑战性的帧级自我监督任务和有效的增强策略，通过增加Transformer模型来训练从对比学习中预训练的单帧视频表示，大幅提升了通过时间自我监督学习到的特征的质量，并且在高水平语义任务和低水平时序任务上表现出卓越的性能。

Dec, 2023