视频自监督学习综述
该论文探讨了自我监督方法在无监督视觉表示学习中的重要性,提出之前CNN设计的标准配方不一定适用于自我监督表示学习, 并大幅度提高了之前提出技术的性能,超越了之前公布的最先进结果。
Jan, 2019
本文综述了基于深度神经网络的自监督学习方法在视觉特征学习方面的应用,由于需要大量标记数据来训练深度神经网络,因此自监督学习被提出来,使用大规模未标记数据来学习图像和视频的通用特征而无需使用任何人工标记的标签。本文对自监督学习方法的主要组件和评估指标以及已有的图像和视频特征学习方法进行了综述和比较。
Feb, 2019
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文提出了一种基于音频和视觉的聚类方法,可以实现对视频数据集的无监督标记。经过广泛的分析,结果聚类与人工标签有很高的语义重叠性。同时,该方法也为Kinetics,Kinetics-Sound,VGG-Sound和AVE等常见视频数据集的无监督标记带来了首批基准结果。
Jun, 2020
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高UCF101和HMDB51上的动作识别的传递性能。
Jul, 2020
本文研究了自监督视频学习对当前常规基准的敏感性以及能否在规范化评估设置之外进行泛化。通过对七个视频数据集、九种自监督方法和六种视频理解任务进行超过500次实验,我们发现自监督方法在大规模领域转移和可用样本数量较少的情况下,特别是在当前基准中,远远落后于普通监督预训练。通过我们的研究,我们总结了一种子集 SEVERE-benchmark,并讨论了其对现有和未来自监督视频学习方法获得表征的泛化能力的评估的影响。
Mar, 2022
本文提出了用于视频领域的自监督学习基准,并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析,同时提出一种新方法,不需要过多的训练数据,即可超越现有自监督预训练的先进水平。
Jun, 2023
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加Transformer模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
Dec, 2023