该论文提出了一种从视频的原始时空信号中学习视觉表示的方法,通过无监督的顺序验证任务,即确定来自视频的帧序列是否按照正确的时间顺序排列,学习卷积神经网络(CNN)的强大视觉表示,其结果显示出该方法在捕捉人类姿势等在时间上变化的信息方面具有敏感性,并可用于姿势估计和行动识别。
Mar, 2016
本文提出了一种无监督表征学习方法,可以紧凑地编码视频中的运动依赖。利用RNN Encoder-Decoder框架预测序列化的原子级3D流,以有效地减少学习框架的复杂性。该方法可以用于运动分类和识别等多种应用。
Jan, 2017
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
TCE是一种自监督学习方法,利用无标签视频数据的内在结构在嵌入空间中明确强制执行时间上的连贯性,以便从大量无标签视频数据中学习出稳健的表示,该方法经过了对多个数据集的评估,能够继续改进视频动作识别的性能。
Mar, 2020
本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示,该方法结合图像表示中的两种顶级目标——实例识别和局部聚合,以及通过 IDT 描述符构成的集群。使用此方法,我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果,并且成功捕捉了视频动态。
Jun, 2020
本文提出了一种新的自监督视频表示学习方法,即通过视频速度预测的方法来引导网络学习空间-时间特征,通过对相似视频内容最大化协同一致性来使模型区分不同速度的视频。实验表明,该方法在不同网络结构和数据集上均取得了现有最佳结果。
Aug, 2020
本篇综述论文讨论了自监督学习在视频领域的应用,主要归纳了四种不同的自监督学习方法,分别为预测任务、生成式学习、对比学习和跨模态协议,并讨论了现有方法的局限性和未来发展方向。
Jun, 2022
本文提出了一种面向视频任务的基于Transformer的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
提出了一种名为MME的预训练模型,旨在通过重建外观和运动信息来探索时序线索,从而改善视频表示性能。方法着重解决多帧间的长期运动和从稀疏视频中获取细粒度时序线索这两个关键问题,并通过重建模糊区域中代表位置和形状变化的运动轨迹,使预训练模型进一步预测运动细节。
Oct, 2022
文章通过自监督学习方法,提出了一个基于时间均衡的学生-教师半监督学习框架,动态地结合具有时变不变性和时变区别性的两个教师的知识,从而取得了UCF101,HMDB51和Kinetics400三个动作识别基准数据集的最新性能。
Mar, 2023