通过识别时间转换进行视频表示学习
介绍了一种新的自监督对比学习方法,旨在从未标记的视频中学习表示。该方法利用新的约束条件,以建立对时间变换等价的表示,并更好地捕捉视频动态。实验表明,时间等变表示在 UCF101,HMDB51 和 Diving48 的视频检索和动作识别基准测试中实现了最先进的结果。
Dec, 2021
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。
Sep, 2018
该论文提出了一种从视频的原始时空信号中学习视觉表示的方法,通过无监督的顺序验证任务,即确定来自视频的帧序列是否按照正确的时间顺序排列,学习卷积神经网络 (CNN) 的强大视觉表示,其结果显示出该方法在捕捉人类姿势等在时间上变化的信息方面具有敏感性,并可用于姿势估计和行动识别。
Mar, 2016
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文提出了一种无监督表征学习方法,可以紧凑地编码视频中的运动依赖。利用 RNN Encoder-Decoder 框架预测序列化的原子级 3D 流,以有效地减少学习框架的复杂性。该方法可以用于运动分类和识别等多种应用。
Jan, 2017
本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示,该方法结合图像表示中的两种顶级目标 —— 实例识别和局部聚合,以及通过 IDT 描述符构成的集群。使用此方法,我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果,并且成功捕捉了视频动态。
Jun, 2020
本文提出了一个两阶段的生成框架来解决图像到视频转换的问题,其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果,证明了我们方法的有效性。
Jul, 2018
本文提出了一种利用视频进行无监督表示学习的方法,采用时序一致性作为监督信号,将表示学习形式化为序列排序任务,通过训练卷积神经网络对打乱的图像序列进行排序,以预测正确的顺序。实验结果表明,我们的方法在行动识别、图像分类和物体检测任务上比状态 - of-the-art 方法效果更好。
Aug, 2017
本论文提出了一种通过运动类型分类来理解对象运动的新方法,该分类器可以将给定视频分配到五种不同的原始运动类中,通过该方法获得的表征性能良好,适用于具有挑战性的下游视频检索任务,我们还基于运动类型分类器提出了视频播放风格的推荐系统。
Oct, 2021