稠密预测编码的视频表示学习
本文介绍了一种自我监督的视频表示学习方法,使用 Memory-augmented Dense Predictive Coding(MemDPC)框架进行训练,能够高效地进行多个假设,模型在四个不同的下游任务中均达到了同类模型中最佳的性能,具有很高的应用推广价值。
Aug, 2020
本文提出了一种无监督表征学习方法,可以紧凑地编码视频中的运动依赖。利用 RNN Encoder-Decoder 框架预测序列化的原子级 3D 流,以有效地减少学习框架的复杂性。该方法可以用于运动分类和识别等多种应用。
Jan, 2017
TCE 是一种自监督学习方法,利用无标签视频数据的内在结构在嵌入空间中明确强制执行时间上的连贯性,以便从大量无标签视频数据中学习出稳健的表示,该方法经过了对多个数据集的评估,能够继续改进视频动作识别的性能。
Mar, 2020
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本文提出了一个基于无监督学习的方法来学习视频中的动作识别表示,该方法结合图像表示中的两种顶级目标 —— 实例识别和局部聚合,以及通过 IDT 描述符构成的集群。使用此方法,我们在 UCF101 和 HMDB51 动作识别基准测试中取得了优异的结果,并且成功捕捉了视频动态。
Jun, 2020
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文提出了 PixelMotionCNN 的概念,并采用基于学习的框架进行视频压缩,该框架包括迭代分析 / 综合,二值化等组件,实验结果表明该方案与 H.264 编解码器具有相当的性能表现,为未来视频编码的进一步提高压缩效率和 功能提供了可能的新方向。
Apr, 2018
本研究提出了一种名为时间调谐的方法,通过在无标签视频上使用一种新颖的自监督时序对齐聚类损失函数,从而提高视频和图像的表示质量,进而改善了现有最先进方法在无监督语义分割方面的效果。我们相信这种方法为进一步利用丰富的视频资源进行自监督学习的规模化铺平了道路。
Aug, 2023