通过上下文和运动解耦实现自监督视频表示学习
提出了一种解耦场景和物体运动信息的 DSM 方法,通过构造正负剪辑来加强模型对物体运动信息的关注,减少场景信息的影响,并在两项任务上进行实验,发现在 UCF101 和 HMDB51 数据集上动作识别任务的准确率分别提高了 8.1%和 8.8%。
Sep, 2020
本篇研究提出了一种新的基于条件运动传播和稀疏光流技术的自监督学习范式,能够有效地学习视觉表征,并在语义分割、实例分割以及人体解析等多个任务上实现最先进的自监督学习表现,还能实现半自动像素级标注。
Mar, 2019
本文提出了基于长程残差帧和运动对比知觉网络的视频表示学习方法,旨在通过自监督学习获得更多的运动特定信息,并通过对比学习提高模型的语义表达性能,实验结果表明该方法对于 UCF-101 和 HMDB-51 数据集具有较高的性能表现。
Apr, 2022
本文提出了一种基于 Motion-focused 对比学习的方法,利用光流采样和梯度图校准训练视频特征,加强了自监督视频表示学习中的数据增强和特征学习,实验结果表明方法有效,超过了传统监督预训练的表现。
Jan, 2022
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个 3D 骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
该文章提出了一种名为 Continuity Perception Network (CPNet) 的自我监督学习方法,旨在利用视频连续性探索视频表示的本质,提出三种新的任务,促进视频表示学习,其在多个任务中表现优异。
Dec, 2021
本文介绍了一种称为 MotionFit 的自训练方法,采用 3D 卷积神经网络、运动模型和假标签来提高视频下游任务的效果。该方法在小规模视频数据集中表现优异,远超其他知识迁移算法、半监督学习和仅使用视频的自我监督学习。
May, 2021
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文介绍了一种面向电影理解的自监督视频学习方法,采用分层的预训练策略,在低层进行对比学习,高层则采用事件遮罩预测任务来预训练视频上下文模型,并在 VidSitu 基准测试中表现出更好的性能。同时,在 LVU 任务中,我们还展示了上下文化事件特征的有效性。
Apr, 2022