自监督视频表示学习的掩模运动编码
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高UCF101和HMDB51上的动作识别的传递性能。
Jul, 2020
本文提出了一种自监督学习的方法,通过在压缩视频中提取关键帧和动态向量来分别监督上下文和动态信息,并同时设计了两种预设任务,即上下文匹配任务和动态预测任务,以提高视频表示的质量和行动识别准确性。
Apr, 2021
本文介绍了一种称为 MotionFit 的自训练方法,采用 3D 卷积神经网络、运动模型和假标签来提高视频下游任务的效果。该方法在小规模视频数据集中表现优异,远超其他知识迁移算法、半监督学习和仅使用视频的自我监督学习。
May, 2021
本文提出了一种基于自监督学习的时空匹配方法,称为Motion-Aware Mask Propagation(MAMP),用于视频对象分割,利用帧重建任务进行训练,而无需进行标注,在DAVIS-2017和YouTube-VOS数据集上得到了最先进的性能。
Jul, 2021
本文提出基于两阶段模型的掩模视频蒸馏方法(MVD),并采用空间-时间共同教学方法进行电影变换器的预训练,实验证明该方法对于多个视频数据集优于现有方法。
Dec, 2022
本文提出了一种用于3D动作识别的Masked Motion Prediction(MAMP)框架,通过对蒙面的空间-时间骨骼序列进行预测,实现对丰富语义区域的更好关注,进而提高自监督预训练的性能。经过对NTU-60、NTU-120和PKU-MMD数据集的广泛实验,表明所提出的MAMP预训练方法显著提高了基础的transformer模型的性能,并取得了最先进的结果。MAMP的源代码可以在给定的网址上找到。
Aug, 2023
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。
Aug, 2023
提出了一种名为M$^{3}$3D的新的预训练策略,该策略基于基于多模态遮蔽自编码器,可以利用三维先验和学习的跨模态表示,以增强颜色-深度数据之间的对应关系,并能在各种下游任务中提高性能。
Sep, 2023
使用自我监督训练改进现有的有监督模型,通过将数据标记和训练分为两个不同的阶段,并结合简单的技术来稠密化和重平衡伪标签,从而在实际视频中实现可靠的增益,适用于短期(基于流)和长距离(多帧)像素跟踪。
Jan, 2024
本研究解决了视频变换器预训练中面临的数据收集成本、隐私及偏见问题。通过引入伪运动生成器(PMG)模块,该框架利用静态图像生成伪运动视频,进而进行遮蔽视频建模。实验结果显示,该方法有效增强了时空特征的学习,超越了现有静态图像的方法,并在一定程度上超越了使用真实和合成视频的方法。
Sep, 2024