通过上下文和运动解耦实现自监督视频表示学习
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高UCF101和HMDB51上的动作识别的传递性能。
Jul, 2020
本文提出了一种新的自监督视频表示学习方法,即通过视频速度预测的方法来引导网络学习空间-时间特征,通过对相似视频内容最大化协同一致性来使模型区分不同速度的视频。实验表明,该方法在不同网络结构和数据集上均取得了现有最佳结果。
Aug, 2020
提出了一种解耦场景和物体运动信息的DSM方法,通过构造正负剪辑来加强模型对物体运动信息的关注,减少场景信息的影响,并在两项任务上进行实验,发现在UCF101和HMDB51数据集上动作识别任务的准确率分别提高了8.1%和8.8%。
Sep, 2020
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。
Nov, 2020
本文介绍了一种称为 MotionFit 的自训练方法,采用 3D 卷积神经网络、运动模型和假标签来提高视频下游任务的效果。该方法在小规模视频数据集中表现优异,远超其他知识迁移算法、半监督学习和仅使用视频的自我监督学习。
May, 2021
本文提出了一种新颖的对比行动表示学习(CARL)框架,用于以自我监督的方式学习帧级行动表示,特别是针对长视频。该框架包括一个简单而高效的视频编码器,以及应用于一系列时空数据增强的新颖序列对比损失(SCL)。我们通过FineGym,PennAction和Pouring数据集的实验证明,该方法在下游的细粒度行动分类任务上表现出明显的优越性。 令人惊讶的是,即使没有对配对视频进行训练,我们的方法在视频对齐和细粒度帧检索任务上也表现出了出色的性能。
Mar, 2022
本文介绍了一种面向电影理解的自监督视频学习方法,采用分层的预训练策略,在低层进行对比学习,高层则采用事件遮罩预测任务来预训练视频上下文模型,并在VidSitu基准测试中表现出更好的性能。同时,在LVU任务中,我们还展示了上下文化事件特征的有效性。
Apr, 2022
提出了一种名为MME的预训练模型,旨在通过重建外观和运动信息来探索时序线索,从而改善视频表示性能。方法着重解决多帧间的长期运动和从稀疏视频中获取细粒度时序线索这两个关键问题,并通过重建模糊区域中代表位置和形状变化的运动轨迹,使预训练模型进一步预测运动细节。
Oct, 2022
本文提出了用于视频领域的自监督学习基准,并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析,同时提出一种新方法,不需要过多的训练数据,即可超越现有自监督预训练的先进水平。
Jun, 2023
我们提出了更具挑战性的帧级自我监督任务和有效的增强策略,通过增加Transformer模型来训练从对比学习中预训练的单帧视频表示,大幅提升了通过时间自我监督学习到的特征的质量,并且在高水平语义任务和低水平时序任务上表现出卓越的性能。
Dec, 2023