时空表示的双重对比学习
在没有人工标注标签的前提下,本文提出了一种自我监督学习方法来学习视频的时空特征,通过回归时空维度上的外观和运动统计量来提取视觉特征,并在视频分类任务中验证了其有效性。
Apr, 2019
本文引入了一种基于对比损失的自监督对比视频表示学习方法,利用在嵌入空间中相同短视频的两个增强剪辑进行学习,同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识,在 Kinetics-600 数据集上,该方法可以超过 ImageNet 和 SimCLR 的性能,达到70.4%的top-1准确率
Aug, 2020
本文旨在提出一种自监督视频表示学习的新型先验任务,通过计算一系列时空统计摘要信息,利用神经网络训练来产生摘要信息,采用多种空间分区模式进行粗略的空间位置编码方法来缓解学习难度,在四个3D骨干网络上的实验结果表明,该方法优于现有方法在视频分析任务上的性能表现包括动作识别、视频检索、动态场景识别和动作相似性标签。
Aug, 2020
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。
Nov, 2020
本文通过对四个最新的基于图像的视角的统一,提出了一种可以很好地概括所有这些方法的简单目标,该目标鼓励同一视频中的时间持久特征,在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人,我们从该研究中得出了一系列有趣的观察结果,例如,即使时间跨度为60秒,鼓励长时间持久性也可以很有效。
Apr, 2021
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了ConST-CL在6个数据集上取得了具有竞争力的结果,包括Kinetics,UCF,HMDB,AVA-Kinetics,AVA和OTB。
Dec, 2021
本文提出了一种新的预训练任务方案,即基于空时重叠率 (STOR) 预测,旨在通过判断生成样本之间的 STOR 来学习视频自监督表示学习,并结合对比学习和预训练任务进行联合优化,从而进一步提高视频理解的空时表示学习。
Dec, 2021
本文提出了一种基于Motion-focused对比学习的方法,利用光流采样和梯度图校准训练视频特征,加强了自监督视频表示学习中的数据增强和特征学习,实验结果表明方法有效,超过了传统监督预训练的表现。
Jan, 2022
本文提出了一种Motion Sensitive Contrastive Learning (MSCL)方法,将光流获取的运动信息注入到RGB帧中,强化特征学习,通过局部运动对比学习(LMCL),以及流旋转增强(FRA)和运动差分采样(MDS)等方法对其进行扩展,对标准基准数据集进行了广泛的实验,提高了UCF101和Something-Something v2的视频分类性能,并显著提高了UCF101的视频检索性能。
Aug, 2022
在本文中,我们提出了一个Fine-grained Motion Alignment(FIMA)框架,它能够引入对齐良好且显著的运动信息。通过在时空领域中开发密集的对比学习框架来生成像素级的运动监督,并设计了运动解码器和前景采样策略来消除时间和空间上的弱对齐。此外,提出了帧级运动对比损失来提高运动特征的时间多样性。大量实验证明,由FIMA学习到的表示具有出色的动态感知能力,在UCF101、HMDB51和Diving48数据集上取得了最先进或竞争性的结果。代码可在https://github.com/ZMHH-H/FIMA找到。
Sep, 2023