以动作为中心的对比学习视频表征
本文引入了一种基于对比损失的自监督对比视频表示学习方法,利用在嵌入空间中相同短视频的两个增强剪辑进行学习,同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识,在 Kinetics-600 数据集上,该方法可以超过 ImageNet 和 SimCLR 的性能,达到70.4%的top-1准确率
Aug, 2020
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。
Nov, 2020
研究自监督视频表示学习中的对比方法,提出一种考虑数据增强变量的对比学习框架,以提高针对时间信息进行的微粒视频动作识别的性能,并在多个视频基准测试中达到最先进水平。
Apr, 2021
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了ConST-CL在6个数据集上取得了具有竞争力的结果,包括Kinetics,UCF,HMDB,AVA-Kinetics,AVA和OTB。
Dec, 2021
本文提出了一种新颖的对比行动表示学习(CARL)框架,用于以自我监督的方式学习帧级行动表示,特别是针对长视频。该框架包括一个简单而高效的视频编码器,以及应用于一系列时空数据增强的新颖序列对比损失(SCL)。我们通过FineGym,PennAction和Pouring数据集的实验证明,该方法在下游的细粒度行动分类任务上表现出明显的优越性。 令人惊讶的是,即使没有对配对视频进行训练,我们的方法在视频对齐和细粒度帧检索任务上也表现出了出色的性能。
Mar, 2022
本文提出了基于长程残差帧和运动对比知觉网络的视频表示学习方法,旨在通过自监督学习获得更多的运动特定信息,并通过对比学习提高模型的语义表达性能,实验结果表明该方法对于UCF-101和HMDB-51数据集具有较高的性能表现。
Apr, 2022
我们提出了一种新颖的基于对比的框架 SCVRL,用于视频的自监督学习。与以前主要关注学习视觉语义的对比学习方法(例如 CVRL)不同,SCVRL 能够学习语义和动作模式。我们通过将现代对比学习范式引入 popular shuffling pretext 任务,展示了我们的基于 transformer 的网络在自监督设置下自然而然地具备学习运动的能力,并在四个基准测试中取得了CVRL的强大性能。
May, 2022
本文提出了一种Motion Sensitive Contrastive Learning (MSCL)方法,将光流获取的运动信息注入到RGB帧中,强化特征学习,通过局部运动对比学习(LMCL),以及流旋转增强(FRA)和运动差分采样(MDS)等方法对其进行扩展,对标准基准数据集进行了广泛的实验,提高了UCF101和Something-Something v2的视频分类性能,并显著提高了UCF101的视频检索性能。
Aug, 2022
在本文中,我们提出了一个Fine-grained Motion Alignment(FIMA)框架,它能够引入对齐良好且显著的运动信息。通过在时空领域中开发密集的对比学习框架来生成像素级的运动监督,并设计了运动解码器和前景采样策略来消除时间和空间上的弱对齐。此外,提出了帧级运动对比损失来提高运动特征的时间多样性。大量实验证明,由FIMA学习到的表示具有出色的动态感知能力,在UCF101、HMDB51和Diving48数据集上取得了最先进或竞争性的结果。代码可在https://github.com/ZMHH-H/FIMA找到。
Sep, 2023