该研究提出了一种基于段落的视频级对比学习方法,它使用全局上下文形成正样本,同时还结合了一个时间顺序正则化项来确保视频的时序结构,实验证明该方法在动作分类、动作定位和视频检索等任务上能够超越现有的最先进方法。
Aug, 2021
本研究提出了一种新的时间对比学习框架,采用两个新的损失函数以提高现有自监督视频表示学习方法的性能,其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。
Jan, 2021
本文提出了一种 Motion Sensitive Contrastive Learning (MSCL) 方法,将光流获取的运动信息注入到 RGB 帧中,强化特征学习,通过局部运动对比学习(LMCL),以及流旋转增强(FRA)和运动差分采样(MDS)等方法对其进行扩展,对标准基准数据集进行了广泛的实验,提高了 UCF101 和 Something-Something v2 的视频分类性能,并显著提高了 UCF101 的视频检索性能。
Aug, 2022
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果,包括 Kinetics,UCF,HMDB,AVA-Kinetics,AVA 和 OTB。
Dec, 2021
论文提出了一种通过对比 RGB-D 数据的点 - 像素对,实现自监督预训练模型的方法,进而在多模态 RGB-D 扫描中为场景理解提供更多的灵活性,实现更好的预训练效果。
Dec, 2020
MaCLR 是一种新方法,通过视觉和运动模态之间的交叉模态学习,在 RGB 视频剪辑和动作路径之间富化标准对比学习目标,从而更关注前景运动区域,达到了自监督下行任务的最先进性能。
Jun, 2021
本文引入了一种基于对比损失的自监督对比视频表示学习方法,利用在嵌入空间中相同短视频的两个增强剪辑进行学习,同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识,在 Kinetics-600 数据集上,该方法可以超过 ImageNet 和 SimCLR 的性能,达到 70.4% 的 top-1 准确率
Aug, 2020
本文提出了一种基于 Motion-focused 对比学习的方法,利用光流采样和梯度图校准训练视频特征,加强了自监督视频表示学习中的数据增强和特征学习,实验结果表明方法有效,超过了传统监督预训练的表现。
Jan, 2022
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
Dec, 2022
该研究提出了一种名为 DCLR 的新框架,使用实例加权的方法惩罚误判造成的假负样本,并产生基于噪声的负样本,以确保表示空间的均匀性,提高自监督学习中的句子表示质量,并在七个语义文本相似性任务中实现了显著性能提升。
May, 2022