TCLR: 视频表征的时序对比学习
该研究提出了一种基于段落的视频级对比学习方法,它使用全局上下文形成正样本,同时还结合了一个时间顺序正则化项来确保视频的时序结构,实验证明该方法在动作分类、动作定位和视频检索等任务上能够超越现有的最先进方法。
Aug, 2021
该论文提出了一种对全视频和段落进行显式比较的对比学习框架 TempCLR,通过使用动态时间规整来计算句子 - 剪辑对的最小累积成本作为序列级距离,它可以探索时间动态,并在视频检索、行动步骤定位和少量动作识别等任务中实现了一致的性能提升。
Dec, 2022
该论文提出了一种新的双重对比学习框架来解决背景场景偏差问题并有效地学习时空表示,实验证明在 UCF-101,HMDB-51 和 Diving-48 数据集上具有最先进的性能。
Jul, 2022
提出了一种名为 TCGL 的自监督学习方法,通过建立图模型来学习视频的时序表示,利用 “片段内” 和 “片段间” 的时间依赖作为时序表示学习的自监督信号,在大规模行动识别和视频检索基准测试中展示了显著的性能优势。
Jan, 2021
本文引入了一种基于对比损失的自监督对比视频表示学习方法,利用在嵌入空间中相同短视频的两个增强剪辑进行学习,同时将来自不同视频的剪辑分开。这种自我监督学习方法需要好的数据增强和虚拟时间和模拟空间的知识,在 Kinetics-600 数据集上,该方法可以超过 ImageNet 和 SimCLR 的性能,达到 70.4% 的 top-1 准确率
Aug, 2020
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果,包括 Kinetics,UCF,HMDB,AVA-Kinetics,AVA 和 OTB。
Dec, 2021
本篇论文提出了 Temporal-aware Contrastive self-supervised learning (TaCo)的方法,该方法通过选择一组强大的时态变换,不仅作为数据强化,还作为额外的自我监督来构成视频理解的重要组成部分,从而可以提高无监督视频表示学习,大幅改善了下游分类任务的成果。
Nov, 2020
本研究提出一种新的基于视频的自监督学习框架 VTDL,通过增加时间三元组数据的容量来增强时间特征表示的能力,并使用 Temporal Consistent Augmentation(TCA)设计器进行时间信息测量。该方法在动作识别任务中具有显著优势,并且在使用小规模视频数据集进行预训练时,该自监督方法优于完全监督方法。
Aug, 2020
本文提出了一种叫做 “长短时对比学习(LSTCL)” 的学习程序,可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时,学习一个有效的剪辑级表示,并在多项视频基准测试上取得了有竞争力的表现,成为有监督基于图像的预训练的有力替代方案。
Jun, 2021
提出一种新的自监督视频表示学习技术,通过将学习目标分解为两个对比子任务并分层进行,强调空间和时间特征,从而鼓励多尺度理解。通过实验表明,可以将增强作为规则化进行操作来指导网络在对比学习中学习所需的语义,并提出一种方式,使模型可以在多个尺度上分别捕捉空间和时间特征。还介绍了一种克服不同层次上实例不变性差异的方法。将代码公开。
Nov, 2020