视频表示学习中的视觉节奏一致性
通过利用不同视频播放速度下不改变动作的特性,利用未标记的视频,学习两通道时间对比模型,提取时间信息并在多个基准数据集和网络架构上实现优异的半监督图像识别效果。
Feb, 2021
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023
本研究提出了一种新的时间对比学习框架,采用两个新的损失函数以提高现有自监督视频表示学习方法的性能,其中局部 - 局部时间对比损失和全局 - 局部时间对比损失实现了在各种下游视频理解任务中的显着改进。
Jan, 2021
提出了一种无需标注数据的自我监督视觉学习方法,通过预测视频播放速度的变化来学习视频的时空视觉表示,同时运用可变播放速度下视觉外观的变化来学习整个视频的时空视觉特征,并提出了一种新的可应用于三维卷积神经网络的可靠的时间组归一化方法,最终在 UCF-101 和 HMDB-51 数据集上验证了该方法的有效性。
Mar, 2020
本文提出了一种 Hierarchical Consistency (HiCo) 学习框架,该框架利用未剪辑视频中更为丰富的信息来学习一种层次化的一致性,通过对视觉一致性及主题一致性进行学习,相对于传统对比学习而言,HiCo 框架在生成未剪辑视频的表征上表现更强,并且应用于剪辑视频的情况时也能提高表征质量。
Apr, 2022
本文提出了一种新的自监督视频表示学习方法,即通过视频速度预测的方法来引导网络学习空间 - 时间特征,通过对相似视频内容最大化协同一致性来使模型区分不同速度的视频。实验表明,该方法在不同网络结构和数据集上均取得了现有最佳结果。
Aug, 2020
本文提出了两个任务来学习视频外观和速度一致性,并在不使用额外模态或负样本进行无监督预训练的情况下,在 UCF-101 数据集上实现了 90.8%的准确率,这超过了 ImageNet 的有监督预训练模型。
Jun, 2021
介绍了一种新的自监督对比学习方法,旨在从未标记的视频中学习表示。该方法利用新的约束条件,以建立对时间变换等价的表示,并更好地捕捉视频动态。实验表明,时间等变表示在 UCF101,HMDB51 和 Diving48 的视频检索和动作识别基准测试中实现了最先进的结果。
Dec, 2021
文章通过自监督学习方法,提出了一个基于时间均衡的学生 - 教师半监督学习框架,动态地结合具有时变不变性和时变区别性的两个教师的知识,从而取得了 UCF101,HMDB51 和 Kinetics400 三个动作识别基准数据集的最新性能。
Mar, 2023
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020