本文提出了一种自监督的方法,通过循环一致性来学习视觉对应关系,应用其学到的特征图表示可以在一系列视觉对应任务中取得较好的性能。
Mar, 2019
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本文提出了一种使用时间自我监督的算法,采用 GAN 生成视频的方式解决了时间关系难以探索的问题,同时提出了 Ping-Pong loss 用来改善长期时间一致性问题,并且介绍了一组评估模型的定量指标。
Nov, 2018
本文利用深度递归神经网络,结合短期、长期以及感知上的损失,为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入,生成时间上连贯的视频的方法,实现了对多种需求的处理,且无需光流计算,具有实时性能。
Aug, 2018
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
本文提出了一种基于循环一致性和伪监督的无监督技术,用于实现从低帧率视频直接合成高帧率视频。实验证明,该技术可以在不使用任何额外数据的情况下,显著提高预先训练模型在新目标域上的性能,从而大幅增加 PSNR 值。
Jun, 2019
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。
May, 2021
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
我们提出了一个名为 CyCo 的循环一致学习框架,用于连接视觉定位和图像描述,实现二者的协同训练;这个框架不仅允许半弱监督训练视觉定位,而且改善了全监督视觉定位的性能,并且生成了一个通用的图像描述模型,能够描述任意的图像区域。大量实验证明,我们的全监督视觉定位模型达到了最先进的性能水平,半弱监督模型相较于全监督模型也表现出竞争力。我们的图像描述模型能够自由地描述图像区域,并在常见的图像描述评估中表现出了令人印象深刻的性能。
Dec, 2023
本文提出了一种自我监督学习方法,用于学习视频的表示,结合了 RGB 帧和相关的音频,通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置,并提出了新的对比目标。
Feb, 2023