本论文提出了一个新的任务,即在视频中预测时空语义对应关系,为视频理解提供了新的思路,并且通过对两个现有基准数据集:Penn Action 和 Pouring 进行了注释和实验,最终得出了结论:最佳方法应综合考虑时空因素,而不是分别处理时间对齐和空间对应问题。
Jun, 2023
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本文提出了一种自监督的方法,通过循环一致性来学习视觉对应关系,应用其学到的特征图表示可以在一系列视觉对应任务中取得较好的性能。
Mar, 2019
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。
May, 2021
本文介绍一种无监督的视频对准方法,通过人体检测、姿态估计、VGG 网络等机器视觉工具提取并结合构建多维时间序列,利用 Diagonalized Dynamic Time Warping (DDTW) 算法对相同动作的视频进行对齐,采用新型评价指标 Enclosed Area Error (EAE) 显示本文方法在视频对齐任务和相位分类任务上均优于之前最先进的方法 (TCC 等)。
Apr, 2023
本研究提出了一种自监督学习方法,从未标记的视频中学习可靠的视觉对应关系。 所提出的方法将对应关系形式化为在联合空间 - 时间图中寻找路径的过程,并在此基础上利用循环一致性来识别图像中的动态对象,从而实现了中心 - 邻居对之间的潜在关联学习。实验结果表明,该方法在视频对象传播、部分传播和姿态关键点跟踪等各种视觉任务上均表现出色,并且优于某些针对特定任务设计的全监督算法。
Sep, 2021
该研究提出了一种方法来解决深度学习在处理视频时不能考虑时间顺序信息,或忽略动作顺序差异所带来的问题,通过优先考虑时间一致性(同时允许动作关系顺序差异),解决自我学习顺序动作表示学习的问题,并在多个数据集上取得最优效果。
Nov, 2021
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
该论文提出了一种简单的自监督方法来学习从原始视频中获取图像匹配的表达方式,通过构建空间时间图来预测连接预测匹配,并通过回文构造的图优化表示方法。
Jun, 2020
本研究提出了一种自监督学习方法,利用时间视频对齐作为前提任务,同时利用帧级别和视频级别信息,通过时间对齐损失和时间正则化项的结合来训练编码器网络,通过在不同数据集上的广泛评估验证其在视频表示学习方面的出色性能。
Mar, 2021