本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
本文介绍一种无监督的视频对准方法,通过人体检测、姿态估计、VGG 网络等机器视觉工具提取并结合构建多维时间序列,利用 Diagonalized Dynamic Time Warping (DDTW) 算法对相同动作的视频进行对齐,采用新型评价指标 Enclosed Area Error (EAE) 显示本文方法在视频对齐任务和相位分类任务上均优于之前最先进的方法 (TCC 等)。
Apr, 2023
本文利用深度递归神经网络,结合短期、长期以及感知上的损失,为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入,生成时间上连贯的视频的方法,实现了对多种需求的处理,且无需光流计算,具有实时性能。
Aug, 2018
该研究比较了不同的基于深度学习的系统,证明了一些系统足够高效和具有泛化能力,能够在软件层面实现双目相机的视频同步,从而降低整个系统的成本、重量和体积,并为生产就绪软件视频同步系统铺平了道路。
Mar, 2023
本论文提出了一种基于无监督学习方法的计算机视觉问题图像匹配解决方案,通过训练卷积神经网络进行帧间插值并颠倒网络,提取相关性,能够应用于真实世界视频序列中自然包含的时间相关性,该方法的性能具有可比性。
Mar, 2016
本文提出了一种新的基于匹配的少样本学习策略,结合隐式时间对齐和上下文编码模块以及多任务损失,用于解决视频分类中在有限标注情况下空间 - 时间表征的学习问题,并在两个具有挑战性的基准测试中证明了其优越性。
May, 2021
本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征,通过训练神经网络来区分不同的时间变换的视频序列,使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明,可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。
Jul, 2020
本文提出了一种基于 transformer,支持弱监督下视频理解的方法,主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。
本文提出了一种利用视频进行无监督表示学习的方法,采用时序一致性作为监督信号,将表示学习形式化为序列排序任务,通过训练卷积神经网络对打乱的图像序列进行排序,以预测正确的顺序。实验结果表明,我们的方法在行动识别、图像分类和物体检测任务上比状态 - of-the-art 方法效果更好。
Aug, 2017
本文介绍一种基于矩阵空间的匹配和同步算法,以实现计算机视觉中多物体变换的精准测量。
Oct, 2014