用循环时间编码进行视频检索和时间对齐
本文讨论了跨视频提取视觉对应关系的任务,提出了一种使用交叉视频循环一致性来学习空间和时间对应关系的新方法,成功实现了语义相似的贴片在视频中的对应,并学习到对物体和动作状态敏感的表示。
Jul, 2020
本文提出了一种基于自我监督学习的视频时序对齐表征学习方法,其通过训练神经网络使用时间循环一致损失(TCC)来找到多个视频之间在时间上的对应关系,从而得到每一帧的表征,可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现,同时还可用于多种视频应用领域的数据同步和异常检测。
Apr, 2019
本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法,通过测试视频和具有已知语义参考视频之间的对应关系,将参考的语义转移到测试视频。我们讨论了两种匹配方法,并将其应用于视频字幕,视频摘要,时间动作检测和声音预测等任务,并在 LSMDC'16 benchmark,SumMe 和 TVSum benchmarks,Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。
Dec, 2016
本文提出了一种针对同一过程(如人类动作)的时间序列(例如视频)的弱监督表征学习方法,通过对全局时间序列进行对齐,并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习,通过最优序列对齐进行嵌入网络的训练。通过大量实验表明,该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。
May, 2021
本文提出了一种方法来自动对齐视频和文本,并使用向量特征将其视为时间分配问题,最终得出整数解决方案,这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。
May, 2015
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
本文提出了一种新的视频检索方法,采用双重深度编码网络进行多级编码,将视频和查询作为两种模态编码为向量,同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习,经实验证明了方法的可行性。
Sep, 2020
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。
Aug, 2019