用循环时间编码进行视频检索和时间对齐

Jun, 2015

用循环时间编码进行视频检索和时间对齐

Circulant temporal encoding for video retrieval and temporal alignment

Matthijs Douze, Jérôme Revaud, Jakob Verbeek, Hervé Jégou, Cordelia Schmid

TL;DR本文提供了一种特定视频事件检索的方法，它基于帧描述符编码，利用循环矩阵在频域内高效比较和匹配视频，并采用全局时间轴对视频进行同步播放。

Abstract

We address the problem of specific video event retrieval. Given a query video of a specific event, e.g., a concert of Madonna, the goal is to retrieve other videos of the same event that temporally overlap with the query. Our approach encodes the →

specific video event retrieval frame descriptors circulant matrices matching confidence temporal alignment

发现论文，激发创造

时空视频对齐

本文讨论了跨视频提取视觉对应关系的任务，提出了一种使用交叉视频循环一致性来学习空间和时间对应关系的新方法，成功实现了语义相似的贴片在视频中的对应，并学习到对物体和动作状态敏感的表示。

Jul, 2020

时间循环一致性学习

本文提出了一种基于自我监督学习的视频时序对齐表征学习方法，其通过训练神经网络使用时间循环一致损失（TCC）来找到多个视频之间在时间上的对应关系，从而得到每一帧的表征，可用于快速地对视频进行对齐和分类。该方法在少量监督数据和其他自监督方法上都有较好的表现，同时还可用于多种视频应用领域的数据同步和异常检测。

Apr, 2019

时域镶嵌：视频分析的统一方法

本论文提出了一种通用且灵感来源于对 2D 图像分析成功的语义转移技术的视频理解方法，通过测试视频和具有已知语义参考视频之间的对应关系，将参考的语义转移到测试视频。我们讨论了两种匹配方法，并将其应用于视频字幕，视频摘要，时间动作检测和声音预测等任务，并在 LSMDC'16 benchmark，SumMe 和 TVSum benchmarks，Thumos2014 benchmark 和 Greatest Hits benchmark 上取得了优异的表现。

Dec, 2016

用于事件检测的区分性 CNN 视频表示

本文讨论如何利用深度卷积神经网络和适当的编码方法来提高视频事件检测的性能，建议使用潜在概念描述符作为帧描述符，并实现新的最先进性能。

Nov, 2014

通过全局时间对齐和循环一致性进行表征学习

本文提出了一种针对同一过程（如人类动作）的时间序列（例如视频）的弱监督表征学习方法，通过对全局时间序列进行对齐，并利用对齐的隐变量跨序列对的全局时间顺序作为监督信号进行表征学习，通过最优序列对齐进行嵌入网络的训练。通过大量实验表明，该方法在动作分类、少样本学习和视频同步等任务中均比之前的方法性能有了明显提高。

May, 2021

视频文字弱监督对齐

本文提出了一种方法来自动对齐视频和文本，并使用向量特征将其视为时间分配问题，最终得出整数解决方案，这在对齐视频与符号标签方面取得了显着的改进并在具有相关文本说明的挑战性数据集上进行了评估。

May, 2015

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

文本视频双编码检索

本文提出了一种新的视频检索方法，采用双重深度编码网络进行多级编码，将视频和查询作为两种模态编码为向量，同时结合好的可解释性和性能的高性能的概念空间和潜在空间来进行深空间学习，经实验证明了方法的可行性。

Sep, 2020

使用重新聚焦的视频编码器进行视频字幕

本文提出了一种新的递归视频编码方法和新的视觉空间特征，以改进视频字幕生成任务的效果，实验结果表明，该方法能显著提高视频字幕生成质量。

Jul, 2019

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019