视频重新本地化

Aug, 2018

Video Re-localization

Yang Feng, Lin Ma, Wei Liu, Tong Zhang, Jiebo Luo

TL;DR提出了视频重新本地化任务以解决语义相应问题，并构建一个新的数据集，基于跨门控双线性匹配模型对查询视频进行权重匹配，解决了开始和结束时间的分类问题，在视频监控等多个领域具有重要应用。

Abstract

Many methods have been developed to help people find the video contents they want efficiently. However, there are still some unsolved problems in this area. For example, given a query video and a reference video, how to accurately localize a segment in the reference video such that the segment semantically corresponds to the query video? We define a distinct

video re-localization semantic correspondence cross gated bilinear matching model datasets video surveillance

发现论文，激发创造

Warp LSTM 实现时空视频重新定位

提出了一种新的任务，即时空视频重新定位，对缺乏适当标记的视频数据组织为新数据集，以解决现有方法通常仅确定视频中发生的事情而不是时间和位置的问题，并通过提出一种新的 Warp LSTM 网络来准确定位参考视频中的所需视频区域。该方法在时空视频重新定位任务中的表现优于设计的基线。

May, 2019

视频片段定位调查

对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Jun, 2023

2023 视频相似性数据集与挑战

该研究介绍了一个视频复制检测和定位的数据集、基准和挑战，该基准旨在评估方法，模拟真实场景，并提出了一个同时反映检测和定位精度的度量标准。相关的挑战包括两个对应的跟踪器，通过实现代码可供评估和基线，并公开了数据集、基线方法和评估代码，将在专门的 CVPR’23 研讨会上讨论。

Jun, 2023

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

T2VLAD：文本 - 视频检索的全局 - 局部序列对齐

本文主要设计了一种高效的全局 - 局部对齐方法，在共享的语义中心集合中，自适应地汇聚多模式视频序列和文本特征，并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性，从而实现了细致的局部比较，同时降低了交互成本。此外，还提出了一种全局对齐方法，并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。

Apr, 2021

网络视频标签细化和定位的数据驱动方法

本文介绍了一种自动视频标注的方法，该方法可以增加用户提供的标签数量，并将其临时本地化，将标签与关键帧关联起来。我们的方法利用用户生成的标签和 web 来源中的集体知识，以及上传到社交网站和 web 来源的关键帧和图片的视觉相似性。与需要为每个标签训练分类器的现有视频标记方法相比，我们的系统具有较少的参数，易于实现，并且可以处理开放词汇的场景。我们在 DUT-WEBV 上展示了该方法，该数据集是一个大型的网络视频数据集，结果显示出最先进的结果。

Jul, 2014

通过图像查询在视频中定位未见过的活动

该研究提出了一个基于图像查询的自我注意力交互定位器实现在未剪辑视频中定位未知活动的方法，并对 ActivityNet 数据集进行了重新组织，实验表明该方法的有效性。

Jun, 2019

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019

穿越时间：视频活动的有效定位

本文介绍了一种基于强化学习的视频定位技术，使用文本和视频的精细特征表示来准确定位语言查询中的片段，并仅浏览整个视频的 32-41% 以节约处理时间。

Apr, 2019

学习时空语义对应关系

本论文提出了一个新的任务，即在视频中预测时空语义对应关系，为视频理解提供了新的思路，并且通过对两个现有基准数据集：Penn Action 和 Pouring 进行了注释和实验，最终得出了结论：最佳方法应综合考虑时空因素，而不是分别处理时间对齐和空间对应问题。

Jun, 2023