视频片段定位调查

Jun, 2023

A Survey on Video Moment Localization

Meng Liu, Liqiang Nie, Yunxiao Wang, Meng Wang, Yong Rui

TL;DR对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Abstract

video moment localization, also known as video moment retrieval, aiming to search a target segment within a video described by a given natural language query. Beyond the task of temporal action localization where

发现论文，激发创造

自然语言视频时刻定位

通过提出Moment Context Network来定位自然语言查询中的视频段，并通过构建Distinct Describable Moments数据集实现对局部视屏段的描述。

Aug, 2017

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过TEMPO数据集进行了实验以验证模型可靠性。

Sep, 2018

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

基于文本的视频语料库中的时刻定位

本文提出了一种Hierarchical Moment Alignment Network方法，该方法基于文本查询，可以在视频语料库中检索相关视频，并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。

Aug, 2020

基于查询的视频时刻检索中的隐含挑战揭示

本文旨在评估当前benchmark数据集反映真实查询基于片段检索的进展的能力，指出了目前数据集存在的偏差。作者同时提出了新的实验方法，以便更好地可视化结果，并在最后展望了未来的研究方向与改进。

Sep, 2020

自然语言配合的多尺度2D时间相邻网络用于时刻定位

本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架，通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息，以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。

Dec, 2020

用于基于语言的时刻定位的渐进式本地化网络

本文介绍了一种新颖的多阶段渐进式本地化网络（PLN），采用不同时间粒度生成的候选时刻进行本地化，并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息，特别适合定位长视频中的短片段。

Feb, 2021

MomentDiff：从随机到真实的生成式视频时刻检索

视频时刻检索通过一个名为MomentDiff的生成性扩散框架，实现了对未修剪视频中与给定语言描述相对应的特定时间段的高效广义解决方案。

Jul, 2023

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024