促使大型语言模型改写查询以定位时刻

Jun, 2023

促使大型语言模型改写查询以定位时刻

Prompting Large Language Models to Reformulate Queries for Moment Localization

Wenfeng Yan, Shaoxiang Chen, Zuxuan Wu, Yu-Gang Jiang

TL;DR这篇文章讨论了如何利用大型语言模型来改进时刻定位的自然语言查询，使其更适合定位模型处理复杂的未剪辑视频内容。

Abstract

The task of moment localization is to localize a temporal moment in an untrimmed video for a given natural language query. Since

moment localization untrimmed video natural language query localization model large language models

发现论文，激发创造

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过 TEMPO 数据集进行了实验以验证模型可靠性。

Sep, 2018

视频片段定位调查

对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Jun, 2023

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

基于查询的视频时刻检索中的隐含挑战揭示

本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力，指出了目前数据集存在的偏差。作者同时提出了新的实验方法，以便更好地可视化结果，并在最后展望了未来的研究方向与改进。

Sep, 2020

基于文本的视频语料库中的时刻定位

本文提出了一种 Hierarchical Moment Alignment Network 方法，该方法基于文本查询，可以在视频语料库中检索相关视频，并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。

Aug, 2020

自然语言视频时刻定位

通过提出 Moment Context Network 来定位自然语言查询中的视频段，并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。

Aug, 2017

自然语言时序相邻网络学习用于时刻定位

本文提出了一个基于 2D 时间映射的 Temporal Adjacent Network（2D-TAN）框架，用于在未修剪的视频中匹配与查询句子相关的特定时间点，该框架可以编码相邻的时间关系，并学习具有区分性的特征以提高活动识别的准确性，通过在 Charades-STA，ActivityNet Captions 和 TACoS 等数据集上的表现，证明了该方法的优越性。

Dec, 2019

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

MS-DETR：使用采样时刻交互实现自然语言视频定位

本文旨在解决 Natural Language Video Localization（NLVL）的问题，通过提出 Moment Sampling DETR 算法，即基于提议的解决方案，生成候选时刻，并选择最佳匹配提议，同时使用可学习的模板进行多尺度视觉和语言编码，对数据集进行实验，提高了 MS-DETR 的准确性。

May, 2023

用于基于语言的时刻定位的渐进式本地化网络

本文介绍了一种新颖的多阶段渐进式本地化网络（PLN），采用不同时间粒度生成的候选时刻进行本地化，并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息，特别适合定位长视频中的短片段。

Feb, 2021