可学习时刻提议的自然语言视频本地化

EMNLPSep, 2021

可学习时刻提议的自然语言视频本地化

Natural Language Video Localization with Learnable Moment Proposals

Shaoning Xiao, Long Chen, Jian Shao, Yueting Zhuang, Jun Xiao

TL;DR本文介绍了一种新的模型 ——LPNet，采用学习性提议网络实现了自然语言视频定位 (NLVL) 任务，较提出与排序模型达到更好的性能。

Abstract

Given an untrimmed video and a natural language query, Natural Language Video Localization (NLVL) aims to identify the video moment described by the query. To address this task, existing methods can be roughly grouped into two groups: 1) propose-and-rank models first define a set of hand-designed moment candidates and then find out the best-matching one. 2)

natural language video localization proposal-free models learnable proposal network boundary-aware loss nlvl benchmarks

发现论文，激发创造

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

两阶段自然语言视频定位的边界提案网络

本文提出了一种新颖的 Boundary Proposal Network (BPNet)，该框架是一个通用的两阶段结构，利用多模态交互将候选视频片段与语言查询匹配，从而实现对自然语言视频定位的优化。在 Charades-STA，TACoS 和 ActivityNet-Captions 等三个具有挑战性的 NLVL 基准测试数据集上的结果表明，BPNet 优于最先进的方法。

Mar, 2021

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

面向自然语言视频定位的基于 Span 的本地化网络

本文提出了基于跨度问答的视频段定位网络（VSLNet）作为自然语言视频定位（NLVL）任务的解决方案，并通过有效的查询引导突出显示策略解决了 NLVL 与跨度问答之间的差异。在三个基准数据集上的实验表明，该方法优于现有的最优方法，采用笔画问答框架是解决 NLVL 的一个有前途的方向。

Apr, 2020

用于基于语言的时刻定位的渐进式本地化网络

本文介绍了一种新颖的多阶段渐进式本地化网络（PLN），采用不同时间粒度生成的候选时刻进行本地化，并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息，特别适合定位长视频中的短片段。

Feb, 2021

MS-DETR：使用采样时刻交互实现自然语言视频定位

本文旨在解决 Natural Language Video Localization（NLVL）的问题，通过提出 Moment Sampling DETR 算法，即基于提议的解决方案，生成候选时刻，并选择最佳匹配提议，同时使用可学习的模板进行多尺度视觉和语言编码，对数据集进行实验，提高了 MS-DETR 的准确性。

May, 2023

零样本自然语言视频定位

本文提出了一种新颖的伪监督方法，用于零样本学习自然语言视频定位模型，并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。

Aug, 2021

浏览、定位、然后阅读：一种类人的自然语言视频定位框架

提出了一种基于 Skimming-Locating-Perusing 架构，并采用 frame-differentiable 和 boundary-precise 的方法用于自然语言视频定位，并在三个具有挑战性的基准测试中获得比先前方法更准确的分割边界。

Jul, 2022

MVMR: 对多个可靠视频池的评估自然语言视频定位偏见

近年来，多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索（MVMR）任务，用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法，并介绍了三个 MVMR 数据集。针对这个任务，我们还开发了一个强大的模型，即可靠的互补匹配网络（RMMN），该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明，与现有的 NLVL 模型相比，我们的模型在 MVMR 任务中表现出显著的性能优势。

Aug, 2023

多尺度二维时间地图扩散模型用于自然语言视频定位

自然语言视频定位（NLVL）是视频理解中复杂但关键的任务之一，本研究提出了一种旨在解决全局捕获视频数据时空动态的 NLVL 新方法，通过条件去噪扩散过程直接生成全局 2D 时空图。多尺度技术和创新的扩散解码器克服了 2D 时空图的稀疏性和不连续性，有效地捕捉了查询和视频数据在不同时间尺度下的交互作用。实验证明了我们设计的有效性。

Jan, 2024