视频语料库中的时刻定位层级多模态编码器

Nov, 2020

视频语料库中的时刻定位层级多模态编码器

A Hierarchical Multi-Modal Encoder for Moment Localization in Video Corpus

Bowen Zhang, Hexiang Hu, Joonseok Lee, Ming Zhao, Sheide Chammas...

TL;DR本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Abstract

Identifying a short segment in a long video that semantically matches a text query is a challenging task that has important application potentials in language-based video search, browsing, and navigation. Typical retrieval systems respond to a query with either a whole video or a pre-defined video segment, but it is challenging to localize undefined segments

发现论文，激发创造

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过TEMPO数据集进行了实验以验证模型可靠性。

Sep, 2018

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

基于文本的视频语料库中的时刻定位

本文提出了一种Hierarchical Moment Alignment Network方法，该方法基于文本查询，可以在视频语料库中检索相关视频，并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。

Aug, 2020

CONQUER: 视频语料库时刻检索的上下文查询感知排序

本文提出一种名为 CONQUER 的模型，通过融合多模态视频内容、进行双向注意力以及完全利用查询上下文等方式实现视频检索任务的精确定位和排序。通过实验发现，将视频和查询在线上联合表示可以更好地捕捉多模态信号来提升检索效果。

Sep, 2021

视频片段定位调查

对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Jun, 2023

MVMR: 对多个可靠视频池的评估自然语言视频定位偏见

近年来，多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索（MVMR）任务，用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法，并介绍了三个MVMR数据集。针对这个任务，我们还开发了一个强大的模型，即可靠的互补匹配网络（RMMN），该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明，与现有的NLVL模型相比，我们的模型在MVMR任务中表现出显著的性能优势。

Aug, 2023

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

MLLM作为视频叙述者：减轻视频片段检索中的模态不平衡

利用多模态大型语言模型(MLLM)的视觉文本理解能力，本研究以MLLM作为视频的叙述者，生成视频的文本描述，从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落，与视觉内容进行时间对齐。然后，将时间感知的叙述和相应的视频时间特征进行跨模态特征融合，生成语义增强的视频表示序列用于查询定位。接下来，引入了一种单模态的叙述-查询匹配机制，鼓励模型从上下文连贯的描述中提取互补信息，以改善检索效果。该方法在两个基准测试上进行了广泛实验，证明了其有效性和普适性。

Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024