利用点级监督加速视频瞬间检索

May, 2023

Faster Video Moment Retrieval with Point-Level Supervision

Xun Jiang, Zailei Zhou, Xing Xu, Yang Yang, Guoqing Wang...

TL;DR本文提出了一种名为Cheaper and Faster Moment Retrieval（CFMR）的新方法，其基于点级别监督，并设计了一种基于概念的多模式对齐机制，旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题，并在VMR基准测试中取得了新的最佳性能。

Abstract

video moment retrieval (VMR) aims at retrieving the most relevant events from an untrimmed video with natural language queries. Existing VMR methods suffer from two defects: (1) massive expensive temporal annotations are required to obtain satisfying performance; (2) complicated cross-

发现论文，激发创造

VLANet: 弱监督视频时刻检索的视频-语言对齐网络

本文提出了一种弱监督方法（wVMR）进行视频瞬间检索，通过使用对齐网络实现了更清晰的注意力和更少的计算负荷，并使用对比学习来训练模型。

Aug, 2020

具有因果干预的视频时刻检索

该研究提出了一种基于因果关系的视频时刻检索框架，利用Deconfounded Cross-modal Matching（DCM）方法去除时刻位置的混淆效应，并在考虑所有可能的目标位置的情况下，公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。

Jun, 2021

面向模态的视频语料库时刻检索的伪查询生成

本文提出了一种基于自监督学习的框架，通过生成基于视觉和文本信息的伪查询，利用多模式信息来定位视频片段，有效地解决了视频中存在的时序动态和多模式推理问题，并在实验中取得了竞争性的结果。

Oct, 2022

通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频-文本对齐，该方法在现有VMR方法的基础上取得了显著的进展。

Feb, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为BM-DETR的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

事件感知视频语料库时刻检索

基于EventFormer的视频语义检索模型，在Video Corpus Moment Retrieval（VCMR）任务中实现了最新的成果。

Feb, 2024

提升视频语料库时刻检索的部分相关性增强

视频语料库时刻检索~(VCMR)是一项新的视频检索任务，旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高VCMR的部分相关性增强模型~(PREM)，该模型通过专门的部分相关性增强策略，在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明，该模型优于基准模型，在VCMR任务中达到了最新的性能水平。

Feb, 2024

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024