具有因果干预的视频时刻检索

Jun, 2021

Deconfounded Video Moment Retrieval with Causal Intervention

Xun Yang, Fuli Feng, Wei Ji, Meng Wang, Tat-Seng Chua

TL;DR该研究提出了一种基于因果关系的视频时刻检索框架，利用Deconfounded Cross-modal Matching（DCM）方法去除时刻位置的混淆效应，并在考虑所有可能的目标位置的情况下，公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。

Abstract

We tackle the task of video moment retrieval (VMR), which aims to localize a specific moment in a video according to a textual query. Existing methods primarily model the matching relationship between query and moment by complex cross-modal interactions. Despite their effectiveness, cu

发现论文，激发创造

对比学习视频语料库瞬间检索

本文提出了一个可用于视频语料库时刻检索的检索和定位网络，采用对比学习优化视频编码器和文本编码器，从而实现视频轮廓时序信息检索。该方法效率高且具有可比性。

May, 2021

AxIoU：一种公理上证明的视频时刻检索度量

本文提出一种新的 VMR（Video Moment Retrieval）评价指标 -- Average Max IoU，该指标不再受制于旧评价方法 R@$K, heta$ 存在的问题，并满足了两个重要的 VMR 评价公理，即“Redundant Moments 不变性”和“Best Moment 单调性”。同时，作者也通过实验给出了新评价指标和旧评价方法在不同数据和时间边界下的表现比较。

Mar, 2022

视频语料库时刻检索的有选择性查询引导去偏差

本研究提出了一种新颖的选择性查询引导去偏置网络 (SQuiDNet)，通过有意地揭示查询中对象固有的偏倚时刻和执行由查询含义引导的选择性去偏倚以结合检索偏差以及查询中的对象、时刻和文本，本研究在三个时刻检索基准测试（即 TVR、ActivityNet 和 DiDeMo）上验证了 SQuiDNet 的有效性，并表明其具有更好的可解释性。

Oct, 2022

通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频-文本对齐，该方法在现有VMR方法的基础上取得了显著的进展。

Feb, 2023

利用点级监督加速视频瞬间检索

本文提出了一种名为Cheaper and Faster Moment Retrieval（CFMR）的新方法，其基于点级别监督，并设计了一种基于概念的多模式对齐机制，旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题，并在VMR基准测试中取得了新的最佳性能。

May, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为BM-DETR的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

提升视频语料库时刻检索的部分相关性增强

视频语料库时刻检索~(VCMR)是一项新的视频检索任务，旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高VCMR的部分相关性增强模型~(PREM)，该模型通过专门的部分相关性增强策略，在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明，该模型优于基准模型，在VCMR任务中达到了最新的性能水平。

Feb, 2024

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

MLLM作为视频叙述者：减轻视频片段检索中的模态不平衡

利用多模态大型语言模型(MLLM)的视觉文本理解能力，本研究以MLLM作为视频的叙述者，生成视频的文本描述，从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落，与视觉内容进行时间对齐。然后，将时间感知的叙述和相应的视频时间特征进行跨模态特征融合，生成语义增强的视频表示序列用于查询定位。接下来，引入了一种单模态的叙述-查询匹配机制，鼓励模型从上下文连贯的描述中提取互补信息，以改善检索效果。该方法在两个基准测试上进行了广泛实验，证明了其有效性和普适性。

Jun, 2024

QD-VMR：基于上下文理解增强的查询去偏差视频时刻检索

本研究解决了视频时刻检索中查询与视频时刻语义对齐不精确的问题。提出的QD-VMR模型通过全球部分对齐模块和查询去偏差模块有效增强了跨模态理解能力，显著提高了检索精度。实验结果表明，该模型在多个基准数据集上实现了最先进的性能，具有良好的推广潜力。

Aug, 2024