事件感知视频语料库时刻检索
视频语料库时刻检索~(VCMR) 是一项新的视频检索任务,旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高 VCMR 的部分相关性增强模型~(PREM),该模型通过专门的部分相关性增强策略,在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明,该模型优于基准模型,在 VCMR 任务中达到了最新的性能水平。
Feb, 2024
本文提出了一种名为 Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高 VMR 的检索效率。此方法可有效解决现有 VMR 方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在 VMR 基准测试中取得了新的最佳性能。
May, 2023
本文提出了一种基于自监督学习的框架,通过生成基于视觉和文本信息的伪查询,利用多模式信息来定位视频片段,有效地解决了视频中存在的时序动态和多模式推理问题,并在实验中取得了竞争性的结果。
Oct, 2022
该研究提出了一种基于因果关系的视频时刻检索框架,利用 Deconfounded Cross-modal Matching(DCM)方法去除时刻位置的混淆效应,并在考虑所有可能的目标位置的情况下,公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。
Jun, 2021
提出一种名为 BM-DETR 的背景感知时刻检测变压器模型,通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度,从而提高视频时刻检索(VMR)的效果和泛化能力。
Jun, 2023
本文提出了一种基于交互建模的专注跨模态相关性匹配(ACRM)模型,用于预测时间边界,并通过内部帧进行模型训练以提高定位精度,通过在 TACoS 和 Charades-STA 数据集上进行的实验表明,ACRM 模型优于几种最先进的方法。
Sep, 2020
用混合学习的方法,从全监督的源领域迁移到弱标记的目标领域,提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA),实现跨模态匹配信息共享和多模态特征对齐,优化领域不变的视觉和文本特征,以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性,可以帮助在目标领域中学习无时间标签的视频时刻检索。
Jun, 2024
通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。
May, 2024
本研究介绍了多事件视频 - 文本检索(MeVTR)任务,旨在解决视频内容通常包含多个事件,而文本如用户查询或网页元数据倾向于特定和单一事件的实际情况。我们提出了一个简单的模型 Me-Retriever,它包含关键事件视频表示和新的 MeVTR 损失函数。通过全面的实验证明,这个简单的框架在视频到文本和文本到视频任务中胜过其他模型,为 MeVTR 任务建立了一个强大的基准。我们相信这项工作为未来的研究提供了坚实的基础。
Aug, 2023