克服视觉和文本之间的弱对齐性以实现视频时刻检索
本文提出了一种弱监督方法(wVMR)进行视频瞬间检索,通过使用对齐网络实现了更清晰的注意力和更少的计算负荷,并使用对比学习来训练模型。
Aug, 2020
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频-文本对齐,该方法在现有VMR方法的基础上取得了显著的进展。
Feb, 2023
本文提出了一种名为Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在VMR基准测试中取得了新的最佳性能。
May, 2023
我们提出了一种零样本方法,可以从任意的视觉语言模型中获得可泛化的视觉文字先验,并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐,从而在视频片段检索中实现显著的性能优势。
Sep, 2023
基于自然语言查询的视频时刻检索(MR)和精彩片段检测(HD)是两个高度相关的任务,目标是获取视频中的相关时刻和每个视频片段的精彩得分。本文提出了一种基于DETR的任务互补变换器(TR-DETR),专注于探索MR和HD之间的内在互补性。实验表明,TR-DETR优于现有的最先进方法。
Jan, 2024
视频语料库时刻检索~(VCMR)是一项新的视频检索任务,旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高VCMR的部分相关性增强模型~(PREM),该模型通过专门的部分相关性增强策略,在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明,该模型优于基准模型,在VCMR任务中达到了最新的性能水平。
Feb, 2024
通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。
May, 2024
用混合学习的方法,从全监督的源领域迁移到弱标记的目标领域,提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA),实现跨模态匹配信息共享和多模态特征对齐,优化领域不变的视觉和文本特征,以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性,可以帮助在目标领域中学习无时间标签的视频时刻检索。
Jun, 2024
利用图像-文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
Jun, 2024
本研究解决了视频时刻检索中查询与视频时刻语义对齐不精确的问题。提出的QD-VMR模型通过全球部分对齐模块和查询去偏差模块有效增强了跨模态理解能力,显著提高了检索精度。实验结果表明,该模型在多个基准数据集上实现了最先进的性能,具有良好的推广潜力。
Aug, 2024