对比学习视频语料库瞬间检索
本文提出一种新颖的交叉模态交互网络 (CMIN),通过语法图卷积网络,多头自注意力和多阶段跨模态交互,综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互,提高了视频检索准确性。
Jun, 2019
本文提出了一种弱监督方法(wVMR)进行视频瞬间检索,通过使用对齐网络实现了更清晰的注意力和更少的计算负荷,并使用对比学习来训练模型。
Aug, 2020
本文提出了一种用于跨域视频时刻检索的 Multi-Modal Cross-Domain Alignment 网络以及三个模块:域对齐模块、跨模态对齐模块和特定对齐模块,通过联合训练这些模块,实现域内不变和语义对齐的跨模态表示。
Sep, 2022
本文提出了一种基于自监督学习的框架,通过生成基于视觉和文本信息的伪查询,利用多模式信息来定位视频片段,有效地解决了视频中存在的时序动态和多模式推理问题,并在实验中取得了竞争性的结果。
Oct, 2022
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频-文本对齐,该方法在现有VMR方法的基础上取得了显著的进展。
Feb, 2023
视频时刻检索是一项具有挑战性的任务,需要视频和文本模态之间的精细交互。我们评估了一个最近提出的解决方案,在视频 grounding 任务中引入了不对称协同注意力网络,并在两个模态中加入了动量对比损失,其整合效果在 TACoS 数据集上表现更好,并在 ActivityNet Captions 上表现可比的结果,而且相对于基线模型,参数数量显著减少。
Dec, 2023
视频语料库时刻检索~(VCMR)是一项新的视频检索任务,旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高VCMR的部分相关性增强模型~(PREM),该模型通过专门的部分相关性增强策略,在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明,该模型优于基准模型,在VCMR任务中达到了最新的性能水平。
Feb, 2024
用混合学习的方法,从全监督的源领域迁移到弱标记的目标领域,提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA),实现跨模态匹配信息共享和多模态特征对齐,优化领域不变的视觉和文本特征,以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性,可以帮助在目标领域中学习无时间标签的视频时刻检索。
Jun, 2024
利用多模态大型语言模型(MLLM)的视觉文本理解能力,本研究以MLLM作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行时间对齐。然后,将时间感知的叙述和相应的视频时间特征进行跨模态特征融合,生成语义增强的视频表示序列用于查询定位。接下来,引入了一种单模态的叙述-查询匹配机制,鼓励模型从上下文连贯的描述中提取互补信息,以改善检索效果。该方法在两个基准测试上进行了广泛实验,证明了其有效性和普适性。
Jun, 2024
本研究针对现有视频语料库时刻检索(VCMR)的粗粒度理解限制,提出了VERIFIED基准,挑战性更大的细粒度检索。通过自动视频文本注释管道和增强的静态动态模块,生成多样化的细粒度字幕,并实现高质量的数据注释,从而推动细粒度视频理解的发展。
Oct, 2024