面向模态的视频语料库时刻检索的伪查询生成
视频语料库时刻检索~(VCMR) 是一项新的视频检索任务,旨在使用自然语言文本作为查询从大量未修剪的视频语料库中检索相关时刻。我们提出了一种提高 VCMR 的部分相关性增强模型~(PREM),该模型通过专门的部分相关性增强策略,在视频检索和时刻定位两个子任务中取得了更好的性能。实验结果表明,该模型优于基准模型,在 VCMR 任务中达到了最新的性能水平。
Feb, 2024
本文提出一种新颖的交叉模态交互网络 (CMIN),通过语法图卷积网络,多头自注意力和多阶段跨模态交互,综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互,提高了视频检索准确性。
Jun, 2019
利用多模态大型语言模型 (MLLM) 的视觉文本理解能力,本研究以 MLLM 作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行时间对齐。然后,将时间感知的叙述和相应的视频时间特征进行跨模态特征融合,生成语义增强的视频表示序列用于查询定位。接下来,引入了一种单模态的叙述 - 查询匹配机制,鼓励模型从上下文连贯的描述中提取互补信息,以改善检索效果。该方法在两个基准测试上进行了广泛实验,证明了其有效性和普适性。
Jun, 2024
本文提出了一种名为 Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高 VMR 的检索效率。此方法可有效解决现有 VMR 方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在 VMR 基准测试中取得了新的最佳性能。
May, 2023
该论文提出了一种新的多粒度感知网络 (MGPN),旨在改善视频中的时刻检索,将时刻检索建模为一种多选阅读理解任务,结合人类阅读策略,并通过优化算法提高了检索精度。
May, 2022
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
通过提升视频模态和文本模态的特征,Modal-Enhanced Semantic Modeling(MESM)框架在视频短片检索中实现了更平衡的对齐,填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。
Dec, 2023
本文提出了一种基于交互建模的专注跨模态相关性匹配(ACRM)模型,用于预测时间边界,并通过内部帧进行模型训练以提高定位精度,通过在 TACoS 和 Charades-STA 数据集上进行的实验表明,ACRM 模型优于几种最先进的方法。
Sep, 2020