多模态大型语言模型对视频片段检索的惊人有效性
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过TEMPO数据集进行了实验以验证模型可靠性。
Sep, 2018
本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型,通过在粗略的片段级别和细粒度的帧级别编码视频,从多个子任务中提取不同尺度的信息,从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明,我们的方法优于以前的方法和强基线,是此任务的新的 state-of-the-art。
Nov, 2020
研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频-文本对齐,该方法在现有VMR方法的基础上取得了显著的进展。
Feb, 2023
本文提出了一种名为Cheaper and Faster Moment Retrieval(CFMR)的新方法,其基于点级别监督,并设计了一种基于概念的多模式对齐机制,旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题,并在VMR基准测试中取得了新的最佳性能。
May, 2023
提出一种名为BM-DETR的背景感知时刻检测变压器模型,通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度,从而提高视频时刻检索(VMR)的效果和泛化能力。
Jun, 2023
我们提出了一种零样本方法,可以从任意的视觉语言模型中获得可泛化的视觉文字先验,并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐,从而在视频片段检索中实现显著的性能优势。
Sep, 2023
通过引入大型语言模型(LLMs)的广泛知识,我们提出了一种大型语言模型引导的时刻检索(LMR)方法,以改善视频上下文表示和跨模态对齐,从而实现准确的目标时刻定位。
May, 2024
利用多模态大型语言模型(MLLM)的视觉文本理解能力,本研究以MLLM作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行时间对齐。然后,将时间感知的叙述和相应的视频时间特征进行跨模态特征融合,生成语义增强的视频表示序列用于查询定位。接下来,引入了一种单模态的叙述-查询匹配机制,鼓励模型从上下文连贯的描述中提取互补信息,以改善检索效果。该方法在两个基准测试上进行了广泛实验,证明了其有效性和普适性。
Jun, 2024
通过结合基于图像和基于文本的大型语言模型,这篇论文在两个阶段的方法中评估近期多模态大型语言模型在时间活动定位中的有效性,并表明此方法胜过现有的基于视频的大型语言模型;此外,论文还研究了对较小的多模态语言模型进行指导调整的影响,结果显示提高其处理动作查询的能力可生成更加富有表达力和信息量的输出,从而增强其在识别特定时间活动间隔方面的性能;在Charades-STA数据集上的实验结果突显了该方法在推动时间活动定位和视频理解领域的潜力。
May, 2024