多模态大型语言模型对视频片段检索的惊人有效性

Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

The Surprising Effectiveness of Multimodal Large Language Models for Video Moment Retrieval

Meinardus Boris, Batra Anil, Rohrbach Anna, Rohrbach Marcus

TL;DR利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Abstract

Recent studies have shown promising results in utilizing multimodal large language models (MLLMs) for computer vision tasks such as object detection and semantic segmentation. However, many challenging video tasks

发现论文，激发创造

使用时间语言定位视频中的瞬间

本文提出了一种新模型，该模型可以明确地推理视频中的不同时间片段，证明了在包括时间语言的短语定位中，时间上下文的重要性，并通过TEMPO数据集进行了实验以验证模型可靠性。

Sep, 2018

视频语料库中的时刻定位层级多模态编码器

本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Nov, 2020

通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频-文本对齐，该方法在现有VMR方法的基础上取得了显著的进展。

Feb, 2023

利用点级监督加速视频瞬间检索

本文提出了一种名为Cheaper and Faster Moment Retrieval（CFMR）的新方法，其基于点级别监督，并设计了一种基于概念的多模式对齐机制，旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题，并在VMR基准测试中取得了新的最佳性能。

May, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为BM-DETR的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

视频片段定位调查

对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Jun, 2023

来自冻结视觉-语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

MLLM作为视频叙述者：减轻视频片段检索中的模态不平衡

利用多模态大型语言模型(MLLM)的视觉文本理解能力，本研究以MLLM作为视频的叙述者，生成视频的文本描述，从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落，与视觉内容进行时间对齐。然后，将时间感知的叙述和相应的视频时间特征进行跨模态特征融合，生成语义增强的视频表示序列用于查询定位。接下来，引入了一种单模态的叙述-查询匹配机制，鼓励模型从上下文连贯的描述中提取互补信息，以改善检索效果。该方法在两个基准测试上进行了广泛实验，证明了其有效性和普适性。

Jun, 2024

多模态大型语言模型实现活动的时间连接

通过结合基于图像和基于文本的大型语言模型，这篇论文在两个阶段的方法中评估近期多模态大型语言模型在时间活动定位中的有效性，并表明此方法胜过现有的基于视频的大型语言模型；此外，论文还研究了对较小的多模态语言模型进行指导调整的影响，结果显示提高其处理动作查询的能力可生成更加富有表达力和信息量的输出，从而增强其在识别特定时间活动间隔方面的性能；在Charades-STA数据集上的实验结果突显了该方法在推动时间活动定位和视频理解领域的潜力。

May, 2024