通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

Feb, 2023

通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training

Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu

TL;DR研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频-文本对齐，该方法在现有VMR方法的基础上取得了显著的进展。

Abstract

The correlation between the vision and text is essential for video moment retrieval (VMR), however, existing methods heavily rely on separate pre-training feature extractors for visual and textual understanding. Without sufficient temporal boundary annotations, it is non-trivial to lea

发现论文，激发创造

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本-视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

VLANet: 弱监督视频时刻检索的视频-语言对齐网络

本文提出了一种弱监督方法（wVMR）进行视频瞬间检索，通过使用对齐网络实现了更清晰的注意力和更少的计算负荷，并使用对比学习来训练模型。

Aug, 2020

对比学习视频语料库瞬间检索

本文提出了一个可用于视频语料库时刻检索的检索和定位网络，采用对比学习优化视频编码器和文本编码器，从而实现视频轮廓时序信息检索。该方法效率高且具有可比性。

May, 2021

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为BM-DETR的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

来自冻结视觉-语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

迈向平衡对齐：视频时刻检索的模态增强语义建模

通过提升视频模态和文本模态的特征，Modal-Enhanced Semantic Modeling（MESM）框架在视频短片检索中实现了更平衡的对齐，填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。

Dec, 2023

未见领域视频时刻检索的生成式视频扩散

本研究通过利用目标领域的句子（文本提示）而无需访问其视频，探索生成式视频扩散来编辑源视频，实现未知领域的视频时刻检索（VMR）。通过两个问题的解决，即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频，优化未知领域的VMR。

Jan, 2024

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

MLLM作为视频叙述者：减轻视频片段检索中的模态不平衡

利用多模态大型语言模型(MLLM)的视觉文本理解能力，本研究以MLLM作为视频的叙述者，生成视频的文本描述，从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落，与视觉内容进行时间对齐。然后，将时间感知的叙述和相应的视频时间特征进行跨模态特征融合，生成语义增强的视频表示序列用于查询定位。接下来，引入了一种单模态的叙述-查询匹配机制，鼓励模型从上下文连贯的描述中提取互补信息，以改善检索效果。该方法在两个基准测试上进行了广泛实验，证明了其有效性和普适性。

Jun, 2024

多模态大型语言模型对视频片段检索的惊人有效性

利用图像-文本预训练的多模态大语言模型（MLLMs）进行时刻检索，获得了令人惊讶的有效性，并且在时刻检索和时序动作定位任务上实现了最新的性能。

Jun, 2024