未见领域视频时刻检索的生成式视频扩散

Jan, 2024

未见领域视频时刻检索的生成式视频扩散

Generative Video Diffusion for Unseen Cross-Domain Video Moment Retrieval

Dezhao Luo, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu

TL;DR本研究通过利用目标领域的句子（文本提示）而无需访问其视频，探索生成式视频扩散来编辑源视频，实现未知领域的视频时刻检索（VMR）。通过两个问题的解决，即产生具有微妙差异的不同时刻的高质量模拟视频和选择与现有源训练视频互补的模拟视频，优化未知领域的VMR。

Abstract

video moment retrieval (VMR) requires precise modelling of fine-grained moment-text associations to capture intricate visual-language relationships. Due to the lack of a diverse and generalisable VMR dataset to f

发现论文，激发创造

对比学习视频语料库瞬间检索

本文提出了一个可用于视频语料库时刻检索的检索和定位网络，采用对比学习优化视频编码器和文本编码器，从而实现视频轮廓时序信息检索。该方法效率高且具有可比性。

May, 2021

视频时刻检索的多模态跨域对齐网络

本文提出了一种用于跨域视频时刻检索的 Multi-Modal Cross-Domain Alignment 网络以及三个模块：域对齐模块、跨模态对齐模块和特定对齐模块，通过联合训练这些模块，实现域内不变和语义对齐的跨模态表示。

Sep, 2022

通向可泛化的视频片段检索：通过将视觉动态注入到图像-文本预训练中实现

研究探究了大规模图文数据中的多模态相关性，并提出了一种通用方法Visual-Dynamic Injection（VDI）来增强模型对视频时刻的理解及视觉动态信息的提取，从而更准确地进行视频-文本对齐，该方法在现有VMR方法的基础上取得了显著的进展。

Feb, 2023

利用点级监督加速视频瞬间检索

本文提出了一种名为Cheaper and Faster Moment Retrieval（CFMR）的新方法，其基于点级别监督，并设计了一种基于概念的多模式对齐机制，旨在提高VMR的检索效率。此方法可有效解决现有VMR方法所存在的昂贵的时间注释、计算成本高、效率低等问题，并在VMR基准测试中取得了新的最佳性能。

May, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为BM-DETR的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

DiffusionVMR：视频时刻检索的扩散模型

该研究提出了一种名为DiffusionVMR的提议无关框架，通过将视频时刻检索重新构想为去噪生成过程，直接从噪声中采样随机时段作为候选，并引入去噪学习以确定目标时刻。实验证明DiffusionVMR相比现有方法具有更高的效果。

Aug, 2023

来自冻结视觉-语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

跨多领域标签的混合学习视频时刻检索

用混合学习的方法，从全监督的源领域迁移到弱标记的目标领域，提高视频时刻检索模型的学习能力。通过引入多支视觉文本对齐模型 (EVA)，实现跨模态匹配信息共享和多模态特征对齐，优化领域不变的视觉和文本特征，以及具有判别性的联合视频和文本表示。实验证明 EVA 在源领域的时间段注释中的有效性，可以帮助在目标领域中学习无时间标签的视频时刻检索。

Jun, 2024

VERIFIED：用于细粒度视频理解的视频语料库时刻检索基准

本研究针对现有视频语料库时刻检索（VCMR）的粗粒度理解限制，提出了VERIFIED基准，挑战性更大的细粒度检索。通过自动视频文本注释管道和增强的静态动态模块，生成多样化的细粒度字幕，并实现高质量的数据注释，从而推动细粒度视频理解的发展。

Oct, 2024