通过单帧注释从文本查询中检索视频时刻

SIGIRApr, 2022

通过单帧注释从文本查询中检索视频时刻

Video Moment Retrieval from Text Queries via Single Frame Annotation

Ran Cui, Tianwen Qian, Pai Peng, Elena Daskalaki, Jingjing Chen...

TL;DR本文提出一种称为 “glance annotation” 的新型注释范式，通过将输入的视频切分成多个片段，并利用对比学习的 ViGA 方法，得到具有高性能的视频片段检索结果。

Abstract

video moment retrieval aims at finding the start and end timestamps of a moment (part of a video) described by a given natural language query. Fully supervised methods need complete temporal boundary annotations to achieve promising results, which is costly since the annotator needs to

video moment retrieval supervised learning glance annotation contrastive learning performance

发现论文，激发创造

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

基于语义补全网络的弱监督视频时刻检索

本文提出了一种新的弱监督视频瞬间检索框架，包括提议生成和语义完成等组件，并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。

Nov, 2019

GlanceVAD: 探索用于高效标签的视频异常检测的瞥视监督

本文提出了一种名为 “glance annotation” 的新型标注范式，通过在异常事件中添加随机帧来平衡异常检测准确性和标注成本，在 UCF-Crime 和 XD-Violence 两个标准视频异常检测数据集上进行了综合分析和实验验证，证明了该标注范式能够在标注成本和模型性能之间取得卓越的平衡，同时通过凭借高斯核作为基本单元来构建时序异常分布的 GlanceVAD 方法，在广泛的实验结果中明确了其在超越现有先进无监督和弱监督方法方面的有效性。

Mar, 2024

基于查询的视频时刻检索中的隐含挑战揭示

本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力，指出了目前数据集存在的偏差。作者同时提出了新的实验方法，以便更好地可视化结果，并在最后展望了未来的研究方向与改进。

Sep, 2020

视频片段定位调查

对现有的视频时刻定位技术（包括监督、弱监督和非监督），以及可用于视频时刻定位的数据集进行全面回顾，并讨论了大规模数据集和可解释视频时刻定位模型等未来发展方向。

Jun, 2023

D3G: 利用高斯先验探索具有注视标注的时间句子定位

通过减少标注成本并保持与全监督方法相竞争的性能，我们提出了一种基于动态高斯先验的望注释视图的时间句子定位框架，该框架在关键词之间进行了深入调研，并通过 Semantic Alignment Group Contrastive Learning 模块和 Dynamic Gaussian prior Adjustment 模块来提高性能。

Aug, 2023

利用点级监督加速视频瞬间检索

本文提出了一种名为 Cheaper and Faster Moment Retrieval（CFMR）的新方法，其基于点级别监督，并设计了一种基于概念的多模式对齐机制，旨在提高 VMR 的检索效率。此方法可有效解决现有 VMR 方法所存在的昂贵的时间注释、计算成本高、效率低等问题，并在 VMR 基准测试中取得了新的最佳性能。

May, 2023

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

来自冻结视觉 - 语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023

视频编辑对视频检索的应用

通过使用单个时间戳作为廉价的注释来源，本研究提出了一种视频文本检索方法，其中初始视频片段边界从时间戳启动，并通过视频片段编辑方法进行改进，以提高检索性能。实验结果表明，通过编辑视频片段可以持续改善检索性能。

Feb, 2024