本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本文提出了一种新的弱监督视频瞬间检索框架,包括提议生成和语义完成等组件,并在 ActivityCaptions 和 Charades-STA 数据集上进行了实验证明其有效性。
Nov, 2019
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过 TEMPO 数据集进行了实验以验证模型可靠性。
Sep, 2018
这篇文章讨论了如何利用大型语言模型来改进时刻定位的自然语言查询,使其更适合定位模型处理复杂的未剪辑视频内容。
Jun, 2023
通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。
Aug, 2017
近年来,多媒体内容的爆炸性增长使得自然语言视频本地化成为一个关键性的问题。本文引入了一个大规模视频时刻检索(MVMR)任务,用于从大量视频中定位视频帧。我们提出了一种构建数据集的方法,并介绍了三个 MVMR 数据集。针对这个任务,我们还开发了一个强大的模型,即可靠的互补匹配网络(RMMN),该模型通过对准确有效的负样本进行对比学习来提高鲁棒性。实验结果表明,与现有的 NLVL 模型相比,我们的模型在 MVMR 任务中表现出显著的性能优势。
Aug, 2023
本文提出了一种 Hierarchical Moment Alignment Network 方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
Aug, 2020
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
利用图像 - 文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
Jun, 2024
本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题,并使用基于文本引导的注意力机制学习视频中的相关片段,该方法在两个基准数据集上获得了与监督式学习方法相当的性能。
Apr, 2019