视频片段定位调查
通过提出Moment Context Network来定位自然语言查询中的视频段,并通过构建Distinct Describable Moments数据集实现对局部视屏段的描述。
Aug, 2017
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过TEMPO数据集进行了实验以验证模型可靠性。
Sep, 2018
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。
Aug, 2019
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
本文提出了一种Hierarchical Moment Alignment Network方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
Aug, 2020
本文旨在评估当前benchmark数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架,通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息,以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。
Dec, 2020
本文介绍了一种新颖的多阶段渐进式本地化网络(PLN),采用不同时间粒度生成的候选时刻进行本地化,并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息,特别适合定位长视频中的短片段。
Feb, 2021
视频时刻检索通过一个名为MomentDiff的生成性扩散框架,实现了对未修剪视频中与给定语言描述相对应的特定时间段的高效广义解决方案。
Jul, 2023
利用图像-文本预训练的多模态大语言模型(MLLMs)进行时刻检索,获得了令人惊讶的有效性,并且在时刻检索和时序动作定位任务上实现了最新的性能。
Jun, 2024