使用时间语言定位视频中的瞬间
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。
Aug, 2019
通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。
Aug, 2017
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
提出了 Momentor,一种能够完成细粒度时态理解任务的 Video-LLM,并通过 Moment-10M 数据集的训练,使其在细粒度理解和定位方面表现出色。
Feb, 2024
本研究提出了一种文本 - 视频本地化预文本任务,以实现细粒度的时间和语义对齐,从而让训练模型能够准确感知给定文本描述的视频时间边界,并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。
Jan, 2023
本文提出了一种 Hierarchical Moment Alignment Network 方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
Aug, 2020
本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本文介绍了一种新颖的多阶段渐进式本地化网络(PLN),采用不同时间粒度生成的候选时刻进行本地化,并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息,特别适合定位长视频中的短片段。
Feb, 2021