促使大型语言模型改写查询以定位时刻
本文提出了一种新模型,该模型可以明确地推理视频中的不同时间片段,证明了在包括时间语言的短语定位中,时间上下文的重要性,并通过 TEMPO 数据集进行了实验以验证模型可靠性。
Sep, 2018
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
本文旨在评估当前 benchmark 数据集反映真实查询基于片段检索的进展的能力,指出了目前数据集存在的偏差。作者同时提出了新的实验方法,以便更好地可视化结果,并在最后展望了未来的研究方向与改进。
Sep, 2020
本文提出了一种 Hierarchical Moment Alignment Network 方法,该方法基于文本查询,可以在视频语料库中检索相关视频,并对视频中的时刻进行定位。实验结果表明该方法在三个基准测试集上实现了令人满意的性能表现。
Aug, 2020
通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。
Aug, 2017
本文提出了一个基于 2D 时间映射的 Temporal Adjacent Network(2D-TAN)框架,用于在未修剪的视频中匹配与查询句子相关的特定时间点,该框架可以编码相邻的时间关系,并学习具有区分性的特征以提高活动识别的准确性,通过在 Charades-STA,ActivityNet Captions 和 TACoS 等数据集上的表现,证明了该方法的优越性。
Dec, 2019
本论文提出了 Temporal Compositional Modular Network (TCMN) 模型,该模型结合自然语言描述和视觉信息,通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分,再使用两个模块计量视频片段与细分描述间的相似度和位置相似度,通过 late fusion 方法组合 RGB 和光流两种数据进行训练,实验证明此模型在 TEMPO 数据集上表现优于现有方法。
Aug, 2019
本文旨在解决 Natural Language Video Localization(NLVL)的问题,通过提出 Moment Sampling DETR 算法,即基于提议的解决方案,生成候选时刻,并选择最佳匹配提议,同时使用可学习的模板进行多尺度视觉和语言编码,对数据集进行实验,提高了 MS-DETR 的准确性。
May, 2023
本文介绍了一种新颖的多阶段渐进式本地化网络(PLN),采用不同时间粒度生成的候选时刻进行本地化,并使用条件特征操作模块和上采样连接以使后续阶段能够吸收以前已学习的信息,特别适合定位长视频中的短片段。
Feb, 2021