BriefGPT.xyz
Apr, 2020
局部-全局视频文本交互的时间对齐
Local-Global Video-Text Interactions for Temporal Grounding
HTML
PDF
Jonghwan Mun, Minsu Cho, Bohyung Han
TL;DR
该论文提出了一种基于回归模型的方法,使用文本查询中的语义短语提取中间特征,以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互,通过在多个层面上从局部到全局利用上下文信息,有效地预测目标时间区间。实验证明,该方法在Charades-STA和ActivityNet Captions数据集上的表现明显优于现有方法。
Abstract
This paper addresses the problem of
text-to-video
temporal grounding, which aims to identify the time interval in a video semantically relevant to a text query. We tackle this problem using a novel
regression-based mode
→