CVPRJan, 2020

多形式句子的时空视频定位

TL;DR本文研究了一种新的任务,即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题,利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。