Nov, 2020

基于视觉转换器的人类中心时空视频定位

TL;DR本文介绍了一项新任务 —— 人体中心的时空视频定位(HC-STVG),并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers(STGVT)的基准方法,该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示,同时我们贡献了一个 HC-STVG 数据集,其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验,表明新提出的方法优于现有的基准方法。