CVPRMar, 2022

TubeDETR: 基于 Transformer 的时空视频锚定

TL;DR提出了基于 Transformer 的 TubeDETR 模型,该模型能够高效地建模时空和多模态交互,用于解决视频中给定文本查询的时空定位问题,并且在视频定位任务上表现出色。