CVPRMar, 2022
TubeDETR: 基于 Transformer 的时空视频锚定
TubeDETR: Spatio-Temporal Video Grounding with Transformers
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
TL;DR提出了基于 Transformer 的 TubeDETR 模型,该模型能够高效地建模时空和多模态交互,用于解决视频中给定文本查询的时空定位问题,并且在视频定位任务上表现出色。