Feb, 2024

TDViT:用于密集视频任务的时序扩张视频变换器

TL;DR我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT),通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示,并有效缓解时态冗余的负面影响,从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验,即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS,出色的实验结果证明了我们方法的出色效率、有效性和兼容性。