CVPROct, 2021

目标区域视频转换器

TL;DR本文提出了 Object-Region Video Transformers (ORViT)—— 一种基于对象的视觉转换方法,通过融合早期层的对象间信息直接影响整个网络的时空表示。我们的模型通过面向对象的自我关注和分离对象的动态特征来捕获物体和其在视频中的动态交互,取得了在多项任务和数据集上的显著性能提升。