CVPRNov, 2021

多模态变换器的端到端指代视频对象分割

TL;DR本文提出了一种名为 Multimodal Tracking Transformer(MTTR)的基于 Transformer 的方法来实现 referring video object segmentation(RVOS)任务,该方法将视频和文本结合起来处理,不依赖于复杂的流水线,并且在标准基准测试中显著优于以前的方法。