CVPRNov, 2021
多模态变换器的端到端指代视频对象分割
End-to-End Referring Video Object Segmentation with Multimodal Transformers
Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
TL;DR本文提出了一种名为 Multimodal Tracking Transformer(MTTR)的基于 Transformer 的方法来实现 referring video object segmentation(RVOS)任务,该方法将视频和文本结合起来处理,不依赖于复杂的流水线,并且在标准基准测试中显著优于以前的方法。