Sep, 2023

全程 Transformer 装备的端到端指代视频物体分割

TL;DR提出了一种基于 transformers 的完全建立在 Referring Video Object Segmentation 任务上的框架,通过学习 mask 序列解决视频中物体的分割问题,并通过 Stacked Transformer 来捕捉物体级别的空间上下文。