Existing approaches to unsupervised video instance segmentation typically
rely on motion estimates and experience difficulties tracking small or
divergent motions. We present VideoCutLER, a simple method for unsu
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。