CVPRDec, 2021

使用文本和图像提示进行图像分割

TL;DR本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。