Nov, 2023

开放词汇伪装物体分割

TL;DR最近,大规模视觉语言模型(VLM)的出现,如CLIP,为开放世界的物体感知打开了道路。我们提出了一个新的任务,开放词汇伪装的物体分割(OVCOS),并构建了一个包含11,483个精选图像和细粒度注释的大规模复杂场景数据集(OVCamo)。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充,所提出的方法可以有效地捕捉伪装对象。此外,这个有效的框架在我们的OVCamo数据集上也超过了先前状态-of-the-art的开放词汇语义图像分割方法。借助提出的数据集和基线,我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。