May, 2023
OpenVIS: 开放词汇视频实例分割
OpenVIS: Open-vocabulary Video Instance Segmentation
TL;DR本研究提出和研究了一项新的计算机视觉任务,名为OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的VLM预测其对应的类别,其次通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。