May, 2023

OpenVIS: 开放词汇视频实例分割

TL;DR本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。