Mar, 2024

CLIP-VIS:适应开放词汇视频实例分割

TL;DR本研究提出了一个名为 CLIP-VIS 的简单编码器 - 解码器网络,用于自适应开放词汇视频实例分割。CLIP-VIS 采用冻结的 CLIP 图像编码器,并引入了类不可知的掩码生成、时序 Top-K 增强匹配和加权开放词汇分类三个模块,实验结果表明该方法在各种视频实例分割数据集上表现出色。