基于布朗桥的开放词汇视频实例分割

Jan, 2024

基于布朗桥的开放词汇视频实例分割

Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation

Zesen Cheng, Kehan Li, Hao Li, Peng Jin, Chang Liu...

TL;DR我们提出了一种名为 BriVIS 的方法，通过建立帧级实例表示与类别文本之间的布朗桥对准，实现了更精确的开放词汇 VIS，超越了 OV2Seg，并在挑战性数据集 BURST 上取得了 7.43 的 mAP，相比 OV2Seg 提高了 49.49%。

Abstract

Temporally locating objects with arbitrary class texts is the primary pursuit of open-vocabulary video instance segmentation (VIS). Because of the insufficient vocabulary of video data, previous methods leverage image-text pretraining model for recognizing object instances by separatel

video instance segmentation open-vocabulary vis brownian bridge frame-level instance representations bridge-text alignment

发现论文，激发创造

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

快速在线视频实例分割的交叉学习

本文提出了一种快速的在线视频实例分割模型 CrossVIS，通过交叉学习方案，即使用当前帧中的实例特征来像素级定位其他帧中的相同实例，实现了跨帧实例到像素关系的学习，结合实例分割损失，提高了在线实例相关性的准确性和稳定性，在三个具有挑战性的 VIS 基准测试数据集上实现了最先进的性能。

Apr, 2021

视频实例分割的时空对比学习

本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架，利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性，在 YouTube-VIS-2019，YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。

Feb, 2022

MinVIS: 一种不需要基于视频训练的最小化视频实例分割框架

提出了一种最小化的视频实例分割框架 MinVIS，通过训练基于查询的图像实例分割模型来处理视频帧，通过相关性匹配跟踪分割实例，最大限度地减少对标注帧的需求，并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能，达到了最先进的结果。

Aug, 2022

基于 Transformer 的端到端视频实例分割

VisTR 是一种基于 Transformers 的视频实例分割框架，提出了一种新的实例序列匹配和分割策略实现对序列的监督，从相似性学习的角度框架实例分割和跟踪，大大简化了整个流程，并在 YouTube-VIS 数据集上取得了最佳结果和最高速度，这激励了未来更多的视频理解任务的研究。

Nov, 2020

BriNet: 在一次分割中架起类内和类间差距的桥梁

提出了一种名为 BriNet 的分割框架，该框架应用信息交换模块和多路径细粒度策略来提高查询和支持图像之间的信息交互，进而实现精确定位查询对象；并且还提出了一种新的在线细化策略，帮助训练好的模型适应未见过的类别，并在 PASCAL VOC 和 MSCOCO 数据集上创造出新的最优效果。

Aug, 2020

CTVIS：在线视频实例分割的一致训练

在线视频实例分割的一项研究提出了一种名为 CTVIS 的训练策略，通过构建对比项和加入噪声来增强实例嵌入的区分度，从而解决了遮挡、重新识别和形变等实例分割挑战，并在三个 VIS 基准测试中超过了其他方法。

Jul, 2023

RefineVIS: 带有时间注意力细化的视频实例分割

介绍了一种名为 RefineVIS 的视频实例分割框架，该框架通过使用序列上下文反复改进表示来实现帧间的良好对象关联和精确的分割掩模。

Jun, 2023

UVIS: 无监督视频实例分割

UVIS 是一种无监督视频实例分割框架，利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力，通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现，通过采用双存储器设计，包括语义存储器和跟踪存储器，以提高无监督环境下 VIS 预测的质量，在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果，展示了该无监督 VIS 框架的潜力。

Jun, 2024