视频实例分割

ICCVMay, 2019

Video Instance Segmentation

Linjie Yang, Yuchen Fan, Ning Xu

TL;DR本论文提出了一个新的计算机视觉任务，名为视频实例分割，目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究，提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明，这个算法优于强基线，并为未来研究提供了启示。

Abstract

In this paper we present a new computer vision task, named video instance segmentation. The goal of this new task is simultaneous detection, segmentation and tracking of instances in videos. In words, it is the f

video instance segmentation tracking mask r-cnn youtube-vis computer vision

发现论文，激发创造

视频实例分割的深度学习技术综述

视频实例分割是一项新兴的计算机视觉研究领域，该论文调查了基于深度学习的视频实例分割方案，包括架构设计、性能比较、模型复杂度和计算开销，以及改进性能和未来研究方向等方面的信息。

Oct, 2023

基于数据关联和单阶段检测器的人体实例分割与跟踪

本文提出了一种新的基于单级探测器的人类视频实例分割方法，采用数据关联和重心采样策略，结合学习目标实例出现和关联的特征，以及创建一个专用于人类视频分割的数据集 PVIS，模拟结果表明其有效性和高效性。

Mar, 2022

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

无需视频注释学习实例跟踪

本文介绍了一种利用标记图像数据和未标记视频序列学习实例跟踪网络的半监督框架，采用实例对比目标，利用学习的嵌入区分每个实例并在不同帧之间稳定地跟踪对象，并且将此模块集成到单阶段实例分割和姿态估计框架中，较之两阶段网络显著降低了跟踪的计算复杂度。无需任何视频标注努力，我们的方法可达到与大多数完全监督方法相当甚至更好的性能。

Apr, 2021

MaskRNN：实例级视频对象分割

本文提出了一种名为 MaskRNN 的递归神经网络方法，它在每帧中利用两个深度成像网络输出（二元分割网络和定位网络）进行目标实例的视频对象分割以获取长时序结构和剔除异常值，结果在 DAVIS-2016、DAVIS-2017 和 Segtrack v2 数据集中均达到了最优表现。

Mar, 2018

视频实例分割的时空对比学习

本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架，利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性，在 YouTube-VIS-2019，YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。

Feb, 2022

遮挡视频实例分割：基准

我们收集了一个大规模的被遮挡的视频实例分割数据集，即检测，在遮挡场景中同时分割和跟踪实例，实验表明，现有的视频理解系统无法理解这些被遮挡的实例，我们还提出了一个简单的插件模块，用于补充遮挡引起的缺失对象线索，建立在 MaskTrack R-CNN 和 SipMask 上，在 OVIS 数据集上取得了显着的 AP 提升。

Feb, 2021

基于时空图神经网络的端到端视频实例分割

本文提出了基于图神经网络（GNN）的视频目标实例分割方法，使用图中的节点表示实例特征来进行检测和分割，而使用表示实例关系的图中的边来进行跟踪，有效地传播和共享帧内外信息，同时优化检测、分割和跟踪三个问题，取得了优于现有方法的表现。

Mar, 2022

高性能视频实例分割无需视频注释

通过利用图像数据集，本研究介绍了一种消除视频注释的方法，并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别，并通过 PM-VIS + 算法根据注释类型调整监督。通过在未注释的视频数据上使用伪掩码和半监督优化技术来提高准确性。这种方法在没有手动视频注释的情况下实现了高水平的视频实例分割性能，为视频实例分割应用提供了具有成本效益的解决方案和新的视角。代码将在此 https 网址上提供。

Jun, 2024

视频实例分割中的点监督价值是多少？

通过减少视频帧中的人工注释点为每个对象，我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测，在三个视频示例分割基准上展示了该框架的竞争性性能。

Apr, 2024