MSN：视频实例分割的高效在线遮蔽选择网络

CVPRJun, 2021

MSN：视频实例分割的高效在线遮蔽选择网络

MSN: Efficient Online Mask Selection Network for Video Instance Segmentation

Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi

TL;DR本文提出一种新的视频实例分割方法，利用基于 patch 的卷积神经网络设计的掩模选择网络，以及前向和后向推理的时间一致性策略来提高分割结果的准确性，从而实现了对视频中对象的跟踪和分割。该方法在 2021 年 YouTube-VIS 挑战赛中获得了 49.1mAP 的得分，并获得了第三名的成绩。

Abstract

In this work we present a novel solution for Video Instance Segmentation(VIS), that is automatically generating instance level segmentation masks along with object class and tracking them in a video. Our method improves the masks from segmentation and propagation branches in an online manner using the →

video instance segmentation instance level segmentation masks mask selection network temporal consistency online learning

发现论文，激发创造

MaskRNN：实例级视频对象分割

本文提出了一种名为 MaskRNN 的递归神经网络方法，它在每帧中利用两个深度成像网络输出（二元分割网络和定位网络）进行目标实例的视频对象分割以获取长时序结构和剔除异常值，结果在 DAVIS-2016、DAVIS-2017 和 Segtrack v2 数据集中均达到了最优表现。

Mar, 2018

无遮挡视频实例分割

本文提出了一种采用类似 KNN 特征匹配的方式，而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS，并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。

Mar, 2023

视频对象分割的学习实例传播（Learning Instance Propagation for Video Object Segmentation）

本研究提出了一种端到端的深度神经网络，结合了 Mask-RCNN 实例分割网络和 Conv-GRU 视觉记忆模块，用于解决半监督视频对象分割任务，实验结果表明该方法在 DAVIS 数据集上取得了令人满意的结果。

Sep, 2019

视频实例分割

本论文提出了一个新的计算机视觉任务，名为视频实例分割，目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究，提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明，这个算法优于强基线，并为未来研究提供了启示。

May, 2019

PM-VIS: 高性能有框标注视频实例分割

通过多个角度利用实例框注释生成高质量的伪实例掩码，并引入两种基于高质量伪实例掩码的真实数据过滤方法，以提高训练数据集质量并改善完全监督的 VIS 方法性能。通过整合掩码损失到 IDOL-BoxInst 中，我们的 PM-VIS 模型在实例掩码预测方面表现出较强能力，在 YouTube-VIS 2019、YouTube-VIS 2021 和 OVIS 验证集上取得了最新的最佳性能，显著缩小了基于框监督和完全监督的 VIS 方法之间的差距。

Apr, 2024

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

面具孪生网络用于标签高效学习

提出了一种自监督学习框架 ——Masked Siamese Networks (MSN)，用于学习图像表示。通过将随机遮罩块的图像视图的表征与原始未遮罩图像的表征进行匹配，可以进行自监督预训练，该策略特别适用于 Vision Transformer 模型，在提高联合嵌入结构的可扩展性的同时，产生高语义级别的表示，并在低样本图像分类方面表现竞争性，对 ImageNet-1K 数据集上，使用基础 MSN 模型以仅有 5000 个带注释的图像，达到了 72.4％的 top-1 准确度，并且只有 1％的 ImageNet-1K 标签，就取得了 75.7％的 top-1 准确度，创立了该基准测试的自监督学习的新的最佳成果。

Apr, 2022

高性能视频实例分割无需视频注释

通过利用图像数据集，本研究介绍了一种消除视频注释的方法，并通过适应性的 PM-VIS 算法来处理边框和实例级像素注释。通过引入 ImageNet-bbox 来补充视频数据集中缺失的类别，并通过 PM-VIS + 算法根据注释类型调整监督。通过在未注释的视频数据上使用伪掩码和半监督优化技术来提高准确性。这种方法在没有手动视频注释的情况下实现了高水平的视频实例分割性能，为视频实例分割应用提供了具有成本效益的解决方案和新的视角。代码将在此 https 网址上提供。

Jun, 2024

快速在线物体跟踪和分割：一种统一的方法

该研究介绍了一种名为 SiamMask 的方法，可实现单个简单方法的实时视觉对象跟踪和半监督视频对象分割。在实时操作过程中，SiamMask 仅依赖于单个边界框初始化，以每秒 55 帧的速度产生类不可知对象分割掩模和旋转边界框。该方法在 VOT-2018 实时跟踪器中实现了新的最新技术，同时在 DAVIS-2016 和 DAVIS-2017 的半监督视频对象分割任务中提供了最佳速度和最佳性能。

Dec, 2018

SG-Net: 一阶段视频实例分割的空间粒度网络

本文提出了一种新型的一阶空间粒度网络（SG-Net）来应对视频实例分割任务，相较于传统两步骤方法，其具有更加紧凑的构架以及更好的运行时间复杂度表现，同时在精度上也表现出了更好的性能。

Mar, 2021