VISAGE：基于外观引导增强的视频实例分割

Dec, 2023

VISAGE：基于外观引导增强的视频实例分割

VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement

Hanjung Kim, Jaehyun Kang, Miran Heo, Sukjun Hwang, Seoung Wug Oh...

TL;DR近年来，利用强大的基于查询的检测器，在线视频实例分割（VIS）方法在帧级别利用检测器的输出查询，取得了极高的准确性。然而，我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题，我们提出了 VISAGE，通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询，并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后，通过解决对位置信息过度依赖的问题，在复杂场景中实现了准确匹配，我们在多个 VIS 基准测试上取得了有竞争力的性能。例如，在 YTVIS19 和 YTVIS21 上，我们的方法分别达到了 54.5AP 和 50.8AP。此外，为了凸显现有基准测试尚未完全解决的外观感知问题，我们生成了一个合成数据集，在利用外观提示的情况下，我们的方法明显优于其他方法。代码将在此 URL 提供。

Abstract

In recent years, online video instance segmentation (VIS) methods have shown remarkable advancement with their powerful query-based detectors. Utilizing the output queries of the detector at the frame level, these methods achieve high accuracy on challenging benchmarks. However, we obs

online video instance segmentation visage appearance information instance association location information

发现论文，激发创造

视频实例分割的通用框架

提出了基于查询式训练和具有前状态信息的内存模块用于序列学习的通用可变的视频实例分割（GenVIS）方法，并在多个基准测试中取得了优秀的结果。

Nov, 2022

视频实例分割中的点监督价值是多少？

通过减少视频帧中的人工注释点为每个对象，我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测，在三个视频示例分割基准上展示了该框架的竞争性性能。

Apr, 2024

遮挡视频实例分割：基准

我们收集了一个大规模的被遮挡的视频实例分割数据集，即检测，在遮挡场景中同时分割和跟踪实例，实验表明，现有的视频理解系统无法理解这些被遮挡的实例，我们还提出了一个简单的插件模块，用于补充遮挡引起的缺失对象线索，建立在 MaskTrack R-CNN 和 SipMask 上，在 OVIS 数据集上取得了显着的 AP 提升。

Feb, 2021

基于数据关联和单阶段检测器的人体实例分割与跟踪

本文提出了一种新的基于单级探测器的人类视频实例分割方法，采用数据关联和重心采样策略，结合学习目标实例出现和关联的特征，以及创建一个专用于人类视频分割的数据集 PVIS，模拟结果表明其有效性和高效性。

Mar, 2022

UVIS: 无监督视频实例分割

UVIS 是一种无监督视频实例分割框架，利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力，通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现，通过采用双存储器设计，包括语义存储器和跟踪存储器，以提高无监督环境下 VIS 预测的质量，在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果，展示了该无监督 VIS 框架的潜力。

Jun, 2024

MinVIS: 一种不需要基于视频训练的最小化视频实例分割框架

提出了一种最小化的视频实例分割框架 MinVIS，通过训练基于查询的图像实例分割模型来处理视频帧，通过相关性匹配跟踪分割实例，最大限度地减少对标注帧的需求，并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能，达到了最先进的结果。

Aug, 2022

在线模型在视频实例分割中的防御

通过比较现有的在线模型和离线模型，提出了一种基于对比学习的在线框架，以学习更具区分性的实例嵌入并充分利用历史信息实现关联，显著提高了视频实例分割的性能，特别是在挑战性较大的 OVIS 数据集上表现突出，赢得了第四届大规模视频对象分割挑战赛 (CVPR2022) 视频实例分割赛道的第一名。

Jul, 2022

上下文感知的视频实例分割

该论文介绍了上下文感知视频实例分割（CAVIS）的新框架，通过整合与每个对象相邻的上下文信息来增强实例关联性，提出上下文感知实例追踪器（CAIT）有效地提取和利用这些信息，并将周围的上下文数据与核心实例特征进行合并以提高追踪精度。此外，引入了原型跨帧对比（PCC）损失函数，确保帧间物体级特征的一致性，从而显著提高实例匹配的准确性。CAVIS 在视频实例分割（VIS）和视频全景分割（VPS）的所有基准数据集上展示出优越性能，特别是在尤为具有挑战性的 OVIS 数据集上表现出色。

Jul, 2024

追踪实例作为查询

本文提出了一种名为 QueryTrack 的统一查询 VIS 框架，该框架利用 QueryInst 中实例和查询之间固有的一对一对应关系，采用端到端模型、单尺度测试和适量的训练数据，在 YouTube-VIS-2019/2021 数据集上实现了 52.7/52.3 AP，并在 CVPR 2021 的 YouTube-VIS 挑战赛中获得第二名。

Jun, 2021

视频实例分割

本论文提出了一个新的计算机视觉任务，名为视频实例分割，目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究，提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明，这个算法优于强基线，并为未来研究提供了启示。

May, 2019