基于实例的身份：视频实例分割的通用在线范式

ECCVAug, 2022

基于实例的身份：视频实例分割的通用在线范式

Instance As Identity: A Generic Online Paradigm for Video Instance Segmentation

Feng Zhu, Zongxin Yang, Xin Yu, Yi Yang, Yunchao Wei

TL;DR本文提出了一种新的在线视频实例分割范例，名为 Instance As Identity (IAI)，通过使用新的识别和关联模块，将时态信息集成到在线模型中，成功地在三个不同的半监督挑战中超越了所有的竞争者。

Abstract

Modeling temporal information for both detection and tracking in a unified framework has been proved a promising solution to video instance segmentation (VIS). However, how to effectively incorporate the

video instance segmentation temporal information online model identification module association module

发现论文，激发创造

视频目标检测的一致身份聚合

本文提出了一种使用 Identity-Consistent Aggregation (ICA) 层的 VID 模型 ClipVID，旨在改善 Video Object Detection 中的对象表示和处理对象外观变化。在 ImageNet VID 数据集上，我们的方法表现出 84.7% 的最佳性能，速度比之前的最佳性能快 7 倍 (39.3 fps)。

Aug, 2023

在线模型在视频实例分割中的防御

通过比较现有的在线模型和离线模型，提出了一种基于对比学习的在线框架，以学习更具区分性的实例嵌入并充分利用历史信息实现关联，显著提高了视频实例分割的性能，特别是在挑战性较大的 OVIS 数据集上表现突出，赢得了第四届大规模视频对象分割挑战赛 (CVPR2022) 视频实例分割赛道的第一名。

Jul, 2022

混合实例感知时间融合在在线视频实例分割中的应用

该论文提出了一种基于 transformer 的图像分割方法，利用一个新的实例感知的时间融合方法来处理视频序列中物体实例的时序关系，通过建立实例代码、CNN 特征图之间的混合注意力机制来实现跨帧的一致性建模，使得模型能够直接检测和跟踪视频序列中的物体实例。

Dec, 2021

视频实例分割的时空对比学习

本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架，利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性，在 YouTube-VIS-2019，YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。

Feb, 2022

视频实例分割

本论文提出了一个新的计算机视觉任务，名为视频实例分割，目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究，提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明，这个算法优于强基线，并为未来研究提供了启示。

May, 2019

TCOVIS：时序一致性在线视频实例分割

该研究提出了一种名为 TCOVIS 的在线视频实例分割方法，利用视频剪辑中的时空信息，通过全局实例分配策略和时空增强模块改善特征的时序一致性，并在多个基准测试中取得了最好的性能。

Sep, 2023

基于重识别的视频目标分割

本文提出了一种基于视频对象重识别的视频分割方法，通过使用自适应的目标重识别机制来避免传统方法中的漂移问题和无法处理大位移的弊端，该方法在 2017 年 DAVIS Challenge 中取得了最佳性能。

Aug, 2017

视频实例分割的通用框架

提出了基于查询式训练和具有前状态信息的内存模块用于序列学习的通用可变的视频实例分割（GenVIS）方法，并在多个基准测试中取得了优秀的结果。

Nov, 2022

快速在线视频实例分割的交叉学习

本文提出了一种快速的在线视频实例分割模型 CrossVIS，通过交叉学习方案，即使用当前帧中的实例特征来像素级定位其他帧中的相同实例，实现了跨帧实例到像素关系的学习，结合实例分割损失，提高了在线实例相关性的准确性和稳定性，在三个具有挑战性的 VIS 基准测试数据集上实现了最先进的性能。

Apr, 2021

VISAGE：基于外观引导增强的视频实例分割

近年来，利用强大的基于查询的检测器，在线视频实例分割（VIS）方法在帧级别利用检测器的输出查询，取得了极高的准确性。然而，我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题，我们提出了 VISAGE，通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询，并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后，通过解决对位置信息过度依赖的问题，在复杂场景中实现了准确匹配，我们在多个 VIS 基准测试上取得了有竞争力的性能。例如，在 YTVIS19 和 YTVIS21 上，我们的方法分别达到了 54.5AP 和 50.8AP。此外，为了凸显现有基准测试尚未完全解决的外观感知问题，我们生成了一个合成数据集，在利用外观提示的情况下，我们的方法明显优于其他方法。代码将在此 URL 提供。

Dec, 2023