高性能视频实例分割无需视频注释
通过多个角度利用实例框注释生成高质量的伪实例掩码,并引入两种基于高质量伪实例掩码的真实数据过滤方法,以提高训练数据集质量并改善完全监督的 VIS 方法性能。通过整合掩码损失到 IDOL-BoxInst 中,我们的 PM-VIS 模型在实例掩码预测方面表现出较强能力,在 YouTube-VIS 2019、YouTube-VIS 2021 和 OVIS 验证集上取得了最新的最佳性能,显著缩小了基于框监督和完全监督的 VIS 方法之间的差距。
Apr, 2024
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
Apr, 2024
本论文提出了一个新的计算机视觉任务,名为视频实例分割,目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究,提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明,这个算法优于强基线,并为未来研究提供了启示。
May, 2019
本文介绍了一种利用标记图像数据和未标记视频序列学习实例跟踪网络的半监督框架,采用实例对比目标,利用学习的嵌入区分每个实例并在不同帧之间稳定地跟踪对象,并且将此模块集成到单阶段实例分割和姿态估计框架中,较之两阶段网络显著降低了跟踪的计算复杂度。无需任何视频标注努力,我们的方法可达到与大多数完全监督方法相当甚至更好的性能。
Apr, 2021
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视 / 视频实例分割的新方法 ——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。
Mar, 2023
我们收集了一个大规模的被遮挡的视频实例分割数据集,即检测,在遮挡场景中同时分割和跟踪实例,实验表明,现有的视频理解系统无法理解这些被遮挡的实例,我们还提出了一个简单的插件模块,用于补充遮挡引起的缺失对象线索,建立在 MaskTrack R-CNN 和 SipMask 上,在 OVIS 数据集上取得了显着的 AP 提升。
Feb, 2021
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了 VISAGE,通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询,并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后,通过解决对位置信息过度依赖的问题,在复杂场景中实现了准确匹配,我们在多个 VIS 基准测试上取得了有竞争力的性能。例如,在 YTVIS19 和 YTVIS21 上,我们的方法分别达到了 54.5AP 和 50.8AP。此外,为了凸显现有基准测试尚未完全解决的外观感知问题,我们生成了一个合成数据集,在利用外观提示的情况下,我们的方法明显优于其他方法。代码将在此 URL 提供。
Dec, 2023