实例作为查询
本文研究实例分割中的基于查询的模型,并介绍了一种名为 FastInst 的简单且有效的查询框架,它可以在超过 40AP 的同时以实时速度执行(即 32.5 FPS)
Mar, 2023
本文提出了一种名为 QueryTrack 的统一查询 VIS 框架,该框架利用 QueryInst 中实例和查询之间固有的一对一对应关系,采用端到端模型、单尺度测试和适量的训练数据,在 YouTube-VIS-2019/2021 数据集上实现了 52.7/52.3 AP,并在 CVPR 2021 的 YouTube-VIS 挑战赛中获得第二名。
Jun, 2021
提出了一种基于 UniInst 的全新实例分割框架,该框架采用了 “只产生一个表征” 的实例感知一对一分配方案(OYOR),消除了传统方法中存在的冗余表征问题,并将预测重排策略与框架相结合,以使得学习到的表征更有辨别能力。结果,该框架在 COCO test-dev2017 数据集上取得了 39.0 mask AP 和 40.2 mask AP 的竞争优势,并在 OCHuman 跑步车上表现稳健。
May, 2022
基于查询的多任务学习框架在伪装实例分割中表现出色,通过构建一组掩蔽查询和一组边界查询,有效地整合全局掩蔽对象区域和边界提示,实现了伪装场景中的实例分割和边界检测。
Aug, 2023
本文提出了一种基于 Point-of-Interest 特征的实例分割方法,将面具表示学习任务分解为实例感知权重和实例不可知特征两个可处理的模块。在 RetinaNet 和 FCOS 基础上建立的 PointINS,在 COCO 数据集上实现了 38.3 的面具平均精度(mAP),并且比现有的基于点的方法具有更高的性能。
Mar, 2020
该论文提出了一种基于语义分割的实例分割系统,利用 CRF 预测具有对象类和实例标签的分割地图,从而提高难度较大的像素级别分割精度,使像素不能属于多个实例,并在 Pascal VOC 和 Cityscapes 数据集上取得最新颖的结果。
Apr, 2017
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了 VISAGE,通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询,并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后,通过解决对位置信息过度依赖的问题,在复杂场景中实现了准确匹配,我们在多个 VIS 基准测试上取得了有竞争力的性能。例如,在 YTVIS19 和 YTVIS21 上,我们的方法分别达到了 54.5AP 和 50.8AP。此外,为了凸显现有基准测试尚未完全解决的外观感知问题,我们生成了一个合成数据集,在利用外观提示的情况下,我们的方法明显优于其他方法。代码将在此 URL 提供。
Dec, 2023
我们收集了一个大规模的被遮挡的视频实例分割数据集,即检测,在遮挡场景中同时分割和跟踪实例,实验表明,现有的视频理解系统无法理解这些被遮挡的实例,我们还提出了一个简单的插件模块,用于补充遮挡引起的缺失对象线索,建立在 MaskTrack R-CNN 和 SipMask 上,在 OVIS 数据集上取得了显着的 AP 提升。
Feb, 2021
本文提出了一种实时实例分割的概念性新颖、高效并且完全卷积的框架。该框架采用了一种新的目标表示方法 —— 稀疏的实例激活图,通过聚合特征识别和分割前景对象,在一对一的模式下预测物体,避免后处理中的非极大值抑制。该方法在 COCO 基准测试中实现了 40 FPS 和 37.9 AP,速度和准确性均得到显著提高。
Mar, 2022
通过多个角度利用实例框注释生成高质量的伪实例掩码,并引入两种基于高质量伪实例掩码的真实数据过滤方法,以提高训练数据集质量并改善完全监督的 VIS 方法性能。通过整合掩码损失到 IDOL-BoxInst 中,我们的 PM-VIS 模型在实例掩码预测方面表现出较强能力,在 YouTube-VIS 2019、YouTube-VIS 2021 和 OVIS 验证集上取得了最新的最佳性能,显著缩小了基于框监督和完全监督的 VIS 方法之间的差距。
Apr, 2024