基于实例的身份:视频实例分割的通用在线范式
本文提出了一种使用 Identity-Consistent Aggregation (ICA) 层的 VID 模型 ClipVID,旨在改善 Video Object Detection 中的对象表示和处理对象外观变化。在 ImageNet VID 数据集上,我们的方法表现出 84.7% 的最佳性能,速度比之前的最佳性能快 7 倍 (39.3 fps)。
Aug, 2023
通过比较现有的在线模型和离线模型,提出了一种基于对比学习的在线框架,以学习更具区分性的实例嵌入并充分利用历史信息实现关联,显著提高了视频实例分割的性能,特别是在挑战性较大的 OVIS 数据集上表现突出,赢得了第四届大规模视频对象分割挑战赛 (CVPR2022) 视频实例分割赛道的第一名。
Jul, 2022
该论文提出了一种基于 transformer 的图像分割方法,利用一个新的实例感知的时间融合方法来处理视频序列中物体实例的时序关系,通过建立实例代码、CNN 特征图之间的混合注意力机制来实现跨帧的一致性建模,使得模型能够直接检测和跟踪视频序列中的物体实例。
Dec, 2021
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。
Feb, 2022
本论文提出了一个新的计算机视觉任务,名为视频实例分割,目标是同时检测、分割和跟踪视频帧中的实例。为了便于研究,提出了一个大规模基准数据集 YouTube-VIS 和一个新算法 MaskTrack R-CNN。实验表明,这个算法优于强基线,并为未来研究提供了启示。
May, 2019
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
Sep, 2023
本文提出了一种基于视频对象重识别的视频分割方法,通过使用自适应的目标重识别机制来避免传统方法中的漂移问题和无法处理大位移的弊端,该方法在 2017 年 DAVIS Challenge 中取得了最佳性能。
Aug, 2017
本文提出了一种快速的在线视频实例分割模型 CrossVIS,通过交叉学习方案,即使用当前帧中的实例特征来像素级定位其他帧中的相同实例,实现了跨帧实例到像素关系的学习,结合实例分割损失,提高了在线实例相关性的准确性和稳定性,在三个具有挑战性的 VIS 基准测试数据集上实现了最先进的性能。
Apr, 2021
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了 VISAGE,通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询,并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后,通过解决对位置信息过度依赖的问题,在复杂场景中实现了准确匹配,我们在多个 VIS 基准测试上取得了有竞争力的性能。例如,在 YTVIS19 和 YTVIS21 上,我们的方法分别达到了 54.5AP 和 50.8AP。此外,为了凸显现有基准测试尚未完全解决的外观感知问题,我们生成了一个合成数据集,在利用外观提示的情况下,我们的方法明显优于其他方法。代码将在此 URL 提供。
Dec, 2023