视频实例分割的通用框架
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
通过比较现有的在线模型和离线模型,提出了一种基于对比学习的在线框架,以学习更具区分性的实例嵌入并充分利用历史信息实现关联,显著提高了视频实例分割的性能,特别是在挑战性较大的 OVIS 数据集上表现突出,赢得了第四届大规模视频对象分割挑战赛 (CVPR2022) 视频实例分割赛道的第一名。
Jul, 2022
本文提出了一种基于网格结构特征表示的新型单阶段框架,并引入协作操作模块来聚合可用帧的信息以丰富所有 VIS 子任务的特征,从而在所有 VIS 任务中高效地充分利用先前信息,实现了实时处理,并在 YouTube-VIS 2019 和 21 数据集上获得了新的最高准确率(38.6 AP 和 36.9 AP)和速度(40.0 FPS),代码已公开。
Dec, 2021
近期的研究表明,针对具有挑战性和长视频序列而言,传统的离线方法不一定优于逐帧的在线处理。本研究提出了新的面向近在线视频实例分割(NOVIS)方法,并通过详细分析不同处理范式和新的端到端可训练模型,证明了该方法的优越性,并在 YouTube-VIS(2019/2021)和 OVIS 基准测试中取得了新的最先进的结果。
Aug, 2023
本文提出了一种快速的在线视频实例分割模型 CrossVIS,通过交叉学习方案,即使用当前帧中的实例特征来像素级定位其他帧中的相同实例,实现了跨帧实例到像素关系的学习,结合实例分割损失,提高了在线实例相关性的准确性和稳定性,在三个具有挑战性的 VIS 基准测试数据集上实现了最先进的性能。
Apr, 2021
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
本研究提出了一种名为 “Propose-Reduce” 的新范式,通过单个步骤为输入视频生成完整的序列,用于视频实例分割,并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。
Mar, 2021
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架 (DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
Jun, 2023
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了 VISAGE,通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询,并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后,通过解决对位置信息过度依赖的问题,在复杂场景中实现了准确匹配,我们在多个 VIS 基准测试上取得了有竞争力的性能。例如,在 YTVIS19 和 YTVIS21 上,我们的方法分别达到了 54.5AP 和 50.8AP。此外,为了凸显现有基准测试尚未完全解决的外观感知问题,我们生成了一个合成数据集,在利用外观提示的情况下,我们的方法明显优于其他方法。代码将在此 URL 提供。
Dec, 2023
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
Sep, 2023