RefineVIS: 带有时间注意力细化的视频实例分割
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。
Feb, 2022
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架 (DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
Jun, 2023
该论文提出了一种通过利用邻帧预测的空间信息并结合时间域中的帧间注意力机制来提高视频实体分割质量的方法,其在 YouTube-VIS 数据集上取得 36.0% 的 mAP,且该方法是完全在线的,不需要使用未来的视频帧。
Nov, 2021
通过比较现有的在线模型和离线模型,提出了一种基于对比学习的在线框架,以学习更具区分性的实例嵌入并充分利用历史信息实现关联,显著提高了视频实例分割的性能,特别是在挑战性较大的 OVIS 数据集上表现突出,赢得了第四届大规模视频对象分割挑战赛 (CVPR2022) 视频实例分割赛道的第一名。
Jul, 2022
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
Sep, 2023
该论文提出了 TarViS,这是一种新颖的、统一的网络架构,可以应用于任何需要在视频中分割一组任意定义的 “目标” 的任务,它采用了近期具备多任务能力的方法,并使用抽象的 “查询” 来预测像素精度的目标掩码,其中一个 TarViS 模型可以联合训练在不同任务跨越数据集的集合上,并可以在推理过程中在不进行任何任务特定的重新训练的情况下在不同任务之间进行热交换,最终实现了在 5/7 基准测试中实现了这四个任务的最新性能,并在其余两个上具有竞争力。
Jan, 2023
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在 YouTube-VIS 基准测试上达到了最先进的准确率。
Mar, 2022
该研究提出了一种新颖的无监督视频多目标分割方法,通过结合前景区域估计和实例分组来提高实例判别,引入判别性外观模型用于目标跟踪,实现更准确的物体发现,以及采用自适应内存更新等三种策略提高分割准确性和推理速度,并在 DAVIS17 和 YouTube-VIS 数据集上超越了现有技术的表现。
Apr, 2021