DVIS: 解耦的视频实例分割框架
本研究提出了一种名为“Propose-Reduce”的新范式,通过单个步骤为输入视频生成完整的序列,用于视频实例分割,并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。
Mar, 2021
EfficientVIS是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。
Mar, 2022
本文提出了一种名为Video Mask Transfiner(VMT)的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过HQ-YTVIS数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。
Jul, 2022
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视/视频实例分割的新方法——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。
Mar, 2023
介绍了一种名为GRAtt-VIS的基于GRAtt块和控制门激活的Gumbel-Softmax的视频实例分割方法,该方法可以通过缓解在线方法的表征退化和噪声积累的影响来提高视频实例分割的精度。
May, 2023
目前,视频实例分割(VIS)旨在从训练类别的有限集中对视频中的对象进行分割和分类,但缺乏处理真实世界视频中多样对象的能力。本研究在长尾和开放世界场景下研究了VIS,通过训练模型在LVISv0.5和COCO数据集上,并在TAO数据集上训练实例外观相似性模块,实现了对稀有对象的检测和跟踪,在BURST测试集上取得了显著的性能。
Aug, 2023
视频实例分割方法DVIS在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪,并利用DINO v2预训练的冻结的VIT-L模型探索了视觉基础模型在视频实例分割中的作用,最终在第5届LSVOS挑战赛中获得了第一名,其在开发和测试阶段分别达到了57.9 AP和56.0 AP。
Aug, 2023
我们提出了一种新颖的Decoupled VIdeo Segmentation (DVIS)框架,用于解决通用视频分割的难题,包括视频实例分割(VIS),视频语义分割(VSS)和视频全景分割(VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善DVIS的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为DVIS++的框架。此外,我们在多种设置下评估了DVIS++,包括开放词汇和使用冻结预训练骨干。通过将CLIP与DVIS++集成,我们提出了OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括VIS、VSS和VPS数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++在这些基准上明显优于最先进的专门方法。
Dec, 2023