第5届LSVOS挑战赛冠军解决方案:视频实例分割
本研究提出了一种名为“Propose-Reduce”的新范式,通过单个步骤为输入视频生成完整的序列,用于视频实例分割,并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。
Mar, 2021
EfficientVIS是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。
Mar, 2022
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架(DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
Jun, 2023
目前,视频实例分割(VIS)旨在从训练类别的有限集中对视频中的对象进行分割和分类,但缺乏处理真实世界视频中多样对象的能力。本研究在长尾和开放世界场景下研究了VIS,通过训练模型在LVISv0.5和COCO数据集上,并在TAO数据集上训练实例外观相似性模块,实现了对稀有对象的检测和跟踪,在BURST测试集上取得了显著的性能。
Aug, 2023
我们提出了一种新颖的Decoupled VIdeo Segmentation (DVIS)框架,用于解决通用视频分割的难题,包括视频实例分割(VIS),视频语义分割(VSS)和视频全景分割(VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善DVIS的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为DVIS++的框架。此外,我们在多种设置下评估了DVIS++,包括开放词汇和使用冻结预训练骨干。通过将CLIP与DVIS++集成,我们提出了OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括VIS、VSS和VPS数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++在这些基准上明显优于最先进的专门方法。
Dec, 2023
现代视频分割方法采用对象查询来进行帧间关联,虽然在追踪连续出现的对象方面表现出令人满意的性能,但对新出现和消失的对象表现不佳。我们引入了动态锚点查询(DAQ)来通过基于潜在候选者的特征动态生成锚点查询,以缩短锚点和目标查询之间的过渡间隔。此外,我们引入了基于查询级别的对象出现和消失模拟(EDS)策略,以不增加任何额外成本的方式释放了DAQ的潜力。最后,我们将提出的DAQ和EDS与DVIS结合起来,获得了DVIS-DAQ,大量实验证明DVIS-DAQ在五个主流视频分割基准上实现了最新的最佳性能。代码和模型可在https://github.com/SkyworkAI/DAQ-VS找到。
Mar, 2024
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
Apr, 2024
本研究针对视频目标分割(VOS)中的对象遮挡、分裂及物体在拥挤场景中的追踪等挑战,提出了一种结合SAM2和Cutie模型的新方法。通过调试超参数,我们的方案在LSVOS挑战VOS赛道的测试阶段取得0.7952的J
Aug, 2024
本研究解决了视频物体分割(VOS)中的多个挑战,如物体遮挡、碎片化以及在拥挤场景中跟踪特定物体等问题。我们结合了最先进的SAM2和Cutie模型,探索了多种超参数对视频实例分割性能的影响,最终在LSVOS挑战VOS track的测试阶段获得0.7952的J
Aug, 2024