基于提议-缩减范式的视频实例分割
VisTR是一种基于Transformers的视频实例分割框架,提出了一种新的实例序列匹配和分割策略实现对序列的监督,从相似性学习的角度框架实例分割和跟踪,大大简化了整个流程,并在YouTube-VIS数据集上取得了最佳结果和最高速度,这激励了未来更多的视频理解任务的研究。
Nov, 2020
本研究提出一种使用Transformers实现的视频实例语义分割的端到端解决方案,通过利用内存令牌的紧凑表示和交换信息的方式,提供实时视频处理可行的高精度解决方案。
Jun, 2021
EfficientVIS是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。
Mar, 2022
本文提出了一种名为Video Mask Transfiner(VMT)的方法,该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征,并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法,并通过HQ-YTVIS数据集对本文提出的方法进行了实验验证。实验结果表明,该方法可以有效地分割复杂和动态的物体,捕捉精细的细节。
Jul, 2022
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的MindVLT实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架(DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
Jun, 2023
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
Apr, 2024
UVIS是一种无监督视频实例分割框架,利用DINO模型的密集形状先验和CLIP模型的开放识别能力,通过帧级伪标签生成、基于Transformer的VIS模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下VIS预测的质量,在YoutubeVIS-2019等相应基准上取得了21.1 AP的结果,展示了该无监督VIS框架的潜力。
Jun, 2024