基于提议-缩减范式的视频实例分割

Mar, 2021

基于提议-缩减范式的视频实例分割

Video Instance Segmentation with a Propose-Reduce Paradigm

Huaijia Lin, Ruizheng Wu, Shu Liu, Jiangbo Lu, Jiaya Jia

TL;DR本研究提出了一种名为“Propose-Reduce”的新范式，通过单个步骤为输入视频生成完整的序列，用于视频实例分割，并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。

Abstract

video instance segmentation (VIS) aims to segment and associate all instances of predefined classes for each frame in videos. Prior methods usually obtain segmentation for a frame or clip first, and then merge the incomplete results by tracking or matching. These methods may cause erro

发现论文，激发创造

基于Transformer的端到端视频实例分割

VisTR是一种基于Transformers的视频实例分割框架，提出了一种新的实例序列匹配和分割策略实现对序列的监督，从相似性学习的角度框架实例分割和跟踪，大大简化了整个流程，并在YouTube-VIS数据集上取得了最佳结果和最高速度，这激励了未来更多的视频理解任务的研究。

Nov, 2020

使用帧间通信变换器进行视频实例分割

本研究提出一种使用Transformers实现的视频实例语义分割的端到端解决方案，通过利用内存令牌的紧凑表示和交换信息的方式，提供实时视频处理可行的高精度解决方案。

Jun, 2021

通过轨迹查询和建议实现高效的视频实例分割

EfficientVIS是一种全新的视频实例分割框架，实现了完全的端到端学习，采用了轨迹查询和轨迹建议技术，通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs，采用了对应关系学习，不需要手工数据关联即可一次性实现整个视频实例分割，训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。

Mar, 2022

视频蒙版变换器：用于高质量视频实例分割

本文提出了一种名为Video Mask Transfiner(VMT)的方法，该方法可以利用高效的视频转换器结构来提取细粒度的高分辨率特征，并运用局部和实例级线索来优化视频中每个轨迹的稀疏易出错的时空区域。文中还介绍了一个自动注释细化方法，并通过HQ-YTVIS数据集对本文提出的方法进行了实验验证。实验结果表明，该方法可以有效地分割复杂和动态的物体，捕捉精细的细节。

Jul, 2022

MinVIS: 一种不需要基于视频训练的最小化视频实例分割框架

提出了一种最小化的视频实例分割框架 MinVIS，通过训练基于查询的图像实例分割模型来处理视频帧，通过相关性匹配跟踪分割实例，最大限度地减少对标注帧的需求，并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能，达到了最先进的结果。

Aug, 2022

视频实例分割的通用框架

提出了基于查询式训练和具有前状态信息的内存模块用于序列学习的通用可变的视频实例分割（GenVIS）方法，并在多个基准测试中取得了优秀的结果。

Nov, 2022

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的MindVLT实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

DVIS: 解耦的视频实例分割框架

提出一种分离策略，并应用于视频实例分割任务，包括分割、跟踪和细化，使用引用跟踪器和时间细化器构建 Decoupled VIS 框架(DVIS)，并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。

Jun, 2023

视频实例分割中的点监督价值是多少？

通过减少视频帧中的人工注释点为每个对象，我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测，在三个视频示例分割基准上展示了该框架的竞争性性能。

Apr, 2024

UVIS: 无监督视频实例分割

UVIS是一种无监督视频实例分割框架，利用DINO模型的密集形状先验和CLIP模型的开放识别能力，通过帧级伪标签生成、基于Transformer的VIS模型训练和基于查询的跟踪等三个关键步骤实现，通过采用双存储器设计，包括语义存储器和跟踪存储器，以提高无监督环境下VIS预测的质量，在YoutubeVIS-2019等相应基准上取得了21.1 AP的结果，展示了该无监督VIS框架的潜力。

Jun, 2024