CVPR2023 BURST长尾和开放世界挑战的第一名解决方案

Aug, 2023

CVPR2023 BURST长尾和开放世界挑战的第一名解决方案

1st Place Solution for CVPR2023 BURST Long Tail and Open World Challenges

Kaer Huang

TL;DR目前，视频实例分割（VIS）旨在从训练类别的有限集中对视频中的对象进行分割和分类，但缺乏处理真实世界视频中多样对象的能力。本研究在长尾和开放世界场景下研究了VIS，通过训练模型在LVISv0.5和COCO数据集上，并在TAO数据集上训练实例外观相似性模块，实现了对稀有对象的检测和跟踪，在BURST测试集上取得了显著的性能。

Abstract

Currently, video instance segmentation (VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories that contain only a few dozen of categories, lacking the ability to handle diverse objects in real-world videos. As TAO and BURST datasets release

发现论文，激发创造

分类中的魔鬼：一种针对长尾物体检测和实例分割的简单框架

本文旨在研究并解决现有的目标检测和分割模型在长尾数据集上的失效问题，通过对现有的两阶段实例分割模型Mask R-CNN在最近的长尾LVIS数据集上的表现进行系统调研后，我们发现不准确的对象提案分类是其表现下降的主要原因，然后我们提出了一种用于改进长尾分类性能的简单校准框架，它可以更有效地减轻分类头偏差，并结合二级类平衡采样方法。在我们的实验中表现良好，提高了最近LVIS数据集和我们采样的COCO-LT数据集的尾部类别实例分割的准确性。

Jul, 2020

基于提议-缩减范式的视频实例分割

本研究提出了一种名为“Propose-Reduce”的新范式，通过单个步骤为输入视频生成完整的序列，用于视频实例分割，并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。

Mar, 2021

通过轨迹查询和建议实现高效的视频实例分割

EfficientVIS是一种全新的视频实例分割框架，实现了完全的端到端学习，采用了轨迹查询和轨迹建议技术，通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs，采用了对应关系学习，不需要手工数据关联即可一次性实现整个视频实例分割，训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。

Mar, 2022

开放世界中的视频实例分割

提出了第一个开放式视频实例分割(Open-World Video Instance Segmentation, OW-VIS)方法——OW-VISFormer，它引入了一个新的特征增强机制和一个时空客体性(Spatio-Temporal Objectness, STO)模块，并评估了其在开放式实验室下的特性。

Apr, 2023

开放式视频实例分割

本文提出了开放词汇视频实例分割这一新颖任务，在收集的大词汇量视频实例分割数据集上基于集成的MindVLT实现了该任务。实验结果表明，该方法能够有效地处理实际中从未见过的新类别，并且提供了数据集和代码以促进未来的研究。

Apr, 2023

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的VLM预测其对应的类别，其次通过提议后处理方法更好地适应预训练的VLMs，以避免扭曲和不自然的提议输入。

May, 2023

第5届LSVOS挑战赛冠军解决方案：视频实例分割

视频实例分割方法DVIS在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪，并利用DINO v2预训练的冻结的VIT-L模型探索了视觉基础模型在视频实例分割中的作用，最终在第5届LSVOS挑战赛中获得了第一名，其在开发和测试阶段分别达到了57.9 AP和56.0 AP。

Aug, 2023

视频实例分割中的点监督价值是多少？

通过减少视频帧中的人工注释点为每个对象，我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测，在三个视频示例分割基准上展示了该框架的竞争性性能。

Apr, 2024

OW-VISCap：开放世界视频实例分割与字幕

开放世界视频实例分割和字幕生成 (OW-VISCap) 是一种联合分割、跟踪和描述以前见过或未见过的视频中的物体的方法。

Apr, 2024

统一嵌入对齐开放式词汇视频实例分割

Open-Vocabulary Video Instance Segmentation (VIS) is addressed by proposing OVFormer, a novel baseline that tackles domain gap and underutilization of temporal consistency, achieving state-of-the-art performance in LV-VIS and demonstrating strong zero-shot generalization ability.

Jul, 2024