CVPR2023 BURST长尾和开放世界挑战的第一名解决方案
本文旨在研究并解决现有的目标检测和分割模型在长尾数据集上的失效问题,通过对现有的两阶段实例分割模型Mask R-CNN在最近的长尾LVIS数据集上的表现进行系统调研后,我们发现不准确的对象提案分类是其表现下降的主要原因,然后我们提出了一种用于改进长尾分类性能的简单校准框架,它可以更有效地减轻分类头偏差,并结合二级类平衡采样方法。 在我们的实验中表现良好,提高了最近LVIS数据集和我们采样的COCO-LT数据集的尾部类别实例分割的准确性。
Jul, 2020
本研究提出了一种名为“Propose-Reduce”的新范式,通过单个步骤为输入视频生成完整的序列,用于视频实例分割,并在现有的图像级别实例分割网络上构建了一个序列传播头以实现长期传播。本方法在两个代表性基准数据集上取得了最先进的性能。
Mar, 2021
EfficientVIS是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询-视频交互方法在空间和时间上关联和分割RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在YouTube-VIS基准测试上达到了最先进的准确率。
Mar, 2022
提出了第一个开放式视频实例分割(Open-World Video Instance Segmentation, OW-VIS)方法——OW-VISFormer,它引入了一个新的特征增强机制和一个时空客体性(Spatio-Temporal Objectness, STO)模块,并评估了其在开放式实验室下的特性。
Apr, 2023
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的MindVLT实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
本研究提出和研究了一项新的计算机视觉任务,名为OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的VLM预测其对应的类别,其次通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。
May, 2023
视频实例分割方法DVIS在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪,并利用DINO v2预训练的冻结的VIT-L模型探索了视觉基础模型在视频实例分割中的作用,最终在第5届LSVOS挑战赛中获得了第一名,其在开发和测试阶段分别达到了57.9 AP和56.0 AP。
Aug, 2023
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
Apr, 2024
Open-Vocabulary Video Instance Segmentation (VIS) is addressed by proposing OVFormer, a novel baseline that tackles domain gap and underutilization of temporal consistency, achieving state-of-the-art performance in LV-VIS and demonstrating strong zero-shot generalization ability.
Jul, 2024