遮挡视频实例分割:基准
本研究提出了一种采用深度神经网络进行多对象实例分割的方法,该方法能够通过bounding box监督训练,具有鲁棒性并能处理复杂场景中的遮挡问题,从而提高图像分类精度。
Dec, 2020
该研究提出了使用双重卷积神经网络(Bilayer Convolutional Network)对高度重叠的物体进行实例分割,特别是在存在遮挡情况时能够提高性能,并通过实验证明了其简洁性及有效性。
Mar, 2021
该研究介绍了一种针对视频中不同程度遮挡物的识别方法,其中包括了一个大规模的数据集,这个数据集包括296k个高质量实例遮罩和901个遮挡场景。在这个数据集上,所有基线方法都遇到了重大的性能下降约80%的问题,从而证明了系统仍然有很长的路要走才能真正理解受遮挡的对象和视频。
Nov, 2021
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
通过Bilayer卷积网络和视觉Transformer对遮挡的目标进行建模,以同时检测遮挡物和部分遮挡实例,并使用遮挡物和遮挡实例查询将遮挡关系分离,从而实现图像实例分割。
Aug, 2022
本文提出了一种采用类似 KNN 特征匹配的方式,而无需耗时昂贵的视频掩模注释即可实现视/视频实例分割的新方法——MaskFreeVIS,并通过在 YouTube-VIS 2019/2021、OVIS 和 BDD100K MOTS 基准测试中的表现验证了该方法的有效性。
Mar, 2023
本研究提出了一种基于Open-Vocabulary(OV)和伪标注掩模的无掩模OVIS路线方法,以在弱监督学习条件下学习基本和新颖类别的实例分割模型,从而克服了现有实例分割模型中标注困难的问题并取得更好的性能结果。
Mar, 2023
本研究提出和研究了一项新的计算机视觉任务,名为OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的VLM预测其对应的类别,其次通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。
May, 2023
该论文介绍了上下文感知视频实例分割(CAVIS)的新框架,通过整合与每个对象相邻的上下文信息来增强实例关联性,提出上下文感知实例追踪器(CAIT)有效地提取和利用这些信息,并将周围的上下文数据与核心实例特征进行合并以提高追踪精度。此外,引入了原型跨帧对比(PCC)损失函数,确保帧间物体级特征的一致性,从而显著提高实例匹配的准确性。CAVIS在视频实例分割(VIS)和视频全景分割(VPS)的所有基准数据集上展示出优越性能,特别是在尤为具有挑战性的OVIS数据集上表现出色。
Jul, 2024