LVIS:用于大规模词汇实例分割的数据集
本文提出了一种基于等值损失的方法来解决LVIS数据集中大量罕见目标的问题,并利用检测数据集中类似目标的数据来缓解训练过程中丢失注释数据的影响,相对于基准模型Mask R-CNN,我们的方法在LVIS基准测试集上取得了5.1%的整体AP提升和11.4%的罕见目标AP提升,最终在LVIS Challenge 2019中取得了第一名的成绩。
Nov, 2019
本文旨在研究并解决现有的目标检测和分割模型在长尾数据集上的失效问题,通过对现有的两阶段实例分割模型Mask R-CNN在最近的长尾LVIS数据集上的表现进行系统调研后,我们发现不准确的对象提案分类是其表现下降的主要原因,然后我们提出了一种用于改进长尾分类性能的简单校准框架,它可以更有效地减轻分类头偏差,并结合二级类平衡采样方法。 在我们的实验中表现良好,提高了最近LVIS数据集和我们采样的COCO-LT数据集的尾部类别实例分割的准确性。
Jul, 2020
该论文提出了一种可通过学习实例嵌入提供无监督发现实例分割中长尾类别的方法,利用图像中对象之间的丰富关系和层次结构提出了自监督损失方法训练掩码嵌入,经COCO数据集训练,该模型能够发现比COCO中的常见类别更精细和新奇的对象,并在LVIS评估中取得了与监督和部分监督方法相竞争的结果。
Apr, 2021
该研究介绍了一种针对视频中不同程度遮挡物的识别方法,其中包括了一个大规模的数据集,这个数据集包括296k个高质量实例遮罩和901个遮挡场景。在这个数据集上,所有基线方法都遇到了重大的性能下降约80%的问题,从而证明了系统仍然有很长的路要走才能真正理解受遮挡的对象和视频。
Nov, 2021
该论文提出了一个新的学习框架,结合LVIS和TAO数据集,解决了监督不足的问题,从而实现在视频识别中的检测和追踪,进而在TAO基准之上,提升了大型目标追踪器的表现。
Dec, 2022
本研究提出了一种基于Open-Vocabulary(OV)和伪标注掩模的无掩模OVIS路线方法,以在弱监督学习条件下学习基本和新颖类别的实例分割模型,从而克服了现有实例分割模型中标注困难的问题并取得更好的性能结果。
Mar, 2023
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的MindVLT实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
本研究提出和研究了一项新的计算机视觉任务,名为OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的VLM预测其对应的类别,其次通过提议后处理方法更好地适应预训练的VLMs,以避免扭曲和不自然的提议输入。
May, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新OVD和OVS发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉-语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义/实例/全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023