LVIS:用于大规模词汇实例分割的数据集
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
本文提出了一种基于等值损失的方法来解决 LVIS 数据集中大量罕见目标的问题,并利用检测数据集中类似目标的数据来缓解训练过程中丢失注释数据的影响,相对于基准模型 Mask R-CNN,我们的方法在 LVIS 基准测试集上取得了 5.1% 的整体 AP 提升和 11.4% 的罕见目标 AP 提升,最终在 LVIS Challenge 2019 中取得了第一名的成绩。
Nov, 2019
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023
该研究介绍了一种针对视频中不同程度遮挡物的识别方法,其中包括了一个大规模的数据集,这个数据集包括 296k 个高质量实例遮罩和 901 个遮挡场景。在这个数据集上,所有基线方法都遇到了重大的性能下降约 80%的问题,从而证明了系统仍然有很长的路要走才能真正理解受遮挡的对象和视频。
Nov, 2021
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
我们收集了一个大规模的被遮挡的视频实例分割数据集,即检测,在遮挡场景中同时分割和跟踪实例,实验表明,现有的视频理解系统无法理解这些被遮挡的实例,我们还提出了一个简单的插件模块,用于补充遮挡引起的缺失对象线索,建立在 MaskTrack R-CNN 和 SipMask 上,在 OVIS 数据集上取得了显着的 AP 提升。
Feb, 2021
视频对象分割(VOS)旨在在视频中区分和跟踪目标对象。我们提出了一个名为 LVOS 的新基准,比现有的数据集包含长 5 倍的视频,以更好地反映 VOS 模型在实际场景中的性能。在 LVOS 中,我们评估了 20 个现有的 VOS 模型,并发现这些模型在真实场景中遇到了较大的性能下降,突出了在实际世界场景中实现精确跟踪和分割的挑战。
Apr, 2024
该论文提出了一个新的学习框架,结合 LVIS 和 TAO 数据集,解决了监督不足的问题,从而实现在视频识别中的检测和追踪,进而在 TAO 基准之上,提升了大型目标追踪器的表现。
Dec, 2022
本研究探究基于 LVIS 数据集的极长尾数据对两阶段实例分割模型性能下降的现象,并发现物体提议分类的不准确是主要原因。通过将分类头部进行预测校准并不需要额外的费用和修改检测模型架构,可以大幅提高基线模型的识别性能。
Oct, 2019
该研究提出了一个新的大规模无监督语义分割的问题(LUSS),并创建了一个基准数据集来帮助研究。该基准数据集名为 ImageNet-S,包含 120 万个训练图像和 50K 高质量的语义分割注释进行评估。此外,研究人员还提出了一种简单而有效的方法,可用于大规模无监督语义分割,并且公布了代码和基准数据集。
Jun, 2021