本文提出了一个具有部分分割能力的检测器,可以通过多粒度对齐来预测开放词汇的物体和它们的部件分割,并通过密集语义对应将新物体解析为其部件。该方法在不同数据集上的实验表现优于基线方法,并且具有更好的数据通用性。
May, 2023
通过部分监督学习方法,我们设计了一种训练模型,在只有少数类别的实例标注数据下,通过可微分裁剪和只使用 Groundtruth box 的方法,取得了 COCO 部分监督分割测试集的最佳表现,并发现了强大的 mask-head 泛化效应。
Apr, 2021
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
我们提出了一个新的开放词汇检测框架 DECOLA,该框架使用语言条件下的物体检测器和伪标签来实现零样本性能。
Nov, 2023
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
该论文提出了一种针对开放词汇的语义分割方法,即通过预训练模型再特定训练样本上的微调和修正,来解决预训练模型在遮蔽图像上的效果问题,从而提高模型的泛化能力,并通过遮蔽抽取方法有效地提高了语义分割的效果。
Oct, 2022
本文提出了一种称为开放词汇物体检测的新型物体检测问题,利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器,可以在更低的成本下覆盖更广泛的物体范围,成功地解决了物体检测中监督要求高的问题,并且更具实用性和效率,可以检测和定位那些未在训练过程中提供边界框注释的物体,无监督和零样本方法都无法做到如此高的准确性。
Nov, 2020
本文提出了一种层次化的视觉 - 语言知识蒸馏方法 (HierKD) 用于开放词汇的单阶检测,该方法探索全局级别的知识蒸馏来传递来自预训练视觉语言模型的未知类别的知识到检测器,并将全局级别知识蒸馏和常见的实例级别知识蒸馏相结合,从而同时学习已知和未知类别的知识,实验结果表明,与最好的二级检测器相比,我们的方法在零样本检测和广义零样本检测设置下分别取得了 11.9%和 6.7%$AP_{50}$ 的增益,同时将 $AP_{50}$ 性能差距从 14%降低至 7.3%。
Mar, 2022
通过重复用大规模预训练模型进行检测和分割,本研究提出了一种在 2D 视频中追踪和分割任何类别对象的模型,并在多个评估数据集上取得了强大的性能表现。
Oct, 2023
我们提出了一个名为 OpenSD 的通用 Transformer 基础框架,利用相同的架构和网络参数来处理开放词汇分割和检测任务。OpenSD 在封闭和开放词汇设置下,优于最先进的开放词汇分割和检测方法。
Dec, 2023