开放词汇检测和分割综述：过去、现在和未来

Jul, 2023

开放词汇检测和分割综述：过去、现在和未来

A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future

Chaoyang Zhu, Long Chen

TL;DR计算机视觉中的目标检测和分割作为最基本的任务，在深度学习时代取得了巨大的进展。然而，由于昂贵的手动标注，现有数据集中的标注类别往往规模较小且预定义，即最先进的检测器和分割器无法推广到开放词汇之外。因此，近年来越来越多的关注集中在开放词汇检测（OVD）和分割（OVS）上。在本调研中，我们提供了对过去和最新OVD和OVS发展的全面审查。为此，我们根据任务类型和方法学开发了一个分类法。我们发现，对于不同的方法学，包括：视觉-语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法，弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的，包括目标检测、语义/实例/全景分割、三维场景和视频理解。在每个类别中，详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外，我们还对每个方法的关键组成部分进行了基准测试。最后，我们提供了一些有前途的方向，以激发未来的研究。

Abstract

As the most fundamental tasks of computer vision, object detection and segmentation have made tremendous progress in the deep learning era. Due to the expensive manual labeling, the annotated categories in existi

发现论文，激发创造

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于CLIP模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在OVD方案中对象和图像中心表示的最小化差距。在COCO数据集上，我们的方法在新颖类别上取得了36.6的AP50表现，绝对值超过了以前的最佳性能。对于LVIS，我们在罕见类别上超越了最新的ViLD模型达5.0的掩膜AP，总体提高3.4。

Jul, 2022

无需口罩的OVIS：无需手动标注口罩的开放词汇实例分割

本研究提出了一种基于Open-Vocabulary（OV）和伪标注掩模的无掩模OVIS路线方法，以在弱监督学习条件下学习基本和新颖类别的实例分割模型，从而克服了现有实例分割模型中标注困难的问题并取得更好的性能结果。

Mar, 2023

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的VLM预测其对应的类别，其次通过提议后处理方法更好地适应预训练的VLMs，以避免扭曲和不自然的提议输入。

May, 2023

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前OVOD方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

走向开放词汇学习：综述

本文综述了开放式词汇学习的最新动态，强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较，并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现，开放式词汇学习方法在实践中更具广泛性、有效性和实用性，未来仍有许多探索余地。

Jun, 2023

如何评估检测的泛化能力？一种用于综合开放词汇检测的基准测试

计算机视觉中的目标检测在最近几年取得了显著进展，从基于闭集标签到基于大规模视觉语言预训练的开放词汇检测，然而，当前的评估方法和数据集仅限于测试对象类型和参考表达的泛化能力，这并不能提供一个系统、细粒度和准确的OVD模型能力的基准。本文提出了一个名为OVDEval的新基准，包括9个子任务，并在常识知识、属性理解、位置理解和对象关系理解等方面进行评估。数据集经过精心创建，提供了具有挑战性的负样本，以考验模型对视觉和语言输入的真正理解。此外，我们还发现了在这些细粒度标签数据集上对模型进行基准测试时，流行的平均精度（AP）指标存在问题，并提出了一种称为非极大值抑制平均精度（NMS-AP）的新指标来解决这个问题。广泛的实验结果表明，现有的顶级OVD模型在除了简单对象类型之外的新任务上都失败了，证明了所提出数据集在指出当前OVD模型的弱点并引导未来研究方面的价值。此外，所提出的NMS-AP指标通过实验证明，它提供了对OVD模型的更真实评估，而传统AP指标产生了误导性的结果。数据可在https://github.com/om-ai-lab/OVDEval上获取。

Aug, 2023

好的开放式字词探测器的要素: 一个拆解的视角

开放词汇检测（OVD）是一种新的目标检测范式，旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种OVD方法，并通过实验验证了这些方法在不同设置下的性能。其中，DRR方法在OVD-COCO基准测试中取得了最佳表现，并相对于先前最先进水平获得了2.8的AP$_{50}$绝对增益。

Sep, 2023

OV-PARTS: 迈向开放词汇的部分分割

我们提出了一个开放词汇的部分分割(OV-PARTS)基准测试，涵盖了对象级开放词汇语义分割、部分分割和少样本适应能力等三个任务，并分析和使用现有方法的两个流行范例为OV-PARTS提供基础模型。

Oct, 2023

开放词汇伪装物体分割

最近，大规模视觉语言模型（VLM）的出现，如CLIP，为开放世界的物体感知打开了道路。我们提出了一个新的任务，开放词汇伪装的物体分割（OVCOS），并构建了一个包含11,483个精选图像和细粒度注释的大规模复杂场景数据集（OVCamo）。通过集成类别语义知识的指导和依赖边缘和深度信息的视觉结构线索的补充，所提出的方法可以有效地捕捉伪装对象。此外，这个有效的框架在我们的OVCamo数据集上也超过了先前状态-of-the-art的开放词汇语义图像分割方法。借助提出的数据集和基线，我们希望这个具有更多实际价值的新任务能进一步扩展开放词汇密集预测任务的研究。

Nov, 2023

OpenSD: 统一的开放词汇分割和检测

我们提出了一个名为OpenSD的通用Transformer基础框架，利用相同的架构和网络参数来处理开放词汇分割和检测任务。OpenSD在封闭和开放词汇设置下，优于最先进的开放词汇分割和检测方法。

Dec, 2023