统一开放词汇密集视觉预测

Jul, 2023

Unified Open-Vocabulary Dense Visual Prediction

Hengcan Shi, Munawar Hayat, Jianfei Cai

TL;DR本文提出了统一开放词汇网络（UOVN），用于联合解决四个常见的密集预测任务，通过与单独模型相比较，统一网络更适用于不同的工业应用，并能集成多样化的训练数据来提升个别任务的效果。本文解决了统一 OV 预测面临的两个主要挑战：多模态多尺度和多任务解码机制，以及不同任务和域之间存在的巨大差异。实验表明，UOVN 的有效性。

Abstract

In recent years, open-vocabulary (OV) dense visual prediction (such as OV object detection, semantic, instance and panoptic segmentations) has attracted increasing research attention. However, most of existing approaches are task-specific and individually tackle each task. In this pape

open-vocabulary dense visual prediction object detection semantic segmentation instance segmentation panoptic segmentation

发现论文，激发创造

UniM-OV3D：使用细粒度特征表示的单模态开放词汇三维场景理解

本文提出了一种统一的多模态三维开放词汇场景理解网络 (UniM-OV3D)，通过对齐点云、图像、语言和深度信息，设计了一个分层点云特征提取模块并使用了层次化三维标题对来提高粗到细点云语义表示学习，实验结果表明我们的方法在室内外基准测试中实现了开放式语义和实例分割的最先进性能。

Jan, 2024

开放词汇检测和分割综述：过去、现在和未来

计算机视觉中的目标检测和分割作为最基本的任务，在深度学习时代取得了巨大的进展。然而，由于昂贵的手动标注，现有数据集中的标注类别往往规模较小且预定义，即最先进的检测器和分割器无法推广到开放词汇之外。因此，近年来越来越多的关注集中在开放词汇检测（OVD）和分割（OVS）上。在本调研中，我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此，我们根据任务类型和方法学开发了一个分类法。我们发现，对于不同的方法学，包括：视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法，弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的，包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中，详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外，我们还对每个方法的关键组成部分进行了基准测试。最后，我们提供了一些有前途的方向，以激发未来的研究。

Jul, 2023

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前 OVOD 方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

通过场景图检索进行开放词汇目标检测

该研究提出了一种基于场景图的发现网络（SGDN），利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性，并且能够解决以往方法无法处理的 OV 场景图生成任务。

Jul, 2023

OVO: 开放词汇占用

本文提出了 Open Vocabulary Occupancy (OVO) 算法，通过知识蒸馏和像素 - 体素筛选两个关键步骤，可以对任意类别进行语义占据的预测，同时适用于大多数最先进的语义占据预测模型。在 NYUv2 和 SemanticKITTI 数据集上，OVO 与有监督的方法相比具有竞争性的性能。

May, 2023

开探多模态上下文知识的开放词汇物体检测

该研究论文探索了多模态背景知识在开放词汇目标检测中的作用，并提出了一种多模态背景知识蒸馏框架，通过从多模态融合转换器中学习上下文知识并应用于学生检测器，取得了显著的提升。

Aug, 2023

好的开放式字词探测器的要素：一个拆解的视角

开放词汇检测（OVD）是一种新的目标检测范式，旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种 OVD 方法，并通过实验验证了这些方法在不同设置下的性能。其中，DRR 方法在 OVD-COCO 基准测试中取得了最佳表现，并相对于先前最先进水平获得了 2.8 的 AP$_{50}$ 绝对增益。

Sep, 2023

自动驾驶的 3D 无监督学习：通过提炼 2D 开放词汇分割模型实现

提出了一种由 2D 开放词汇的分割模型辅助的新型三维无监督框架（UOV），通过学习未标注数据的点云表征，采用了两个阶段：首先，创新地结合了 2D 开放词汇模型的高质量文本和图像特征，提出了三模态对比预训练（TMP）；其次，利用点云和图像之间的空间映射生成伪标签，实现异态知识蒸馏。并引入了近似平面交互（AFI）来解决对齐噪声和标签混淆问题。在多个相关数据集上进行了大量实验证明了 UOV 的优越性，在 nuScenes 的无需标注的点云分割任务上，实现了创纪录的 47.73% 的 mIoU，超过了之前最好模型 10.70% 的 mIoU。同时，在 nuScenes 和 SemanticKITTI 上使用 1% 的数据进行微调，取得了显著的 51.75% 和 48.14% 的 mIoU，超过了所有之前的预训练模型。

May, 2024

开放词汇视频异常检测

这篇论文提出了一种能够利用预训练的大型模型来检测和分类已知和未知异常的开放词汇视频异常检测方法，并通过引入语义知识和合成异常来提高模型的性能。

Nov, 2023

从自然语言监督中学习开放词汇语义分割模型

本文提出一种基于 Transformer 的模型用于开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS），该模型通过使用网络爬虫图像 - 文本对进行预训练，并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。

Jan, 2023