基于基础模型的图像匹配：开放词汇语义分割的新视角

CVPRMar, 2024

基于基础模型的图像匹配：开放词汇语义分割的新视角

Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation

Yuan Wang, Rui Sun, Naisong Luo, Yuwen Pan, Tianzhu Zhang

TL;DR基于视觉基于模型，提出了一种关系感知的单模态匹配 (OVS) 框架，用于解决像素分组和区域识别方法中图像特征与类别标签之间的误匹配问题，并在三个基准测试中展现出大幅度优势。

Abstract

open-vocabulary semantic segmentation (OVS) aims to segment images of arbitrary categories specified by class labels or captions. However, most previous best-performing methods, whether pixel grouping methods or region recognition methods, suffer from →

open-vocabulary semantic segmentation false matches relation-aware intra-modal matching image-to-image matching visual foundation models

发现论文，激发创造

从自然语言监督中学习开放词汇语义分割模型

本文提出一种基于 Transformer 的模型用于开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS），该模型通过使用网络爬虫图像 - 文本对进行预训练，并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。

Jan, 2023

OVMR: 多模式参考下的开放词汇识别

本文通过引用由文本描述和示例图像组成的多模式线索，以不同的角度解决开放词汇识别问题，并提出了一种名为 OVMR 的方法，该方法采用两个创新组件来追求更强的类别线索嵌入。

Jun, 2024

无需口罩的 OVIS：无需手动标注口罩的开放词汇实例分割

本研究提出了一种基于 Open-Vocabulary（OV）和伪标注掩模的无掩模 OVIS 路线方法，以在弱监督学习条件下学习基本和新颖类别的实例分割模型，从而克服了现有实例分割模型中标注困难的问题并取得更好的性能结果。

Mar, 2023

视觉语言模型中无需标签的开放词汇语义分割的即插即用稠密提取

通过大规模视觉 - 语言模型，我们提出了一种简单但非常有效的无需训练的技术，Plug-and-Play 开放词汇语义分割（PnP-OVSS），并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。

Nov, 2023

开放词汇检测和分割综述：过去、现在和未来

计算机视觉中的目标检测和分割作为最基本的任务，在深度学习时代取得了巨大的进展。然而，由于昂贵的手动标注，现有数据集中的标注类别往往规模较小且预定义，即最先进的检测器和分割器无法推广到开放词汇之外。因此，近年来越来越多的关注集中在开放词汇检测（OVD）和分割（OVS）上。在本调研中，我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此，我们根据任务类型和方法学开发了一个分类法。我们发现，对于不同的方法学，包括：视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法，弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的，包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中，详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外，我们还对每个方法的关键组成部分进行了基准测试。最后，我们提供了一些有前途的方向，以激发未来的研究。

Jul, 2023

图像 - 文本匹配的视觉语义推理

我们提出了一种简单而易于解释的推理模型，用于生成全局场景的主要对象和语义概念的可视化表示，该模型使用图卷积网络进行关联和推理，再使用门和记忆机制进行全局语义推理，选取判别信息并逐渐生成整个场景的表示；实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8％和 4.8％的图像检索和字幕检索的新的最佳效果，Flickr30K 数据集上分别提高了 12.6％和 5.8％的图像检索和字幕检索。

Sep, 2019

稳健的跨模态伪标记开放词汇实例分割

本文提出一种跨模态伪标签（cross-modal pseudo-labeling）框架，用于面向开放词汇的实例分割，通过与对象掩膜的视觉特征对齐，实现对字词语义中的新类别进行标记，从而自我训练出一个学生模型，缓解了伪掩膜中存在的噪声干扰所带来的不良影响，相比现有工作，在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。

Nov, 2021

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023

视频对象分割的像素级双射匹配

该研究提出了一种双射匹配机制，可用于解决像素级特征匹配中可能出现的关键问题，同时还提出了一种面向历史掩模的嵌入模块，以提高现有掩模传播方法的效果。

Oct, 2021

开放词汇分割的可转移和原则性效率

通过利用较小、训练成本更低的模型，本论文的核心策略旨在实现与基于大型视觉语言基础模型的先前开放词汇分割工作相媲美甚至更好的性能，以解决开放词汇分割（OVS）方法面临的高计算开销问题，并在各种 OVS 基准测试中展示了我们在分割准确性和计算成本之间卓越的平衡。

Apr, 2024