分层开放词汇通用图像分割

Jul, 2023

Hierarchical Open-vocabulary Universal Image Segmentation

Xudong Wang, Shufan Li, Konstantinos Kallidromitis, Yusuke Kato, Kazuki Kozuka...

TL;DR本文提出了一种层次化结构的图像分割方法，包括分层表示和分裂的文本图像融合机制，并成功应用于多种分割任务中，包括语义、实例和部分级别的图像理解。

Abstract

open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentatio

open-vocabulary image segmentation hierarchical representation learning semantic-level comprehension instance-level segmentation part-level segmentation

发现论文，激发创造

利用图像级标签扩展开放词汇图像分割规模

本文提出了 OpenSeg 模型，通过学习像素的可视化分组和视觉 - 语义对齐，利用可扩展的图像级监督生成分割掩码，从而实现对图像的开放词汇的分割与组织，相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。

Dec, 2021

FreeSeg: 统一、通用和开放词汇库的图像分割

本文提出了一种通用框架 FreeSeg，通过一次训练优化全一体网络，并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外，自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念，在多任务和各种场景中提高模型鲁棒性。大量实验结果表明，在三个分割任务上，FreeSeg 在性能和泛化方面建立了新的最先进结果，比最好的任务特定架构高出很大的幅度：在语义分割、实例分割和 COCO 上的全景分割中，未见类别的 PQ 分别达到 5.5％，17.6％和 20.1％。

Mar, 2023

USE: 通用分段嵌入用于开放词汇库图像分割

我们介绍了通用段落嵌入（USE）框架，该框架通过数据管道和通用段落嵌入模型，能够准确地将图像划分为各种文本定义的类别，并在开放词汇图像分割和其他下游任务中取得更好的性能。

Jun, 2024

图像字幕层次分析

该论文提出了一种基于分层结构的图像编码器，通过将图像分解为实例级别、区域级别和整体级别的层次结构，引入了分层解析（HIP）架构，大大提高了基于神经网络的图像描述性能，结合图卷积网络（GCN）可以进一步提高描述性能。

Sep, 2019

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024

GroupViT：语义分割从文本监督中崛起

本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT)，能够学习将图像区域分组成任意形状的语义段，且仅依赖于文本监督，无需像素级注释，实现了零阶段语义分割任务，并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。

Feb, 2022

OmniSeg3D: 基于层次对比学习的全方位 3D 分割

提出了一种全方位理解 3D 场景的通用 3D 分割方法 OmniSeg3D，通过层次对比学习框架将多视图不一致的 2D 分割提升为一致的 3D 特征场，实现了分层分割、多对象选择和全局离散化，并通过大量实验验证了该方法在高质量 3D 分割和准确定义了层次结构方面的有效性，进一步利用图形用户界面实现了灵活的全方位 3D 分割的交互操作。

Nov, 2023

多视图共分割和聚类变换器的无监督分层语义分割

本文提出了一种基于像素特征学习的数据驱动的无监督分层语义分割方法，使用同一图像的多视角协同分割来启动特征学习，加入粗细层次间的聚类变换器以确保组织层次间的语义一致性，该方法被称作 'Hierarchical Segment Grouping'，在五个主流目标和场景测评基准上表现良好。

Apr, 2022

OV-PARTS: 迈向开放词汇的部分分割

我们提出了一个开放词汇的部分分割 (OV-PARTS) 基准测试，涵盖了对象级开放词汇语义分割、部分分割和少样本适应能力等三个任务，并分析和使用现有方法的两个流行范例为 OV-PARTS 提供基础模型。

Oct, 2023