基于文本到图像扩散模型的开放词汇 3D 语义分割

Jul, 2024

基于文本到图像扩散模型的开放词汇 3D 语义分割

Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

Xiaoyu Zhu, Hao Zhou, Pengfei Xing, Long Zhao, Hao Xu...

TL;DR本文提出了一种名为Diff2Scene的新颖方法，利用大规模图像-文字对预训练的扩散模型以及敏感感知和几何感知的掩模，实现了开放词汇的3D语义分割和视觉定位任务，从而有效消除了任何标记的3D数据并能够准确地识别出3D场景中的物体、外观、材料、位置及其组成部分，并相较于现有方法在ScanNet200上取得了12%的显著提升。

Abstract

In this paper, we investigate the use of diffusion models which are pre-trained on large-scale image-caption pairs for open-vocabulary 3d semantic understanding. We propose a novel method, namely →

发现论文，激发创造

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

跨越领域鸿沟：基于基础模型的自监督三维场景理解

该论文介绍了一种名为 Bridge3D 的创新方法，通过预训练使用基础模型的特征、语义掩码和说明来预训练3D模型，从而增强3D场景表示学习，包括使用基础模型的语义掩码来指导掩码和重建过程。此外，作者还介绍了一种新方法，使用基础模型生成高精度的物体级掩码和语义文本信息，进一步促进基础2D和文本表示向3D模型的知识转移。该方法在3D对象检测和语义分割任务中优于现有的最先进方法，在ScanNet数据集上的最佳结果超过之前的最优方法PiMAE 5.3%。

May, 2023

基于基础模型的3D开放词汇分割

本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数，本研究在无需进行微调的情况下，以开放式视觉和文本知识为先验知识，从2D特征中提取出3D分割特征。通过实验验证，本研究所提出的方法在无需分割注释的情况下，甚至优于完全监督的分割模型训练，表明三维开放式词汇分割可以有效地从2D图像和文本图像对中学到。

May, 2023

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法, 通过考虑采样的图像的背景来更好地定位对象并直接分割背景, 并证明该方法可以在多个基准测试中表现出色, 在 Pascal VOC 基准测试上领先了超过10%。

Jun, 2023

OpenMask3D: 开放式词汇的三维实例分割

本研究介绍了一种开放词汇的3D实例分割任务，使用零样本学习来提高模型在目标实例分割方面的泛化性，并设计了OpenMask3D方法，该方法使用预测的类别不可知的3D实例掩码来聚合每个掩码的特征，通过多视图融合和基于CLIP的图像嵌入来提高分割的性能。

Jun, 2023

DifFSS: 少样本语义分割扩散模型

DifFSS is a novel few-shot semantic segmentation paradigm which leverages the powerful generation ability of diffusion models to generate diverse auxiliary support images for FSS models by using semantic masks, scribbles or soft HED boundaries without modifying their network structure, leading to a consistent improvement in segmentation performance.

Jul, 2023

扩散模型是一个无需训练的开放词汇语义切分工具

最近的研究探讨了利用预训练的文本-图像判别模型（如CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为DiffSegmenter的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪U-Net产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。

Sep, 2023

MaskDiffusion: 利用预训练扩散模型进行语义分割

使用预训练的冻结稳定扩散的MaskDiffusion方法实现了开放词汇的语义分割，在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。

Mar, 2024

FreeSeg-Diff：基于扩散模型的无需训练的开放词汇分割

该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法，通过结合不同的小型基础模型，利用扩散模型生成的特征，以及基于CLIP模型进行开放性词汇处理，实现了在Pascal VOC和COCO数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。

Mar, 2024

通过扩散特征弥合语义分割的领域差距

利用预训练扩散模型的内在知识，通过采样和融合技术，提出了一种新的扩散特征融合方法（DIFF）来提取和集成有效的语义表示，该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。

Jun, 2024