形状感知的零样本语义分割研究
本文提出了一个新的任务:零样本语义分割,要求学习像素级分类器从未见过的物体类别中进行分类。ZS3Net 是本文提出的一种新架构,它将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合,以实现在测试时间处理已见和未见类别的像素分类任务。本文还通过自我训练进一步提高了性能,并在 Pascal-VOC 和 Pascal-Context 两个标准分割数据集上提出了零样本基准并设立竞争基线。此外,对于像 Pascal-Context 数据集中的复杂场景,我们通过使用图形上下文编码来完全利用来自类别分割地图的空间上下文先验知识。
Jun, 2019
本文提出了一种上下文感知特征生成方法,命名为 CaGNet,通过引入上下文模块来捕获像素级别的上下文信息,并从语义词嵌入中生成更丰富和上下文感知的特征,从而实现了零样本语义分割任务中的最先进结果。
Aug, 2020
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
本研究提出使用自我生成伪标签来捕捉未标注图像数据中的潜在信息,在同一张图像的不同数据增强生成的多个伪标签交集的一致性正则化过滤噪声伪标签,结合人工标注数据重新训练模型,并不断迭代,以此达到在复杂的零标签语义分割场景下进行广义分类的任务的最新最优结果。
Apr, 2021
本文提出了一种新颖的面向实例的方法,用于 3D 语义分割,通过结合几个在实例级别监督的几何处理任务来促进学习到的特征表示的一致性,具体方法使用形状生成器和形状分类器来执行每个形状实例的形状重建和分类任务,从而使特征表示能够忠实地编码结构和局部形状信息,并意识到形状实例。在实验中,我们的方法在多个公共基准数据集(如 Waymo Open Dataset、SemanticKITTI 和 ScanNetV2)上明显优于现有的 3D 语义分割方法。
Nov, 2023
本文提出了一种分阶段的双向潜在嵌入识别框架,通过探索训练数据的拓扑和标签信息,在底部阶段创建了一个潜在嵌入空间,用于引导未知类别的半监督 Sammon 映射,通过最近邻法预测测试实例的标签,最终实验结果表明,该方法在零样本学习和归纳推理设置下达到了最先进的性能水平。
Jul, 2016
本文提出了一种新的基于分割标签的应对零样本图像语义分割任务的方法 ——ZegFormer,采用无类别分组任务(class-agnostic grouping task)和基于分割标签的零样本分类任务(zero-shot classification task on segments)两个子任务,引入大规模视觉语言模型(如 CLIP),在 PASCAL VOC 和 COCO-Stuff 等数据集上取得了较大的性能提升。
Dec, 2021
本研究提出新型的半监督学习策略来提高医学图像分割的形状估计性能,该方法采用多任务深度网络来同时预测语义分割和物体表面有符号距离图,并通过敌对损失来有效地捕捉形态感知特征.
Jul, 2020
本文提出了一种新的零样本学习模型,利用语义嵌入空间中的聚类结构来对已知对象的类别语义描述和示例进行建模,并通过训练多个基于核的回归器来实现语义表示 - 范例对的结构约束,从而在包括 ImageNet 数据集在内的标准基准数据集上显着优于现有的零样本学习方法。
May, 2016
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了 SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。
Jun, 2024