用于开放式语义分割的多模态原型

Jul, 2023

用于开放式语义分割的多模态原型

Multi-Modal Prototypes for Open-Set Semantic Segmentation

Yuhuan Yang, Chaofan Ma, Chen Ju, Ya Zhang, Yanfeng Wang

TL;DR本文提出了一种称为开放式语义分割（O3S）的统一框架，在视觉示例和文本名称中学习已见和未见的语义。我们的流程通过首先进行单模自我增强和聚合，然后进行多模态补充融合来提取用于分割任务的多模态原型。

Abstract

In semantic segmentation, adapting a visual system to novel object categories at inference time has always been both valuable and challenging. To enable such generalization, existing methods rely on either providing several support examples as →

semantic segmentation open-set semantic segmentation multi-modal prototypes visual cues textual cues

发现论文，激发创造

多模态语义分割的自监督模型适应

提出了一种自适应动态融合多模态语义分割框架，采用自监督模型的融合机制来优化融合多模态特征，在物体类别、空间位置和场景上下文方面增强鲁棒性，同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构，并获得了最新的性能。

Aug, 2018

稳健的跨模态伪标记开放词汇实例分割

本文提出一种跨模态伪标签（cross-modal pseudo-labeling）框架，用于面向开放词汇的实例分割，通过与对象掩膜的视觉特征对齐，实现对字词语义中的新类别进行标记，从而自我训练出一个学生模型，缓解了伪掩膜中存在的噪声干扰所带来的不良影响，相比现有工作，在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。

Nov, 2021

基于贝叶斯的开放世界语义实例分割

本文提出了一种基于贝叶斯框架和模拟退火优化的图像划分采样算法，基于已知物体类别的目标检测器输出，实现了在开放集条件下分割所有已知和未知目标类别的实例分割方法，该方法在已知类别和未知类别上均有较好表现并且与监督式方法相比具有竞争性。

Jun, 2018

更多观点，更多了解：通过多模态视觉数据进行零样本点云分割

零射点云分割方法探索了如何识别在训练阶段未见过的点云中的新物体，并利用深度模型从已标记的已知类别转移知识到未标记的未知类别，提出了一种新颖的多模态零射学习方法，以更准确地对齐视觉和语义特征，在两个流行的基准数据集 SemanticKITTI 和 nuScenes 上进行的实验表明，我们的方法在未见类别 mIoU 上分别取得了 52% 和 49% 的提升，超过了当前的最佳方法。

Jul, 2023

少样本语义分割的原型混合模型

本文提出了一种原型混合模型 (PMMs)，该模型利用期望最大化算法从有限的支持图像中提取通道和空间语义，从而在激活查询图像中的物体的同时抑制背景区域，这种方法在 MS-COCO 数据集上 5-shot 分割性能提高了 5.82%。

Aug, 2020

U3M: 多模态语义分割的无偏多尺度模态融合模型

我们介绍了 U3M：一种用于多模态语义分割的无偏多尺度模态融合模型，其通过有效提取和整合全局和局部特征，实现了在多个数据集上的优越性能，并证实了在各种环境中增强语义分割的鲁棒性和多样性。

May, 2024

用于视觉语言导航的开放式 3D 语义实例地图 - O3D-SIM

人类善于形成心理地图以理解物体关系和通过语言查询导航；此论文通过提出基于 3D 的实例级方法提高语言引导任务的成功率，并在定量和定性结果上获得显著改善。

Apr, 2024

ConceptFusion: 开放式多模态 3D 地图

ConceptFusion 是一种基本的开放式多模态场景表示方法，通过集成预先训练的基础模型的能力，可跨越自然语言、图像和音频等多种模式推理和查询，从而实现零训练空间推理，并在保留长尾概念方面表现比监督方法优异 40% 的跨模态三维映射。

Feb, 2023

OVMR: 多模式参考下的开放词汇识别

本文通过引用由文本描述和示例图像组成的多模式线索，以不同的角度解决开放词汇识别问题，并提出了一种名为 OVMR 的方法，该方法采用两个创新组件来追求更强的类别线索嵌入。

Jun, 2024

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020