用于开放式语义分割的多模态原型
提出了一种自适应动态融合多模态语义分割框架,采用自监督模型的融合机制来优化融合多模态特征,在物体类别、空间位置和场景上下文方面增强鲁棒性,同时提出了一种计算高效的 AdapNet ++ 单模分割体系结构,并获得了最新的性能。
Aug, 2018
本文提出一种跨模态伪标签(cross-modal pseudo-labeling)框架,用于面向开放词汇的实例分割,通过与对象掩膜的视觉特征对齐,实现对字词语义中的新类别进行标记,从而自我训练出一个学生模型,缓解了伪掩膜中存在的噪声干扰所带来的不良影响,相比现有工作,在 MS-COCO 和 Open Images & Conceptual Captions 数据集上分别实现了 4.5% 和 5.1% 的 mAP 得分提高。
Nov, 2021
本文提出了一种基于贝叶斯框架和模拟退火优化的图像划分采样算法,基于已知物体类别的目标检测器输出,实现了在开放集条件下分割所有已知和未知目标类别的实例分割方法,该方法在已知类别和未知类别上均有较好表现并且与监督式方法相比具有竞争性。
Jun, 2018
零射点云分割方法探索了如何识别在训练阶段未见过的点云中的新物体,并利用深度模型从已标记的已知类别转移知识到未标记的未知类别,提出了一种新颖的多模态零射学习方法,以更准确地对齐视觉和语义特征,在两个流行的基准数据集 SemanticKITTI 和 nuScenes 上进行的实验表明,我们的方法在未见类别 mIoU 上分别取得了 52% 和 49% 的提升,超过了当前的最佳方法。
Jul, 2023
本文提出了一种原型混合模型 (PMMs),该模型利用期望最大化算法从有限的支持图像中提取通道和空间语义,从而在激活查询图像中的物体的同时抑制背景区域,这种方法在 MS-COCO 数据集上 5-shot 分割性能提高了 5.82%。
Aug, 2020
我们介绍了 U3M:一种用于多模态语义分割的无偏多尺度模态融合模型,其通过有效提取和整合全局和局部特征,实现了在多个数据集上的优越性能,并证实了在各种环境中增强语义分割的鲁棒性和多样性。
May, 2024
人类善于形成心理地图以理解物体关系和通过语言查询导航;此论文通过提出基于 3D 的实例级方法提高语言引导任务的成功率,并在定量和定性结果上获得显著改善。
Apr, 2024
ConceptFusion 是一种基本的开放式多模态场景表示方法,通过集成预先训练的基础模型的能力,可跨越自然语言、图像和音频等多种模式推理和查询,从而实现零训练空间推理,并在保留长尾概念方面表现比监督方法优异 40% 的跨模态三维映射。
Feb, 2023
本文通过引用由文本描述和示例图像组成的多模式线索,以不同的角度解决开放词汇识别问题,并提出了一种名为 OVMR 的方法,该方法采用两个创新组件来追求更强的类别线索嵌入。
Jun, 2024