Feb, 2024

FM-Fusion: 基于视觉-语言基础模型的实例感知语义映射增强

TL;DR基于视觉-语言基础模型,本研究提出了一种概率标签融合方法,用于从开放集标签测量中预测闭合集语义类别,以增强基于实例感知的语义映射;通过整合各模块构建一个统一的语义映射系统,并通过ScanNet和SceneNN数据集评估了方法的零样本性能,取得了显著优于传统方法的40.3均值平均精度(mAP)的结果。