Mar, 2024

在室内环境中进行高层语义区域划分而无需物体识别

TL;DR通过室内环境中的具身导航,提出了一种语义区域绘图的方法,通过视觉 - 语言模型向导绘图,将自身场景理解映射到全局框架上,生成具有高级代理知识的语义地图,实现自主地图生成。在逼真模拟器的实验中,该方法在大量基线方法中明显优于基于对象的系统和预训练场景分类器。