With the availability of low-cost and compact 2.5/3D visual sensing devices,
computer vision community is experiencing a growing interest in visual scene
understanding of indoor environments. This survey paper pr
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的 3D 场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。