Aug, 2024

SceneGPT:一种用于三维场景理解的语言模型

TL;DR本研究旨在解决缺乏三维监督训练和大规模训练的数据资源问题,探索如何利用预训练语言模型的知识来实现三维场景理解。提出的SceneGPT框架使用3D场景图表示场景,并结合预训练的语言模型进行空间推理和对象理解,验证其在对象语义和空间理解等任务上的有效性。