May, 2024

基于参照标记的三维链接语言模型

TL;DR在本研究中,我们提出了基于3D大型多模型(3D LMM)的Grounded 3D-LLM模型,在一个统一生成框架中探索了3D场景理解的潜力,通过使用场景引用标记作为特殊名词短语来参考3D场景,将3D视觉任务转化为语言格式,从而实现了处理交替3D和文本数据序列的自然方法,并采用对应标签引导语句建立了大规模的基于含意场景的语言数据集,进一步引入了对比性语言场景预训练(CLASP)以有效利用这些数据,从而将3D视觉与语言模型相结合,通过在多个3D基准测试上进行全面评估,我们展示了Grounded 3D-LLM的领先性能和广泛适用性。