Nov, 2023

零字参数开放词汇三维视觉定位的可视化编程

TL;DR通过使用大型语言模型,我们提出了一种零样本开放词汇的三维视觉定位方法,使用独特的基于对话的方法和视觉程序模块,以及创新的语言 - 物体关联模块,在三维场景中实现了复杂推理,并扩展了现有三维物体检测器的应用范围,取得了显著的性能优势。