May, 2024

通过提问实现三维视觉与语言理解的统一化

TL;DR通过统一各种三维场景表示方法,使用可提示的查询(Promptable Queries)解决低级实例分割至高级推理与规划等广泛的三维视觉语言任务的统一模型(PQ3D)。在十个多样化的三维视觉语言数据集上进行测试,PQ3D 在这些任务中表现出令人印象深刻的性能,并在大多数基准测试中创造了新记录。