Mar, 2023

利用GPT和原型指导的多视角知识获取用于3D视觉定位

TL;DRViewRefer 是一个用于 3D 视觉定位的多视角框架,可以在文本和 3D 两种模态下获取视觉知识,提出了一种可学习的多视角原型来记忆不同视角下的场景通用知识,同时还利用视角引导的注意力模块以及最终预测中的视角引导评分策略,实现了对三个基准测试的表现优于现有技术,并且超过了第二名的+2.8%、+1.2%和+0.73%。