ICCVSep, 2023
提升密集三维视觉对接的三种方法
Three Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding
Ozan Unal, Christos Sakaridis, Suman Saha, Fisher Yu, Luc Van Gool
TL;DR通过引入密集三维视觉接地网络 ConcreteNet,该文研究了在物理交互类应用中实现密集三维视觉接地的方法,包括引入底层注意融合模块、对潜在空间进行对比训练、以及解决视角依赖性表达的全局相机令牌,提高了富有挑战性的重复实例的接地性能,从而实现了在三维场景中进行的交互式物体定位。