Sep, 2023

3D场景中的密集物体定位

TL;DR通过语义定位3D场景中的物体是多媒体理解领域的一项基础且重要的任务,本研究提出了一种名为3D Dense Object Grounding (3D DOG)的新任务,通过更复杂的段落描述而不是单个句子来共同定位多个物体,提出了一种基于Stacked Transformer的新框架3DOGSFormer,通过上下文查询驱动的局部Transformer解码器生成初始定位提议,并利用提议驱动的全局Transformer解码器进一步优化初始定位提议,实验证明该方法在多个具有挑战性的基准上胜过现有的3D单个物体定位方法和它们的稠密对象变种。