MMSep, 2023

3D 场景中的密集物体定位

TL;DR通过语义定位 3D 场景中的物体是多媒体理解领域的一项基础且重要的任务,本研究提出了一种名为 3D Dense Object Grounding (3D DOG) 的新任务,通过更复杂的段落描述而不是单个句子来共同定位多个物体,提出了一种基于 Stacked Transformer 的新框架 3DOGSFormer,通过上下文查询驱动的局部 Transformer 解码器生成初始定位提议,并利用提议驱动的全局 Transformer 解码器进一步优化初始定位提议,实验证明该方法在多个具有挑战性的基准上胜过现有的 3D 单个物体定位方法和它们的稠密对象变种。