IJCAIApr, 2022

基于空间导向的点云 3D 密集描述 Transformer

TL;DR该研究提出了一种基于 transformer 的 encoder-decoder 结构的 3D 密集描述方法,包含相对空间感知机制,可以精准地为 3D 场景中的每个场景对象实现目标检测和自然语言描述生成。在两个基准数据集 ScanRefer 和 ReferIt3D 上,该方法均优于基线模型 Scan2Cap。