Jul, 2024

RefMask3D:基于语言引导的3D指称分割变换器

TL;DR本研究解决了3D指称分割中视觉-语言特征融合与对齐的挑战。提出的RefMask3D通过几何增强的组词注意力和语言原语构建的方法,提升了视觉-语言理解,同时通过对象聚类模块整合信息,显著提高了目标识别的精度。此方法在多个数据集上达到了最新的性能,特别在ScanRefer数据集上提高了3.16%的mIoU。