Aug, 2023

利用多模态球面图像进行单帧语义分割

TL;DR本研究提出了一种基于 Transformer 的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真,通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程上下文,通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试,我们的技术在 Stanford2D3DS(RGB-HHA)上达到了 60.60% 的 mIoU 性能,Structured3D(RGB-D-N)上达到了 71.97% 的 mIoU 性能,Matterport3D(RGB-D)上达到了 35.92% 的 mIoU 性能。