AAAIMar, 2020

基于注意力机制的多模态融合网络用于场景语义补全

TL;DR本文提出了一种名为 AMFNet 的端到端三维卷积网络,用于从单视图 RGB-D 图像推断出体积三维场景的占用和语义标签。该网络通过融合 2D 语义分割和 3D 语义完成网络的经验以及空间维度的可靠深度线索,学习同时执行有效的 3D 场景完成和语义分割,验证表明在合成 SUNCG-RGBD 数据集和真实 NYUv2 数据集上都取得了明显的优越性。