Sep, 2023

AsymFormer:面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

TL;DR在机器人智能领域中,实现高效和准确的 RGB-D 语义分割是一个关键基石。本文提出 AsymFormer,这是一种面向实时 RGB-D 语义分割的新型网络,通过优化计算资源分配和引入非对称骨干网络,对冗余参数进行了最小化,以实现多模态特征的有效融合。此外,通过重新定义特征选择和提取多模态自相似特征,同时不增加参数数量,以确保在机器人平台上实时执行。最后,使用局部关注引导特征选择(LAFS)模块,通过利用不同模态之间的依赖关系选择性地融合特征。通过在 NYUv2 和 SUNRGBD 数据集上评估该方法,AsymFormer 在 NYUv2 上实现了 52.0%的 mIoU,在 SUNRGBD 上实现了 49.1%的 mIoU。特别地,AsymFormer 在 RTX3090 上实现 65 FPS 的推理速度,在实施混合精度量化后,达到了令人印象深刻的 79 FPS 的推理速度。这显著优于现有的多模态方法,从而证明 AsymFormer 在 RGB-D 语义分割方面能够在高准确度和高效性之间取得平衡。