AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

Sep, 2023

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation

Siqi Du, Weixi Wang, Renzhong Guo, Shengjun Tang

TL;DR在机器人智能领域中，实现高效和准确的 RGB-D 语义分割是一个关键基石。本文提出 AsymFormer，这是一种面向实时 RGB-D 语义分割的新型网络，通过优化计算资源分配和引入非对称骨干网络，对冗余参数进行了最小化，以实现多模态特征的有效融合。此外，通过重新定义特征选择和提取多模态自相似特征，同时不增加参数数量，以确保在机器人平台上实时执行。最后，使用局部关注引导特征选择（LAFS）模块，通过利用不同模态之间的依赖关系选择性地融合特征。通过在 NYUv2 和 SUNRGBD 数据集上评估该方法，AsymFormer 在 NYUv2 上实现了 52.0％的 mIoU，在 SUNRGBD 上实现了 49.1％的 mIoU。特别地，AsymFormer 在 RTX3090 上实现 65 FPS 的推理速度，在实施混合精度量化后，达到了令人印象深刻的 79 FPS 的推理速度。这显著优于现有的多模态方法，从而证明 AsymFormer 在 RGB-D 语义分割方面能够在高准确度和高效性之间取得平衡。

Abstract

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational

robotic intelligence rgb-d semantic segmentation asymformer multi-modal efficiency

发现论文，激发创造

DFormer：重新思考语义分割的 RGBD 表示学习

DFormer 是一种创新的 RGB-D 预训练框架，通过使用一系列 RGB-D 块进行编码，将 RGB 和深度信息编码成可转移的表示，并避免了现有方法中 RGB 预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。在两个常见的 RGB-D 任务上，使用轻量级的解码器头微调预训练的 DFormer，该方法在两个 RGB-D 分割数据集和五个 RGB-D 显着性数据集上以不到当前最佳方法计算成本一半的代价实现了最新的最佳性能。

Sep, 2023

基于不确定性感知对称网络的快速道路分割

本文提出了一种基于证据理论的不确定性感知对称网络（USNet），通过完全融合 RGB 和深度数据，折衷速度和准确性。实验结果表明，该方法以 43+ FPS 的实时推理速度实现了最先进的接近 100% 的准确性。

Mar, 2022

使用不对称标注的实时联合语义分割和深度估计

利用深度学习模型在机器人中作为感知信息提取器的部署，有许多困难之处。本文着重探讨了其中三个最显著的障碍，即如何将单个模型适应于同时执行多个任务的需求、如何实现实时性、以及如何使用具有不对等标注数量的非对称数据集。通过使用实时语义分割网络和知识蒸馏的简单解决方案，我们将这些障碍一一克服。最终，我们的系统可以方便地扩展，使用单个模型同时处理更多任务和未来更多的数据集，能够在室内和室外分别执行深度估计和分割，并在 640x480 像素的输入上只需要一个前向通道即可实现 13ms 和 6.5 GFLOPs 成本的效果，从而直接将其用于场景的 3D 语义重建中。

Sep, 2018

特征对齐的对称多模态网络在连续道路场景语义分割中的应用

本研究通过强制执行紧密耦合的特征表示和对称信息共享方案，通过重新定义多模态语义分割任务，实现即使一个输入模态缺失，也能正常工作，提高模型的可靠性，尤其适用于自动驾驶等安全关键应用领域。在 SemanticKITTI 数据集上评估了本方法，并与最接近的竞争者进行了比较。同时还引入了一种特定的持续学习方案，并在渐进式持续学习场景中展示了该方法的有效性。

Aug, 2023

XFormer: 快速准确的单目三维人体捕捉

XFormer 是一种新型的人体网格和动作捕捉方法，能够仅用单目图像即可实现在普通 CPU 上的实时性能，并能够高效地训练于多种数据集，其关键在于跨模态的 transformer block。

May, 2023

使用不对称多层融合学习深层次多模态特征表示

本文介绍了一种有效的多模态特征融合框架，其中采用了两种创新的融合方案，可在一个共享的单一网络中学习多模态特征，并引入两个非对称融合操作，以增强跨通道的多模态特征交互并增强通道内的空间特征区分能力。实验结果表明，本文提出的框架在语义分割和图像翻译任务中表现优异。

Aug, 2021

RGB-D 变换器实现多任务场景分析

介绍了一种高效的多任务场景分析方法 ——EMSAFormer，使用基于 RGB-D Transformer 的编码器同时执行分割、定位等多项任务，在移动平台上获得最新的性能表现和速度。

Jun, 2023

RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

RoadFormer 是一种基于 Transformer 的数据融合网络，可以精确预测道路场景解析中的语义内容。

Sep, 2023

CMX: 基于 Transformer 的 RGB-X 语义分割的跨模态融合

本文提出了一种基于转换器的跨模态融合框架 CMX，用于针对自主车辆的 RGB-X 语义分割，结果表明 CMX 可以推广到不同的感知模态，并实现在多个基准数据集上的最新技术性能。

Mar, 2022

CSFNet: 用于驾驶场景实时 RGB-X 语义分割的余弦相似度融合网络

本研究提出了余弦相似度融合网络 (CSFNet) 作为实时的 RGB-X 语义分割模型，通过设计余弦相似度注意力融合模块 (CS-AFM) 在不同模态之间有效地整合和融合特征，提高了交叉模态特征在低层的融合，使得高层可以采用单支路网络，从而实现更快速和准确的预测，并在 RGB-D/T/P 语义分割任务中验证了其效果和高效性。

Jul, 2024