RGB-D 变换器实现多任务场景分析

Jun, 2023

Efficient Multi-Task Scene Analysis with RGB-D Transformers

Söhnke Benedikt Fischedick, Daniel Seichter, Robin Schmidt, Leonard Rabes, Horst-Michael Gross

TL;DR介绍了一种高效的多任务场景分析方法 ——EMSAFormer，使用基于 RGB-D Transformer 的编码器同时执行分割、定位等多项任务，在移动平台上获得最新的性能表现和速度。

Abstract

Scene analysis is essential for enabling autonomous systems, such as mobile robots, to operate in real-world environments. However, obtaining a comprehensive understanding of the scene requires solving multiple tasks, such as panoptic segmentation, →

multi-task scene analysis emsaformer rgb-d transformer-based encoder panoptic segmentation instance orientation estimation

发现论文，激发创造

室内场景分析的高效 RGB-D 语义分割

本文介绍了一种使用 NVIDIA TensorRT 进行优化的高效且稳健的 RGB-D 分割方法，该方法可作为场景分析系统的公共初始处理步骤。我们通过使用 ESANet 在 NYUv2 和 SUNRGB-D 室内数据集上进行评估，展示了 RGB-D 分割优于仅处理 RGB 图像的效果，并证明当网络架构精心设计时仍可实时完成。此外，我们在 Cityscapes 的室外数据集上进行评估，显示了我们的方法也适用于其他应用领域，并展示了我们在一个室内应用场景中的定性结果.

Nov, 2020

TransformerFusion：使用 Transformer 的单目 RGB 场景重建

TransformerFusion 是一种基于 Transformer 的 3D 场景重建方法，通过 Transformer 网络处理输入的单眼 RGB 视频，将观察结果融合为代表场景的体积特征网格，最终解码为隐式的 3D 场景表示，实现精准的场景面貌恢复与重建。

Jul, 2021

AsymFormer：面向移动平台的异模态不对称交叉表示学习实时 RGB-D 语义分割

在机器人智能领域中，实现高效和准确的 RGB-D 语义分割是一个关键基石。本文提出 AsymFormer，这是一种面向实时 RGB-D 语义分割的新型网络，通过优化计算资源分配和引入非对称骨干网络，对冗余参数进行了最小化，以实现多模态特征的有效融合。此外，通过重新定义特征选择和提取多模态自相似特征，同时不增加参数数量，以确保在机器人平台上实时执行。最后，使用局部关注引导特征选择（LAFS）模块，通过利用不同模态之间的依赖关系选择性地融合特征。通过在 NYUv2 和 SUNRGBD 数据集上评估该方法，AsymFormer 在 NYUv2 上实现了 52.0％的 mIoU，在 SUNRGBD 上实现了 49.1％的 mIoU。特别地，AsymFormer 在 RTX3090 上实现 65 FPS 的推理速度，在实施混合精度量化后，达到了令人印象深刻的 79 FPS 的推理速度。这显著优于现有的多模态方法，从而证明 AsymFormer 在 RGB-D 语义分割方面能够在高准确度和高效性之间取得平衡。

Sep, 2023

面向高效 RGB-D 语义分割的空间信息引导自适应上下文感知网络

提出了一种有效的轻量级编码器 - 解码器网络以及其他相关模块，用于在移动机器人中进行 RGB-D 语义分割，通过跨模态相关性和补充线索可以准确提取多层次 RGB-D 特征，实验结果表明该方法在分割准确性、推理时间和参数方面具有更好的权衡。

Aug, 2023

跨域多模态 RGB-D 场景识别

本文提出了一种自适应景观识别方法，该方法使用 RGB 和深度图像之间的自监督转换，以解决多模态数据集之间的领域转移问题，并证明其在不同相机采集的数据之间具有很强的泛化能力。

Mar, 2021

RoadFormer：RGB-Normal 语义道路场景解析的双工变换器

RoadFormer 是一种基于 Transformer 的数据融合网络，可以精确预测道路场景解析中的语义内容。

Sep, 2023

无监督结构光变换

我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法，能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点，并且通过在 KITTI 和 DDAD 数据集上的实验，展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明，虽然基于 Transformer 的架构在运行时间效率上较低，但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能，并且更加稳健。

Dec, 2023

基于多层深度和极线变换的三维场景重建

此研究论文研究如何从单个 RGB 图像自动重建场景的完整 3D 模型，它采用一种新的 Epipolar Feature Transformer 技术来联合图像的多层深度表示和卷积神经网络特征以提高场景信息的准确性。

Feb, 2019

基于 RGB-D 的场景识别翻译 - 识别网络

该研究提出了一种新的模态间转移识别网络 TRecgNet，利用编码器网络共享任务，采用半监督方式利用未标记的数据进行训练，进一步提高了识别网络的准确性。实验证明，TRecgNet 在 RGB-D 场景识别方面的表现具有优越性。

Apr, 2019

使用不对称标注的实时联合语义分割和深度估计

利用深度学习模型在机器人中作为感知信息提取器的部署，有许多困难之处。本文着重探讨了其中三个最显著的障碍，即如何将单个模型适应于同时执行多个任务的需求、如何实现实时性、以及如何使用具有不对等标注数量的非对称数据集。通过使用实时语义分割网络和知识蒸馏的简单解决方案，我们将这些障碍一一克服。最终，我们的系统可以方便地扩展，使用单个模型同时处理更多任务和未来更多的数据集，能够在室内和室外分别执行深度估计和分割，并在 640x480 像素的输入上只需要一个前向通道即可实现 13ms 和 6.5 GFLOPs 成本的效果，从而直接将其用于场景的 3D 语义重建中。

Sep, 2018