利用多模态球面图像进行单帧语义分割

Aug, 2023

利用多模态球面图像进行单帧语义分割

Single Frame Semantic Segmentation Using Multi-Modal Spherical Images

Suresh Guttikonda, Jason Rambach

TL;DR本研究提出了一种基于 Transformer 的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真，通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文，通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试，我们的技术在 Stanford2D3DS（RGB-HHA）上达到了 60.60% 的 mIoU 性能，Structured3D（RGB-D-N）上达到了 71.97% 的 mIoU 性能，Matterport3D（RGB-D）上达到了 35.92% 的 mIoU 性能。

Abstract

In recent years, the research community has shown a lot of interest to panoramic images that offer a 360-degree directional perspective. Multiple data modalities can be fed, and complimentary characteristics can be utilized for more robust and rich scene interpretation based on

panoramic images semantic segmentation cross-modal fusion distortion-aware modules omnidirectional scene perception

发现论文，激发创造

弯曲现实：畸变感知 Transformer 用于全景语义分割适应

利用变形补丁嵌入（DPE）和变形 MLP（DMLP），并结合传输学习方法，将针孔相机图像的语义注释和 360 度环视视觉的语义注释结合起来，从而实现全景图像的稳健分割，并通过互补原型自适应实现无监督域自适应。在 Stanford2D3D 数据集中，与完全受监督的现有技术相比，我们的 Trans4PASS 与 MPA 保持可比的性能，而无需超过 1,400 个标记化全景图像。在室外 DensePASS 数据集中，我们打破了现有技术水平，使 mIoU 提高了 14.39％，将新标准设定为 56.38％。

Mar, 2022

室内 360° 语义分割的双向互补特征压缩与自蒸馏

本文提出一种 360 度全景语义分割的新算法，通过特征提取、双向压缩、集成解码等三个模块，将两种互补的低维度压缩方法结合起来，并引入了自我蒸馏策略提高不同特征的交互，最终将全景图像分割，与现有算法相比，性能提升至少 10%。

Jul, 2022

一种基于全景立体图像的多模态园艺数据集和混合三维密集重建框架，用于修剪机器人

提出了一个基于新设计全景立体相机和混合软件框架的解决方案，具有三个融合模块，包括视差融合、姿态融合和立体体积融合，用于从单视图点云中构建整个花园的网格。

May, 2023

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

自动驾驶多模态三维语义分割 MSeg3D

利用多模态数据的几何和语义特征，通过三个步骤来完成多模态 3D 语义分割任务。经过我们的研究，MSeg3D 在 nuScenes、Waymo 和 SemanticKITTI 数据集上取得了最先进的结果。

Mar, 2023

360+x: 一个全景多模态场景理解数据集

该研究使用多个视角和多种数据模式，提供全景视角和个人视角的场景理解数据集，以模拟真实世界中的信息访问方式，并通过 5 个不同的场景理解任务对数据集进行了评估，希望为综合场景理解提供更广泛的范围和多元化视角。

Apr, 2024

通过投影网络对具有异构维度的数据进行深度多模态融合

本研究提出了一种新颖的基于深度学习的多模态数据融合框架，具有异构维度（例如 3D+2D）的兼容定位任务的能力，并在地理萎缩和视网膜血管分割任务上取得了优于现有单模态方法的结果。

Feb, 2024

PanoContext-Former：基于 Transformer 的全景场景理解

本文提出了一种使用深度先验的方法，从单个全景图中同时复原物体形状、定向边界框和三维房间布局，为了充分利用丰富的上下文信息，设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明，我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时，本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。

May, 2023

通过无监督域自适应实现超出视野的密集全景语义分割

本研究主要针对无人车自主驾驶问题，通过领域自适应的方式解决了对 360 度视角全景图像中层次分割的无监督学习问题；通过新的数据集 DensePASS，以及基于关注机制的自适应算法框架 P2PDA 实现了从针孔图像到全景图像的专业语义分割。实验证明，该框架相比于其他无监督学习和全景图像分割方法，有着更高的准确率和更高的效率。

Oct, 2021

通用多模态 Transformer 满足遥感语义分割

在遥感语义分割领域中，本研究调查了 PerceiverIO 等普适性多模态网络在处理遥感图像中的物体尺度变化和车辆检测方面的表现，并提出一种空间和体积学习组件来解决这些问题。通过广泛的实验证明，该方法在与 UNetFormer 和 SwinUNet 等专用架构相比具有竞争力的结果，显示出最小化网络架构工程且性能不受明显影响的潜力。

Jul, 2023