PanoMixSwap 室内场景理解中的全景结构交换

Sep, 2023

PanoMixSwap 室内场景理解中的全景结构交换

PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene Understanding

Yu-Cheng Hsieh, Cheng Sun, Suraj Dengale, Min Sun

TL;DR本文提出了一种针对室内全景图像的新型数据增强技术 PanoMixSwap，通过混合不同的背景风格、前景家具和房间布局，生成一组多样化的新全景图像用于丰富数据集。通过在两个室内场景理解任务（语义分割和布局估计）上的实验证明，使用 PanoMixSwap 训练的先进方法在两个任务上都能保持比原始设置更好的性能。

Abstract

The volume and diversity of training data are critical for modern deep learningbased methods. Compared to the massive amount of labeled perspective images, 360 panoramic images fall short in both volume and diversity. In this paper, we propose PanoMixSwap, a novel →

data augmentation panoramic images indoor scene understanding semantic segmentation layout estimation

发现论文，激发创造

SSLayout360：基于 360 度全景图的半监督室内布局估计

该研究探索了半监督学习和三维室内布局重建的交叉领域，提出了使用标记和未标记数据学习房间角和边界表示的方法，利用 360 度全景场景实现了改进的室内布局估计。实验结果表明，该方法同样精准，仅需使用 12％的标记数据。这项工作是实现使用有限标记数据进行三维感知的强大半监督布局估计的重要第一步。

Mar, 2021

利用几何和深度学习从全景图像创建布局

该论文提出了一种从单个全景图像中恢复室内场景的三维布局恢复新方法，该方法结合几何推理和深度学习技术，从而提取结构角并生成房间的布局模型，并在 SUN360 和 Stanford 公共数据集上进行实验。

Jun, 2018

PanoContext-Former：基于 Transformer 的全景场景理解

本文提出了一种使用深度先验的方法，从单个全景图中同时复原物体形状、定向边界框和三维房间布局，为了充分利用丰富的上下文信息，设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明，我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时，本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。

May, 2023

单室内全景布局指导的新视角合成

本文提出一种从单个室内全景图生成新视角的方法，在使用卷积神经网络提取深层特征和估计深度图的基础上，利用室内场景的布局信息指导目标视角图像的生成，并加入几何约束以提高一致性和鲁棒性。实验结果表明，该方法在小大相机移动下均有较好效果。

Mar, 2021

沉浸式室内场景装饰的条件式 360 度图像合成

本文提出一种用于 360 度图像的条件场景装饰方法，通过开发 360 度感知的物体布局生成器和生成对抗网络，实现对输入场景的各种家具布局生成，并通过用户研究证实了生成结果中的逼真图像质量和家具布局提供的沉浸式体验。

Jul, 2023

利用多模态球面图像进行单帧语义分割

本研究提出了一种基于 Transformer 的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真，通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文，通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试，我们的技术在 Stanford2D3DS（RGB-HHA）上达到了 60.60% 的 mIoU 性能，Structured3D（RGB-D-N）上达到了 71.97% 的 mIoU 性能，Matterport3D（RGB-D）上达到了 35.92% 的 mIoU 性能。

Aug, 2023

Im2Pano3D：扩展 360° 视野结构和语义信息

本论文提出了一种名为 Im2Pano3D 的卷积神经网络，该网络可以仅基于部分观察（<=50%），即 RGB-D 图像，为室内全景视图生成 3D 结构的稠密预测和语义标签的概率分布，其利用大规模合成和实际环境内部场景中学习到的强大的语境先验来实现。

Dec, 2017

PanoSwin：全景风格的 Swin Transformer 用于全景理解

本文提出了一种名为 PanoSwin 的简单而有效的架构，用于学习具有 ERP 的全景表示。通过探索全景式位移窗口方案和新颖的俯仰注意力分别解决边界不连续和空间失真的挑战，并利用绝对位置嵌入和相对位置偏差来增强全景几何信息。同时，通过设计一种新颖的两阶段学习框架，从平面图像向全景图像进行知识转移，实验结果表明 PanoSwin 在全景理解方面具有有效性。

Aug, 2023

非中心全景室内数据集

首次提出了用于室内场景理解的非中心全景数据集，包含 2574 个 RGB 非中心全景图像，每个图像都有深度图和注释，以获取室内空间的布局和相机姿态。

Jan, 2024

DeepPanoContext: 全景三维场景理解，基于整体场景上下文图和基于关系的优化

本研究提出了一种基于全景图像的新颖的三维场景理解方法，通过设计基于图神经网络的上下文模型来预测物体之间的关系和房间布局，以及可微分的基于关系的优化模块来优化物体排列，实现对全景三维场景的理解，并制备了具有多样化房间布局和家具摆放的真实感合成数据集，在几何精度和目标布置方面优于现有方法。

Aug, 2021