PanoContext-Former：基于 Transformer 的全景场景理解

May, 2023

PanoContext-Former：基于 Transformer 的全景场景理解

PanoContext-Former: Panoramic Total Scene Understanding with a Transformer

Yuan Dong, Chuan Fang, Zilong Dong, Liefeng Bo, Ping Tan

TL;DR本文提出了一种使用深度先验的方法，从单个全景图中同时复原物体形状、定向边界框和三维房间布局，为了充分利用丰富的上下文信息，设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明，我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时，本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。

Abstract

panoramic image enables deeper understanding and more holistic perception of $360^\circ$ surrounding environment, which can naturally encode enriched scene context information compared to standard perspective ima

panoramic image holistic perception depth prior transformer-based context module scene understanding

发现论文，激发创造

DeepPanoContext: 全景三维场景理解，基于整体场景上下文图和基于关系的优化

本研究提出了一种基于全景图像的新颖的三维场景理解方法，通过设计基于图神经网络的上下文模型来预测物体之间的关系和房间布局，以及可微分的基于关系的优化模块来优化物体排列，实现对全景三维场景的理解，并制备了具有多样化房间布局和家具摆放的真实感合成数据集，在几何精度和目标布置方面优于现有方法。

Aug, 2021

PanoFormer：室内全景变换器用于 360 度深度估计

本文提出了一种名为 PanoFormer 的全景深度估计方法，通过使用来自球形域的切向补丁、可学习的 token 流以及全景特定指标来提高全景结构的感知能力，并通过重新设计自注意力模块来增强其拟合全景几何结构的能力，经实验证明其取得了比现有的 SOTA 方法更好的表现，并且可以有效地扩展以解决语义全景分割问题。

Mar, 2022

弯曲现实：畸变感知 Transformer 用于全景语义分割适应

利用变形补丁嵌入（DPE）和变形 MLP（DMLP），并结合传输学习方法，将针孔相机图像的语义注释和 360 度环视视觉的语义注释结合起来，从而实现全景图像的稳健分割，并通过互补原型自适应实现无监督域自适应。在 Stanford2D3D 数据集中，与完全受监督的现有技术相比，我们的 Trans4PASS 与 MPA 保持可比的性能，而无需超过 1,400 个标记化全景图像。在室外 DensePASS 数据集中，我们打破了现有技术水平，使 mIoU 提高了 14.39％，将新标准设定为 56.38％。

Mar, 2022

利用多模态球面图像进行单帧语义分割

本研究提出了一种基于 Transformer 的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真，通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文，通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试，我们的技术在 Stanford2D3DS（RGB-HHA）上达到了 60.60% 的 mIoU 性能，Structured3D（RGB-D-N）上达到了 71.97% 的 mIoU 性能，Matterport3D（RGB-D）上达到了 35.92% 的 mIoU 性能。

Aug, 2023

PanelNet：通过面板表示理解 360 室内环境

PanelNet 是一种室内环境感知框架，它通过创新的面板表示法对 360 度室内全景图片进行表征，包括嵌入式网络编码的几何特征、通过 Local2Global Transformer 聚合的区域信息以及整体局部的几何背景，从而在室内深度估计和室内布局估计和语义分割等任务上取得了最优结果。

May, 2023

利用几何和深度学习从全景图像创建布局

该论文提出了一种从单个全景图像中恢复室内场景的三维布局恢复新方法，该方法结合几何推理和深度学习技术，从而提取结构角并生成房间的布局模型，并在 SUN360 和 Stanford 公共数据集上进行实验。

Jun, 2018

PanoVOS：利用 Transformer 桥接非全景和全景视图进行视频分割

本文提出了一种全景视频数据集 PanoVOS，通过对现有的 15 个视频对象分割模型进行评估，发现它们都无法解决全景视频中像素级内容不连续的问题。因此，我们提出了一种全景空间一致性转换器 (PSCFormer)，可以利用前一帧的语义边界信息与当前帧进行像素级匹配。大量实验证明，与现有的模型相比，我们的 PSCFormer 网络在全景设置下的分割结果方面具有巨大优势。希望我们的 PanoVOS 数据集能够推动全景分割 / 跟踪的发展。

Sep, 2023

室内全景图像物体识别

本文提供了一种适用于全景图像的深度学习模型，并结合目标检测和语义分割任务实现了室内场景中物体的识别与分离，进而生成定位在三维物体边界上的三维包围盒。量化和定性结果证明了我们的方法优于现有技术并且能够完整理解室内场景中的主要物体。

Oct, 2019

Im2Pano3D：扩展 360° 视野结构和语义信息

本论文提出了一种名为 Im2Pano3D 的卷积神经网络，该网络可以仅基于部分观察（<=50%），即 RGB-D 图像，为室内全景视图生成 3D 结构的稠密预测和语义标签的概率分布，其利用大规模合成和实际环境内部场景中学习到的强大的语境先验来实现。

Dec, 2017

DeepContext：用于 3D 完整场景理解的上下文编码神经路径

本文提出通过将 3D 上下文信息嵌入到神经网络拓扑中以实现整体场景理解的方法，为此我们采用了一个神经网络对接收到的深度图像进行对齐并推断其中物体的存在和位置，以及使用部分虚构的深度图像生成数据集，所有实验结果都表明了本算法的有效性。

Mar, 2016