SGAT4PASS: 球面几何感知变换器用于全景语义分割
利用变形补丁嵌入(DPE)和变形 MLP(DMLP),并结合传输学习方法,将针孔相机图像的语义注释和 360 度环视视觉的语义注释结合起来,从而实现全景图像的稳健分割,并通过互补原型自适应实现无监督域自适应。在 Stanford2D3D 数据集中,与完全受监督的现有技术相比,我们的 Trans4PASS 与 MPA 保持可比的性能,而无需超过 1,400 个标记化全景图像。在室外 DensePASS 数据集中,我们打破了现有技术水平,使 mIoU 提高了 14.39%,将新标准设定为 56.38%。
Mar, 2022
本文采用领域适应的角度,针对 360 度车载相机图像的全景语义分割问题,提出了使用基于注意力机制的跨域全景语义分割框架,并公开了一个密集标注且包含有标注和无标注的全景图像数据集 DensePASS。在两个标准分割网络中使用我们的框架,相对 Mean IoU 会在 6.05% 和 11.26% 之间获得排名的提高。
Aug, 2021
通过使用开放性全景分割任务,以及采用可变形适配器网络和随机全景等距投影数据增强方法,我们提出的 OOOPS 模型在三个全景数据集上均取得了令人瞩目的性能提升,特别是在野外环境 WildPASS 上达到了 + 2.2%,在室内环境 Stanford2D3D 上达到了 + 2.4%的平均交并比(mIoU)
Jul, 2024
本研究提出了一种基于 Transformer 的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真,通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程上下文,通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试,我们的技术在 Stanford2D3DS(RGB-HHA)上达到了 60.60% 的 mIoU 性能,Structured3D(RGB-D-N)上达到了 71.97% 的 mIoU 性能,Matterport3D(RGB-D)上达到了 35.92% 的 mIoU 性能。
Aug, 2023
本文提出了一种名为 SGFormer 的球面几何转换器,旨在解决 360 深度估计中的全景畸变问题,并通过将球面几何先验引入视觉转换器来增强其性能。在实验中,我们对流行的基准数据集进行了广泛的测试,证明了我们方法优于现有最先进的解决方案。
Apr, 2024
本研究主要针对无人车自主驾驶问题,通过领域自适应的方式解决了对 360 度视角全景图像中层次分割的无监督学习问题;通过新的数据集 DensePASS,以及基于关注机制的自适应算法框架 P2PDA 实现了从针孔图像到全景图像的专业语义分割。实验证明,该框架相比于其他无监督学习和全景图像分割方法,有着更高的准确率和更高的效率。
Oct, 2021
本文提出了一种全景视频数据集 PanoVOS,通过对现有的 15 个视频对象分割模型进行评估,发现它们都无法解决全景视频中像素级内容不连续的问题。因此,我们提出了一种全景空间一致性转换器 (PSCFormer),可以利用前一帧的语义边界信息与当前帧进行像素级匹配。大量实验证明,与现有的模型相比,我们的 PSCFormer 网络在全景设置下的分割结果方面具有巨大优势。希望我们的 PanoVOS 数据集能够推动全景分割 / 跟踪的发展。
Sep, 2023
通过引入一种新的任务 ——Occlusion-Aware Seamless Segmentation (OASS),本研究同时处理全景图像的视野拓宽、场景理解的遮挡感知预测和视域适应等挑战,并提出了一种名为 UnmaskFormer 的解决方案,实现了狭窄的视野、遮挡和领域差异的同时处理。该方法在 Benchmark 数据集 BlendPASS 上取得了最先进的性能,mAPQ 达到 26.58%,mIoU 达到 43.66%。在公开的全景图像语义分割数据集 SynPASS 和 DensePASS 上,该方法超过了之前的方法,分别获得了 45.34% 和 48.08% 的 mIoU。所提供的 BlendPASS 数据集和源代码将公开提供。
Jul, 2024
360-GS 是一种适用于有限的全景输入的高斯分布技术,在全景渲染中表现出色,用于新视图合成时产生更少的伪像,从而提供了室内环境中的沉浸式漫游。
Feb, 2024