360+x: 一个全景多模态场景理解数据集

Apr, 2024

360+x: 一个全景多模态场景理解数据集

360+x: A Panoptic Multi-modal Scene Understanding Dataset

Hao Chen, Yuqi Hou, Chenyuan Qu, Irene Testini, Xiaohan Hong...

TL;DR该研究使用多个视角和多种数据模式，提供全景视角和个人视角的场景理解数据集，以模拟真实世界中的信息访问方式，并通过 5 个不同的场景理解任务对数据集进行了评估，希望为综合场景理解提供更广泛的范围和多元化视角。

Abstract

Human perception of the world is shaped by a multitude of viewpoints and modalities. While many existing datasets focus on scene understanding from a certain perspective (e.g. egocentric or third-person views), our dataset offers a →

multiple viewpoints multiple data modalities panoptic perspective scene understanding comprehensive observation

发现论文，激发创造

360 度广域：深度预测与视角合成数据集

本文介绍了一个大规模 360 度视频数据集，包含各种环境和上下文，以及相机的姿态和深度图，证明了该数据集在单一图像深度估计和视图合成两个主要任务中的相关性。

Jun, 2024

利用多模态球面图像进行单帧语义分割

本研究提出了一种基于 Transformer 的跨模态融合架构，用于弥合多模态融合与全景场景感知之间的差距，并使用失真感知模块来处理极端对象变形和全景失真，通过跨模态交互实现特征矫正和信息交换，最终将特征合并以传达双模态和三模态特征流的长程上下文，通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试，我们的技术在 Stanford2D3DS（RGB-HHA）上达到了 60.60% 的 mIoU 性能，Structured3D（RGB-D-N）上达到了 71.97% 的 mIoU 性能，Matterport3D（RGB-D）上达到了 35.92% 的 mIoU 性能。

Aug, 2023

跨媒体 - 3600：一款大规模多语言多模态评估数据集

本文提出了 Crossmodal-3600 数据集，其中包含 3600 张图片，涵盖了 36 种语言中所使用的地区，并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择，并在使用 XM3600 作为自动度量的黄金参考时，展示出与人工评估更高的相关性结果。

May, 2022

360Loc: 用于跨设备查询的全景视觉定位数据集和基准

360Loc 是首个基于可视定位的横跨设备视觉定位数据集和基准。通过结合 360° 图像和激光雷达数据生成全景真实 6DoF 姿态，360Loc 实现了 360° 视图映射，并通过虚拟相机方法为不同查询类型的视觉定位任务提供了公平比较性能的机会。研究结果表明，全景视觉定位在具有对称和重复结构的大规模场景中更加稳健。

Nov, 2023

Panonut360：用于全景视频的头部和眼球跟踪数据集

通过开发头部和眼部跟踪数据集，本研究揭示了在多个用户和视频的实验设置中，眼球注视相对视野下方固定位置的一致偏移现象，从而挑战了视野中心位置的注视注意力按照高斯分布递减的广泛假设，并提供了根据给定头部或眼部坐标和预生成的视频注视分布图集生成注视分布的脚本。

Mar, 2024

通过预测相机视角提高 3D 人体姿态估计的跨数据集泛化能力

本研究采用系统性研究来分析不同数据集之间多样性和偏差对模型泛化能力的影响，提出了一种同时预测相机视角和人体姿态的模型，取得了显著的跨数据集泛化性能提升。

Apr, 2020

DeepPanoContext: 全景三维场景理解，基于整体场景上下文图和基于关系的优化

本研究提出了一种基于全景图像的新颖的三维场景理解方法，通过设计基于图神经网络的上下文模型来预测物体之间的关系和房间布局，以及可微分的基于关系的优化模块来优化物体排列，实现对全景三维场景的理解，并制备了具有多样化房间布局和家具摆放的真实感合成数据集，在几何精度和目标布置方面优于现有方法。

Aug, 2021

多模式三维场景理解的最新进展：综合调研和评估

本文对多模态 3D 场景理解的最新进展进行了系统调查，介绍了各种多模态任务的背景和困难，分类了现有方法，并对它们的优势和限制进行了探索，提供了在几个基准数据集上的对比结果和深入分析，最后讨论了未解决的问题并提出未来研究的几个潜在方向。

Oct, 2023

PanoContext-Former：基于 Transformer 的全景场景理解

本文提出了一种使用深度先验的方法，从单个全景图中同时复原物体形状、定向边界框和三维房间布局，为了充分利用丰富的上下文信息，设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明，我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时，本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。

May, 2023

非中心全景室内数据集

首次提出了用于室内场景理解的非中心全景数据集，包含 2574 个 RGB 非中心全景图像，每个图像都有深度图和注释，以获取室内空间的布局和相机姿态。

Jan, 2024