360+x: 一个全景多模态场景理解数据集
本文介绍了一个大规模 360 度视频数据集,包含各种环境和上下文,以及相机的姿态和深度图,证明了该数据集在单一图像深度估计和视图合成两个主要任务中的相关性。
Jun, 2024
本研究提出了一种基于 Transformer 的跨模态融合架构,用于弥合多模态融合与全景场景感知之间的差距,并使用失真感知模块来处理极端对象变形和全景失真,通过跨模态交互实现特征矫正和信息交换,最终将特征合并以传达双模态和三模态特征流的长程上下文,通过在三个室内全景数据集中四种不同模态类型的组合进行彻底测试,我们的技术在 Stanford2D3DS(RGB-HHA)上达到了 60.60% 的 mIoU 性能,Structured3D(RGB-D-N)上达到了 71.97% 的 mIoU 性能,Matterport3D(RGB-D)上达到了 35.92% 的 mIoU 性能。
Aug, 2023
本文提出了 Crossmodal-3600 数据集,其中包含 3600 张图片,涵盖了 36 种语言中所使用的地区,并使用人工参考标题对其进行了注释。该数据集被应用于大规模多语言图片字幕模型的选择,并在使用 XM3600 作为自动度量的黄金参考时,展示出与人工评估更高的相关性结果。
May, 2022
360Loc 是首个基于可视定位的横跨设备视觉定位数据集和基准。通过结合 360° 图像和激光雷达数据生成全景真实 6DoF 姿态,360Loc 实现了 360° 视图映射,并通过虚拟相机方法为不同查询类型的视觉定位任务提供了公平比较性能的机会。研究结果表明,全景视觉定位在具有对称和重复结构的大规模场景中更加稳健。
Nov, 2023
通过开发头部和眼部跟踪数据集,本研究揭示了在多个用户和视频的实验设置中,眼球注视相对视野下方固定位置的一致偏移现象,从而挑战了视野中心位置的注视注意力按照高斯分布递减的广泛假设,并提供了根据给定头部或眼部坐标和预生成的视频注视分布图集生成注视分布的脚本。
Mar, 2024
本研究采用系统性研究来分析不同数据集之间多样性和偏差对模型泛化能力的影响,提出了一种同时预测相机视角和人体姿态的模型,取得了显著的跨数据集泛化性能提升。
Apr, 2020
本研究提出了一种基于全景图像的新颖的三维场景理解方法,通过设计基于图神经网络的上下文模型来预测物体之间的关系和房间布局,以及可微分的基于关系的优化模块来优化物体排列,实现对全景三维场景的理解, 并制备了具有多样化房间布局和家具摆放的真实感合成数据集,在几何精度和目标布置方面优于现有方法。
Aug, 2021
本文对多模态 3D 场景理解的最新进展进行了系统调查,介绍了各种多模态任务的背景和困难,分类了现有方法,并对它们的优势和限制进行了探索,提供了在几个基准数据集上的对比结果和深入分析,最后讨论了未解决的问题并提出未来研究的几个潜在方向。
Oct, 2023
本文提出了一种使用深度先验的方法,从单个全景图中同时复原物体形状、定向边界框和三维房间布局,为了充分利用丰富的上下文信息,设计了一个基于 transformer 的上下文模块来预测场景各组成部分之间的表示和关系。实验表明,我们的方法在布局估计和三维物体检测方面优于先前的全景场景理解方法。同时,本文还引入了一个包括照片逼真的全景图、高保真深度图、精确注释的房间布局和定向物体边界框和形状的真实世界数据集。
May, 2023