FSVVD: 一个全场景体积视频数据集
我们提出了一个新的多模态数据库来帮助推进沉浸技术的发展,该数据库提供了符合道德规范并且多样化的体积数据,可以支持面部表情识别等扩展现实算法的评估和性能测试。
Feb, 2024
使用 Deep 3D Mask Volume 算法,基于自定义的 10 相机固定拍摄装置拍摄的 96 个高质量场景的多视角视频数据集,解决了动态场景视频视野合成中存在的一些挑战,实现了从静态相机拍摄的双目视频中的视角扩展,具有比逐帧静态视点合成方法或使用 2D 遮罩的方法更好的时间稳定性和较少的闪烁伪影,且允许更大的平移运动。
Aug, 2021
通过 DiVA-360 数据集,我们解决了高保真捕捉静态和动态场景形状和外观的算法挑战和缺乏大规模现实世界数据集的问题。该数据集包含 46 个动态场景、30 个静态场景和 95 个静态物体的图像帧和动态数据,使用 53 台 RGB 相机和 6 个麦克风采集。我们提供了详细的文本描述、前景 - 背景分割掩码、静态物体的类别特定的 3D 姿势对齐,以及用于比较的度量。
Jul, 2023
HUMAN4D 是一种多模态体积数据集,提供了关于人类日常、物理和社交活动的各种姿势和动作的数据,同时提供多 RGBD、音频和音量数据。该数据集的介绍旨在推动计算机视觉和图形研究社区对空间和时间对齐的姿势、音量、mRGBD 和音频数据线索的联合研究,同时提供了人类姿势估计和三维压缩等方面的评估基线。
Oct, 2021
本文提出了一种结合时间体积融合和深度隐式函数的人体体积捕捉方法,该方法不仅可以实现高质量、连续的重建,而且可以生成包含几何细节和更加逼真的纹理结果的细节保留深度隐式函数,实验结果表明,该方法在稀疏视角、泛化能力、重建质量和运行效率方面优于现有方法。
May, 2021
EasyVolcap 是一个加速神经体积视频研究的 Python 和 PyTorch 库,旨在统一多视角数据处理、4D 场景重建和高效动态体积视频渲染的过程。
Dec, 2023
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
提出了一个大规模的全景三维多目标检测和跟踪数据集(H3D),包括 160 个高度互动的交通场景,总共 27,721 帧并提供对应的数据标注;作者还提出了标注方法来加速标注过程并为全方位三维多目标检测和跟踪算法创建基准测试。最终,讨论了算法以及未来研究中可能出现的错误来源。
Mar, 2019
介绍 Visual Experience Dataset(VEDB):一个由超过 240 小时的自我感知视频结合注视和头部追踪数据组成的数据集,提供了人类观察者在视觉世界中的前所未有的体验。该数据集包含 717 个会话,由 58 名 6-49 岁的观察者记录。介绍数据收集、处理和标记协议,讨论数据集内潜在的错误或偏差来源。VEDB 的应用潜力广泛,包括改进注视追踪方法、评估时空图像统计数据以及优化场景和活动识别的深度神经网络。VEDB 可以通过已建立的开放科学平台访问,旨在成为一个持续更新的数据集,并鼓励社区贡献。数据集强调了参与者隐私和减轻潜在偏差等伦理考虑。通过提供基于真实世界经验的数据集,并附有丰富的元数据和支持代码,作者邀请研究社区利用和贡献 VEDB,以促进对自然环境中视觉感知和行为的更深入理解。
Feb, 2024
提出使用一台 RGBD 相机综合已获取的图像数据生成自由视角视频的方法。该方法通过半参数模型结合深度神经网络的技术实现 4D 表演捕捉,从而为 AR / VR 内容生成提供高逼真度的渲染效果。
May, 2019