RealImpact: 真实物体冲击声场数据集
我们提出了一个名为 Real Acoustic Fields(RAF)的新数据集,其中包含了从多种模态捕获的真实声场数据。该数据集包括了与多视图图像配对的高质量密集捕获的房间脉冲响应数据,以及声音发射器和听者的精确 6DoF 姿态跟踪数据。我们利用该数据集评估了现有的新视角声学合成和脉冲响应生成方法,并提出了用于增强它们在真实世界数据上表现的设置。我们还通过实验调查了将视觉数据(图像和深度)与神经声学场模型相结合的影响。此外,我们展示了一种简单的模拟 - 真实方法的有效性,即使用模拟数据进行预训练,并用稀疏的真实数据进行微调,从而显著改善了少样本学习方法。RAF 是第一个提供了密集捕获房间声学数据的数据集,对于从事音频和音频 - 视觉神经声学场建模技术的研究人员来说,它是一个理想的资源。我们的项目页面提供演示和数据集:https:// 此处 URL
Mar, 2024
现有 RIR 数据集要么不系统地变化室内物体的位置,要么由模拟的 RIR 构成。我们提供了 SoundCam,这是迄今为止最大的野外房间独特 RIR 数据集,包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音,涵盖不同房间(实验室、客厅和会议室)内的人员在不同位置,这些测量可以用于有趣的任务,如检测和识别人员以及跟踪其位置。
Nov, 2023
本文提出了一种基于物理驱动扩散模型的冲击声合成方法,该方法结合了视频内容和物理参数作为先验信息,从而可以高保真地合成出静音视频中的冲击声,并且能够灵活地进行声音编辑。
Mar, 2023
本文介绍了 EPIC-SOUNDS 数据集,该数据集包含 78.4k 个用于声音事件和行动识别的类别化段,以及 39.2k 个非类别化段。通过构建注释流程,该数据集具有时间标签和类标签,允许我们训练和评估两种状态最佳的音频识别模型,突出了仅音频标签的重要性以及当前模型识别声音行动的局限性。
Feb, 2023
通过结合声音和视觉信号与物理学知识,配备了摄像头和麦克风的机器人代理,使用三维虚拟环境研究多模式物体定位。通过生成大规模的数据集和开发一套根据模仿学习,强化学习和模块化计划进行分析,为解决这一挑战迈出了第一步。
Jul, 2022
本文提出了一种利用递归神经网络从无声视频中合成与物体相互作用产生的声音的算法,并且在 “真实或假的” 心理物理实验中证实了该模型产生的声音足够逼真,能够传达物质特性和物理相互作用的显著信息。
Dec, 2015
本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集,旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注,为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放,包含注释工具和评估基准源代码。
Mar, 2022
本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者,使得该数据集更具挑战性。实验结果表明,定向干扰者对数据集有很大的影响。
Jun, 2021
通过 DiVA-360 数据集,我们解决了高保真捕捉静态和动态场景形状和外观的算法挑战和缺乏大规模现实世界数据集的问题。该数据集包含 46 个动态场景、30 个静态场景和 95 个静态物体的图像帧和动态数据,使用 53 台 RGB 相机和 6 个麦克风采集。我们提供了详细的文本描述、前景 - 背景分割掩码、静态物体的类别特定的 3D 姿势对齐,以及用于比较的度量。
Jul, 2023