RealImpact: 真实物体冲击声场数据集

CVPRJun, 2023

RealImpact: 真实物体冲击声场数据集

RealImpact: A Dataset of Impact Sound Fields for Real Objects

Samuel Clarke, Ruohan Gao, Mason Wang, Mark Rau, Julia Xu...

TL;DR研究团队构建了一个大规模的现实物体撞击声音数据集（RealImpact），并使用该数据集作为参照标准来校准仿真模型与真实模型之间的差距，同时还证明了该数据集的可用性来测试声学和视听学习。

Abstract

Objects make unique sounds under different perturbations, environment conditions, and poses relative to the listener. While prior works have modeled impact sounds and sound propagation in simulation, we lack a st

impact sounds realimpact dataset simulation audio-visual learning acoustic

发现论文，激发创造

真实声场：一个音频 - 视觉房间声学数据集与基准

我们提出了一个名为 Real Acoustic Fields（RAF）的新数据集，其中包含了从多种模态捕获的真实声场数据。该数据集包括了与多视图图像配对的高质量密集捕获的房间脉冲响应数据，以及声音发射器和听者的精确 6DoF 姿态跟踪数据。我们利用该数据集评估了现有的新视角声学合成和脉冲响应生成方法，并提出了用于增强它们在真实世界数据上表现的设置。我们还通过实验调查了将视觉数据（图像和深度）与神经声学场模型相结合的影响。此外，我们展示了一种简单的模拟 - 真实方法的有效性，即使用模拟数据进行预训练，并用稀疏的真实数据进行微调，从而显著改善了少样本学习方法。RAF 是第一个提供了密集捕获房间声学数据的数据集，对于从事音频和音频 - 视觉神经声学场建模技术的研究人员来说，它是一个理想的资源。我们的项目页面提供演示和数据集：https:// 此处 URL

Mar, 2024

SoundCam: 利用室内声学定位人类的数据集

现有 RIR 数据集要么不系统地变化室内物体的位置，要么由模拟的 RIR 构成。我们提供了 SoundCam，这是迄今为止最大的野外房间独特 RIR 数据集，包括 5,000 个 10 通道真实世界房间冲激响应测量和 2,000 个 10 通道音乐录音，涵盖不同房间（实验室、客厅和会议室）内的人员在不同位置，这些测量可以用于有趣的任务，如检测和识别人员以及跟踪其位置。

Nov, 2023

基于物理学的扩散模型的视频冲击声合成

本文提出了一种基于物理驱动扩散模型的冲击声合成方法，该方法结合了视频内容和物理参数作为先验信息，从而可以高保真地合成出静音视频中的冲击声，并且能够灵活地进行声音编辑。

Mar, 2023

Epic-Sounds: 一个大规模的动作声音数据集

本文介绍了 EPIC-SOUNDS 数据集，该数据集包含 78.4k 个用于声音事件和行动识别的类别化段，以及 39.2k 个非类别化段。通过构建注释流程，该数据集具有时间标签和类标签，允许我们训练和评估两种状态最佳的音频识别模型，突出了仅音频标签的重要性以及当前模型识别声音行动的局限性。

Feb, 2023

通过异步音视频整合发现落下的物体

通过结合声音和视觉信号与物理学知识，配备了摄像头和麦克风的机器人代理，使用三维虚拟环境研究多模式物体定位。通过生成大规模的数据集和开发一套根据模仿学习，强化学习和模块化计划进行分析，为解决这一挑战迈出了第一步。

Jul, 2022

视觉指示音

本文提出了一种利用递归神经网络从无声视频中合成与物体相互作用产生的声音的算法，并且在 “真实或假的” 心理物理实验中证实了该模型产生的声音足够逼真，能够传达物质特性和物理相互作用的显著信息。

Dec, 2015

用于多视角三维重建的现实数据集

本文介绍了一种包含近千个三维对象模型及超过 84 万个现实世界的 RGB 和深度图像数据集，旨在填补现有研究中缺乏的三维多视图重建的真实数据基准。该数据集通过半自动方式实现相机位置与物体姿态的精准标注，为形状重建、物体姿态估计、形状检索等 3D 应用提供了可能。数据集已开放，包含注释工具和评估基准源代码。

Mar, 2022

具动态混响声场和方向干扰源的声音事件定位和检测数据集

本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者，使得该数据集更具挑战性。实验结果表明，定向干扰者对数据集有很大的影响。

Jun, 2021

随地聆听

通过 DiffRIR 的不同 iable RIR 渲染框架，使用场景的参数化模型，合成具有各种声音特征的新的听觉体验。

Jun, 2024

DiVA-360：沉浸式神经场景的动态视听数据集

通过 DiVA-360 数据集，我们解决了高保真捕捉静态和动态场景形状和外观的算法挑战和缺乏大规模现实世界数据集的问题。该数据集包含 46 个动态场景、30 个静态场景和 95 个静态物体的图像帧和动态数据，使用 53 台 RGB 相机和 6 个麦克风采集。我们提供了详细的文本描述、前景 - 背景分割掩码、静态物体的类别特定的 3D 姿势对齐，以及用于比较的度量。

Jul, 2023