Aug, 2023

Spatial LibriSpeech:一个用于空间音频学习的增强数据集

TL;DR我们提出了 Spatial LibriSpeech,这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练,并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性,我们对四个空间音频任务进行模型训练,结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms,DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力,例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°,ACE 挑战中 T30 估计为 157.32ms。