Spatial Scaper:模拟和增强逼真室内声景用于声事件定位和检测的库
本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”(SELD)任务设置及其基准方法。使用卷积循环神经网络实现了基准方法,对含混响的数据集进行了评估。
May, 2019
该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置,该任务涉及同时分类已知的声音事件类别、检测其时间激活,并在其活动时估计其空间方向或位置。
Jun, 2020
本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者,使得该数据集更具挑战性。实验结果表明,定向干扰者对数据集有很大的影响。
Jun, 2021
该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测(SELD)网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元(GRU)之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。
Jan, 2024
本文提出了一种新方法,即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位,并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案,并探究了与距离估计相关的损失函数,实验结果表明,在不降低声音事件检测和定位准确性的情况下,可以进行三维声音事件检测、定位。
Mar, 2024
通过多通道对比学习框架(MC-SimCLR),本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示,MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。
Sep, 2023
本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了一个音频 - 视觉数据集,其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。
Jun, 2023
我们提出了 Spatial LibriSpeech,这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练,并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性,我们对四个空间音频任务进行模型训练,结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms,DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力,例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°,ACE 挑战中 T30 估计为 157.32ms。
Aug, 2023
本文提出了一种新的基于类别条件的声音事件定位和检测 (SELD) 模型,通过特征调制等方式,可以准确定位需要关注的类别,相较于现有模型,该模型在多种评价指标上的表现更为优异,尤其在干扰场景下的测试表现更好,可应用于实际场景中。
Mar, 2022
挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法,在虚拟环境中定位声源到具体位置,以克服数据不足的问题,特别是在事后定位中。通过音频变换器谱图方法,我们达到了 0.786 ± 0.0136 的 F1 得分。
Apr, 2024