Spatial Scaper：模拟和增强逼真室内声景用于声事件定位和检测的库

Jan, 2024

Spatial Scaper：模拟和增强逼真室内声景用于声事件定位和检测的库

Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound Event Localization and Detection in Realistic Rooms

PDF

Iran R. Roman, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian McFee...

TL;DRSpatialScaper 是一种用于模拟和增强 SELD 数据的库，可以通过模拟虚拟房间的参数化放置（包括移动）前景和背景声源，从而训练出具有更好性能的鲁棒 SELD 模型。

Abstract

sound event localization and detection (seld) is an important task in machine listening. Major advancements rely on simulated data with sound events in specific rooms and strong spatio-temporal labels.

sound event localization and detection seld spatialscaper data simulation acoustic diversity

发现论文，激发创造

声音事件定位和检测的多房混响数据集

本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”（SELD）任务设置及其基准方法。使用卷积循环神经网络实现了基准方法，对含混响的数据集进行了评估。

May, 2019

具有移动源的混响空间声音场景数据集用于声音事件定位和检测

该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置，该任务涉及同时分类已知的声音事件类别、检测其时间激活，并在其活动时估计其空间方向或位置。

Jun, 2020

具动态混响声场和方向干扰源的声音事件定位和检测数据集

本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者，使得该数据集更具挑战性。实验结果表明，定向干扰者对数据集有很大的影响。

Jun, 2021

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测（SELD）网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元（GRU）之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。

Jan, 2024

声音事件检测和定位与距离估计

本文提出了一种新方法，即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位，并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案，并探究了与距离估计相关的损失函数，实验结果表明，在不降低声音事件检测和定位准确性的情况下，可以进行三维声音事件检测、定位。

Mar, 2024

自监督对比学习中的空间声音事件表征探索

通过多通道对比学习框架（MC-SimCLR），本研究展示了一个简单的方法来对空间音频的 'what' 和 'where' 进行编码。通过从无标签的空间音频中学习联合的频谱和空间表示，MC-SimCLR 能够在事件分类和声音定位等下游任务中提高效果。

Sep, 2023

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

Spatial LibriSpeech：一个用于空间音频学习的增强数据集

我们提出了 Spatial LibriSpeech，这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练，并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性，我们对四个空间音频任务进行模型训练，结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms，DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力，例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°，ACE 挑战中 T30 估计为 157.32ms。

Aug, 2023

定位该声音事件，而非其他：以类别为条件的声事件方向估计

本文提出了一种新的基于类别条件的声音事件定位和检测 (SELD) 模型，通过特征调制等方式，可以准确定位需要关注的类别，相较于现有模型，该模型在多种评价指标上的表现更为优异，尤其在干扰场景下的测试表现更好，可应用于实际场景中。

Mar, 2022

虚拟环境中的声源定位的音频模拟

挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法，在虚拟环境中定位声源到具体位置，以克服数据不足的问题，特别是在事后定位中。通过音频变换器谱图方法，我们达到了 0.786 ± 0.0136 的 F1 得分。

Apr, 2024