声音事件定位和检测的多房混响数据集

May, 2019

声音事件定位和检测的多房混响数据集

A multi-room reverberant dataset for sound event localization and detection

Sharath Adavanne, Archontis Politis, Tuomas Virtanen

TL;DR本文介绍了用于 DCASE2019 挑战赛的 “声音事件定位与检测”（SELD）任务设置及其基准方法。使用卷积循环神经网络实现了基准方法，对含混响的数据集进行了评估。

Abstract

This paper presents the sound event localization and detection (SELD) task setup for the DCASE 2019 challenge. The goal of the seld task i

sound event localization detection seld task convolutional recurrent neural network reverberant dataset

发现论文，激发创造

具有移动源的混响空间声音场景数据集用于声音事件定位和检测

该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置，该任务涉及同时分类已知的声音事件类别、检测其时间激活，并在其活动时估计其空间方向或位置。

Jun, 2020

具动态混响声场和方向干扰源的声音事件定位和检测数据集

本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者，使得该数据集更具挑战性。实验结果表明，定向干扰者对数据集有很大的影响。

Jun, 2021

声音事件检测和定位与距离估计

本文提出了一种新方法，即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位，并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案，并探究了与距离估计相关的损失函数，实验结果表明，在不降低声音事件检测和定位准确性的情况下，可以进行三维声音事件检测、定位。

Mar, 2024

使用卷积循环神经网络进行声音事件定位和重叠源检测

本研究提出了一种卷积循环神经网络，用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动，并且避免了特征提取方面的任何限制。

Jun, 2018

Spatial Scaper：模拟和增强逼真室内声景用于声事件定位和检测的库

SpatialScaper 是一种用于模拟和增强 SELD 数据的库，可以通过模拟虚拟房间的参数化放置（包括移动）前景和背景声源，从而训练出具有更好性能的鲁棒 SELD 模型。

Jan, 2024

定位该声音事件，而非其他：以类别为条件的声事件方向估计

本文提出了一种新的基于类别条件的声音事件定位和检测 (SELD) 模型，通过特征调制等方式，可以准确定位需要关注的类别，相较于现有模型，该模型在多种评价指标上的表现更为优异，尤其在干扰场景下的测试表现更好，可应用于实际场景中。

Mar, 2022

DCASE 2019 中声音事件定位和检测的概述和评估

介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述，通过大规模实际场景的数据集进行训练，评估发现，基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。

Sep, 2020

增强的 360 度实际音频 - 视觉声景中的声音事件定位和检测

该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测（SELD）网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元（GRU）之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。

Jan, 2024

STARSS23: 具有声音事件的时空注释的真实场景空间录音的音频 - 视觉数据集

本文提出了一个音频 - 视频声音事件本地化和检测（SELD）任务，它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件，并介绍了一个音频 - 视觉数据集，其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。

Jun, 2023

使用两阶段策略的多音色声音事件检测和定位

本文提出基于神经网络的声音事件检测和定位方法，该方法训练得到的声音事件检测模型可以帮助到方位角的估计，同时也能够显著提高声音事件检测和方位角估计的性能。

May, 2019