该报告介绍了 DCASE2020 挑战赛 SELD 任务的数据集和评估设置,该任务涉及同时分类已知的声音事件类别、检测其时间激活,并在其活动时估计其空间方向或位置。
Jun, 2020
本文介绍了 DCASE2021 Sound Event Localization and Detection (SELD) 挑战任务的数据集和基线。新的数据集增加了定向干扰者,使得该数据集更具挑战性。实验结果表明,定向干扰者对数据集有很大的影响。
Jun, 2021
本文提出了一种新方法,即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位,并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案,并探究了与距离估计相关的损失函数,实验结果表明,在不降低声音事件检测和定位准确性的情况下,可以进行三维声音事件检测、定位。
Mar, 2024
本研究提出了一种卷积循环神经网络,用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动,并且避免了特征提取方面的任何限制。
Jun, 2018
SpatialScaper 是一种用于模拟和增强 SELD 数据的库,可以通过模拟虚拟房间的参数化放置(包括移动)前景和背景声源,从而训练出具有更好性能的鲁棒 SELD 模型。
Jan, 2024
本文提出了一种新的基于类别条件的声音事件定位和检测 (SELD) 模型,通过特征调制等方式,可以准确定位需要关注的类别,相较于现有模型,该模型在多种评价指标上的表现更为优异,尤其在干扰场景下的测试表现更好,可应用于实际场景中。
Mar, 2022
介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述,通过大规模实际场景的数据集进行训练,评估发现,基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。
Sep, 2020
该技术报告详细介绍了我们构建增强的音频 - 视觉声音事件定位和检测(SELD)网络的工作。我们在音频 - 视觉数据前对音频 - 专有网络的门控循环单元(GRU)之前合并音频和视频信息。我们的模型利用 YOLO 和 DETIC 目标检测器。我们还构建了一个实现音频 - 视觉数据增强和音频 - 视觉合成数据生成的框架。我们提供了超过现有音频 - 视觉 SELD 基线的音频 - 视觉 SELDnet 系统。
本文提出了一个音频 - 视频声音事件本地化和检测(SELD)任务,它使用多通道音频和视频信息来估计目标声音事件的时间激活和 DOA。音频 - 视觉 SELD 系统可以使用来自麦克风阵列和音频 - 视觉对应的信号来检测和定位声音事件,并介绍了一个音频 - 视觉数据集,其中包含了用于监测人员活动和声音事件发生的多通道音频数据记录。
Jun, 2023
本文提出基于神经网络的声音事件检测和定位方法,该方法训练得到的声音事件检测模型可以帮助到方位角的估计,同时也能够显著提高声音事件检测和方位角估计的性能。
May, 2019