多声部声音事件定位和检测的序列匹配网络

Feb, 2020

多声部声音事件定位和检测的序列匹配网络

A Sequence Matching Network for Polyphonic Sound Event Localization and Detection

Thi Ngoc Tho Nguyen, Douglas L. Jones, Woon-Seng Gan

TL;DR提出一种模块化和分层的方法，将声音事件检测和到达方向估计的学习分离开来，在利用神经网络匹配这两个输出序列的基础上，实现了对整个声事件定位和检测系统性能的提升。

Abstract

polyphonic sound event detection and direction-of-arrival estimation require different input features from audio signals. While

polyphonic sound event detection direction-of-arrival estimation neural network dcase

发现论文，激发创造

基于事件无关网络的多声音事件定位和检测

该论文提出了一种新颖的用于多声事件定位和检测的独立于事件的网络，其输入为 FOA 时域信号，包括声音事件的检测与方位角估计，使用卷积层和并行的分支进行预测，结果表明其相对于基线方法在任务 3 数据集上的表现有很大提升。

Sep, 2020

使用两阶段策略的多音色声音事件检测和定位

本文提出基于神经网络的声音事件检测和定位方法，该方法训练得到的声音事件检测模型可以帮助到方位角的估计，同时也能够显著提高声音事件检测和方位角估计的性能。

May, 2019

从原始波形中检测和定位多音移动声音事件的声音检测器 (SoundDet)

本文介绍了 SoundDet 框架，该框架可用于多声移动声音事件检测和定位，通过神经网络，采用原始多通道波形，使用时间检测和空间定位两个并行的分支进行处理，最终在公共 DCASE 数据集上得到了很好的效果。

Jun, 2021

使用卷积循环神经网络进行声音事件定位和重叠源检测

本研究提出了一种卷积循环神经网络，用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动，并且避免了特征提取方面的任何限制。

Jun, 2018

DCASE 2019 中声音事件定位和检测的概述和评估

介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述，通过大规模实际场景的数据集进行训练，评估发现，基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。

Sep, 2020

卷积循环神经网络多声源到达方向估计

本文提出了一种深度神经网络，用于估算多个声源的到达方向，并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明，该网络能够以高精度估算多个同时存在源的数量和各自的到达方向，并生成具有高信噪比的空间伪频谱。

Oct, 2017

双模态 seq2seq 网络用于音频 - 视觉事件定位

本文介绍了一种名为 AVSDN 的深度神经网络，通过联合考虑每个时间段的音频和视觉特征作为输入，以序列到序列的方式学习全局和局部事件信息，在完全监督或弱监督设置下获得了良好的结果，并在音频视觉事件定位方面优于最近的深度学习方法。

Feb, 2019

声音事件检测和定位与距离估计

本文提出了一种新方法，即将声音事件检测与定位拓展到包含距离估计的三维声音事件检测、定位，并通过多任务和单任务两种方法研究了在 AM 型和双耳型 STARSS23 背景下的实现方案，并探究了与距离估计相关的损失函数，实验结果表明，在不降低声音事件检测和定位准确性的情况下，可以进行三维声音事件检测、定位。

Mar, 2024

ACCDOA：面向声音事件定位和检测的活动相连的笛卡尔方位角表示法

本文提出了一种基于活动耦合笛卡尔方向角 (ACCDOA) 表示法，将声学事件的活动分配到相应的笛卡尔方向角矢量的长度中，以解决单目标 SELD 任务的平衡问题以及模型大小增加的问题，并使用 DCASE2020 Task 3 数据集进行实验，结果表明，该方法在模型尺寸更小的情况下显著优于传统的双分支表示法的 SELD 性能，且相对于现有的 SELD 系统在定位和位置相关检测方面表现更好.

Oct, 2020

利用空间特征和卷积循环神经网络进行声音事件检测

本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测，通过初始阶段从每个通道中单独学习这些多通道特征，扩展了卷积递归神经网络以处理更多类型的这些特征，并表明将特征呈现为体积的单独层，而不是将每个通道的特征串联成单个特征向量，可以更好地学习多通道音频中的声音事件。与单声道特征相比，在相同网络上使用所提出的空间特征，在公开可用的 TUT-SED 2016 数据集上的 F-score 提高了 6.1％，在 TUT-SED 2009 数据集上的 F-score 提高了 2.7％，该数据集是其 15 倍大。

Jun, 2017