使用 WASN 在室外环境中进行声音事件定位和分类
本文提出了基于深度学习的多声源定位算法,使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标,通过编码 - 解码结构和两个改进措施实现任务,并提出了两种新的定位表示方法,学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试,结果表明本方法改进了这一问题的基线方法。
Dec, 2020
本文提出了一种新颖的室内声源定位方法,使用麦克风阵列并基于卷积神经网络(CNN)进行,该方法采用原始音频信号作为输入信息直接估计声源的三维位置,避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调,该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法,并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。
Jul, 2018
本文提出使用从多通道音频中提取的低级空间特征进行声音事件检测,通过初始阶段从每个通道中单独学习这些多通道特征,扩展了卷积递归神经网络以处理更多类型的这些特征,并表明将特征呈现为体积的单独层,而不是将每个通道的特征串联成单个特征向量,可以更好地学习多通道音频中的声音事件。与单声道特征相比,在相同网络上使用所提出的空间特征,在公开可用的 TUT-SED 2016 数据集上的 F-score 提高了 6.1%,在 TUT-SED 2009 数据集上的 F-score 提高了 2.7%,该数据集是其 15 倍大。
Jun, 2017
本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下,对宽带声辐射噪声源(如机动船只)的源定位,通过使用 cepstrogram 和广义交叉相关图作为输入, 显示出更可靠的效果,同时证明了在海上实验中,相比传统的被动测距方法,其定位性能得到了改进。
Oct, 2017
本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法,并采用基于概率的编码以实现对任意数量声源的检测;此外,文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构,实验表明该方法优于传统的空间谱法。
Nov, 2017
挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法,在虚拟环境中定位声源到具体位置,以克服数据不足的问题,特别是在事后定位中。通过音频变换器谱图方法,我们达到了 0.786 ± 0.0136 的 F1 得分。
Apr, 2024
本文研究了声音传感器数据在城市环境中的利用潜力,提出了使用 Wigner-Ville 分布和卷积神经网络对声音数据进行分类的新方法,并在开源数据集上进行了性能测试。
Nov, 2022
本文介绍了 SoundDet 框架,该框架可用于多声移动声音事件检测和定位,通过神经网络,采用原始多通道波形,使用时间检测和空间定位两个并行的分支进行处理,最终在公共 DCASE 数据集上得到了很好的效果。
Jun, 2021
介绍了在 DCASE 2019 Challenge 中首次国际评估声音事件定位和检测的概述,通过大规模实际场景的数据集进行训练,评估发现,基于联合计算的共同测量参数对于比较检测和定位的系统排名更为准确。
Sep, 2020
本项研究提出一种基于双流网络的无监督算法,用于在视觉场景中定位声源,并针对该算法所存在的误差问题通过半监督学习进行修正,从而增强了算法的可靠性和泛化性。
Nov, 2019