利用深度学习的阶段麦克风阵列进行声源定位

Feb, 2018

利用深度学习的阶段麦克风阵列进行声源定位

Phased Microphone Array for Sound Source Localization with Deep Learning

Wei Ma, Xun Liu

TL;DR本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Abstract

To phased microphone array for sound source localization, algorithm with both high computational efficiency and high precision is a persistent pursuit. In this paper →

phased microphone array sound source localization convolutional neural network spatial resolution cross-spectral matrix

发现论文，激发创造

基于深度学习的端到端声学定位：从音频信号到源位置坐标

本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Jul, 2018

使用卷积神经网络在多径环境中进行声源定位

本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下，对宽带声辐射噪声源（如机动船只）的源定位，通过使用 cepstrogram 和广义交叉相关图作为输入，显示出更可靠的效果，同时证明了在海上实验中，相比传统的被动测距方法，其定位性能得到了改进。

Oct, 2017

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017

从原始波形开始的端到端双耳声音定位

本研究提出了一种新方法，采用卷积神经网络从声波波形中直接估计声源的方位，利用一组特定的卷积核搜索局部化线索，我们的实验表明该方法能够在多种情境下提高声音定位精度。

Apr, 2019

利用卷积神经网络和噪声信号训练进行宽带 DOA 估计

采用卷积神经网络（CNN）的分类方法进行宽带 DOA 估计，其中利用接收到的麦克风信号的短时傅里叶变换系数的相位部分直接输入 CNN，并在训练期间学习 DOA 估计所需的特征。

May, 2017

用于位置声源定位的双输入神经网络

在信号处理应用中，元数据可以与高维信号结合使用以产生所需的输出。我们引入了双输入神经网络（DI-NNs）作为一种简单有效的方法，用于在神经网络中对这两种数据类型进行建模，并在各种难度和真实性的情景中对其进行训练和评估，并与替代架构以及经典最小二乘（LS）方法和经典卷积递归神经网络（CRNN）进行比较。我们的结果表明，在真实录音的测试数据集中，DI-NN 比 LS 方法低五倍定位误差，比 CRNN 低两倍。

Aug, 2023

卷积循环神经网络多声源到达方向估计

本文提出了一种深度神经网络，用于估算多个声源的到达方向，并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明，该网络能够以高精度估算多个同时存在源的数量和各自的到达方向，并生成具有高信噪比的空间伪频谱。

Oct, 2017

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

基于两阶段神经网络的声场分解

提出了一种基于神经网络的声场分解方法，包括声场分离阶段和单源定位阶段，通过将多个源合成的麦克风上的声压分离为每个声源对应的激发声压，在单源定位阶段中，通过对单一声源的麦克风上的声压进行回归来获取源位置，由于第二阶段是回归而不是分类，因此估计的位置不受离散化的影响。使用 Green's 函数进行模拟生成数据集，每个频率都训练神经网络。数值实验表明，与传统方法相比，所提出的方法可以实现更高的源定位精度和更高的声场重建精度。

Sep, 2023