基于深度学习的端到端声学定位：从音频信号到源位置坐标

Jul, 2018

基于深度学习的端到端声学定位：从音频信号到源位置坐标

Towards End-to-End Acoustic Localization using Deep Learning: from Audio Signal to Source Position Coordinates

Juan Manuel Vera-Diaz, Daniel Pizarro, Javier Macias-Guarasa

TL;DR本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Abstract

This paper presents a novel approach for indoor acoustic source localization using microphone arrays and based on a convolutional neural network<

indoor acoustic source localization microphone arrays convolutional neural network training strategy semi-synthetic data

发现论文，激发创造

利用深度学习的阶段麦克风阵列进行声源定位

本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Feb, 2018

使用卷积神经网络在多径环境中进行声源定位

本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下，对宽带声辐射噪声源（如机动船只）的源定位，通过使用 cepstrogram 和广义交叉相关图作为输入，显示出更可靠的效果，同时证明了在海上实验中，相比传统的被动测距方法，其定位性能得到了改进。

Oct, 2017

多音源二维定位学习

本文提出了基于深度学习的多声源定位算法，使用多个麦克风阵列找到封闭环境中多个声源的二维笛卡尔坐标，通过编码 - 解码结构和两个改进措施实现任务，并提出了两种新的定位表示方法，学习了新指标以实现分辨率基础上的多源关联和对比不同方法的评估。作者对合成和真实数据进行了测试，结果表明本方法改进了这一问题的基线方法。

Dec, 2020

从原始波形开始的端到端双耳声音定位

本研究提出了一种新方法，采用卷积神经网络从声波波形中直接估计声源的方位，利用一组特定的卷积核搜索局部化线索，我们的实验表明该方法能够在多种情境下提高声音定位精度。

Apr, 2019

使用噪声训练的卷积神经网络多说话人定位

使用卷积神经网络原理，对多说话人的来源定位问题提出了一种基于合成噪声信号训练 CNN 的新方法，并进行了与其它方法的比较。

Dec, 2017

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017

利用 SRP-PHAT 和 3D 卷积神经网络实现的鲁棒声源跟踪

本文基于 SRP-PHAT 算法和三维卷积神经网络，提出了一种基于单声源的 DOA 估计和跟踪系统，具有较好的实时性和对高混响环境的鲁棒性。

Jun, 2020

用于位置声源定位的双输入神经网络

在信号处理应用中，元数据可以与高维信号结合使用以产生所需的输出。我们引入了双输入神经网络（DI-NNs）作为一种简单有效的方法，用于在神经网络中对这两种数据类型进行建模，并在各种难度和真实性的情景中对其进行训练和评估，并与替代架构以及经典最小二乘（LS）方法和经典卷积递归神经网络（CRNN）进行比较。我们的结果表明，在真实录音的测试数据集中，DI-NN 比 LS 方法低五倍定位误差，比 CRNN 低两倍。

Aug, 2023

通过概率空间建模的自监督神经音频视觉声源定位

该论文介绍了一种利用 360 度图像和多通道音频信号的自监督训练方法来训练深度神经网络以区分多个声源对象的系统，旨在解决自主机器人理解周围环境的问题。

Jul, 2020

虚拟环境中的声源定位的音频模拟

挑战性且相关的问题是在信号受限环境中实现非直视定位。本研究利用物理基础声波传播模拟和机器学习方法，在虚拟环境中定位声源到具体位置，以克服数据不足的问题，特别是在事后定位中。通过音频变换器谱图方法，我们达到了 0.786 ± 0.0136 的 F1 得分。

Apr, 2024