利用 SRP-PHAT 和 3D 卷积神经网络实现的鲁棒声源跟踪

Jun, 2020

利用 SRP-PHAT 和 3D 卷积神经网络实现的鲁棒声源跟踪

Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural Networks

David Diaz-Guerra, Antonio Miguel, Jose R. Beltran

TL;DR本文基于 SRP-PHAT 算法和三维卷积神经网络，提出了一种基于单声源的 DOA 估计和跟踪系统，具有较好的实时性和对高混响环境的鲁棒性。

Abstract

In this paper, we present a new single sound source doa estimation and tracking system based on the well-known srp-phat algorithm and a three-dimensional →

doa estimation srp-phat algorithm convolutional neural network reverberation real-time applications

发现论文，激发创造

卷积循环神经网络多声源到达方向估计

本文提出了一种深度神经网络，用于估算多个声源的到达方向，并通过使用所有通道的频谱图的幅度和相位作为输入来避免任何显式特征提取步骤。结论表明，该网络能够以高精度估算多个同时存在源的数量和各自的到达方向，并生成具有高信噪比的空间伪频谱。

Oct, 2017

基于深度学习的端到端声学定位：从音频信号到源位置坐标

本文提出了一种新颖的室内声源定位方法，使用麦克风阵列并基于卷积神经网络（CNN）进行，该方法采用原始音频信号作为输入信息直接估计声源的三维位置，避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调，该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法，并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。

Jul, 2018

利用卷积神经网络和噪声信号训练进行宽带 DOA 估计

采用卷积神经网络（CNN）的分类方法进行宽带 DOA 估计，其中利用接收到的麦克风信号的短时傅里叶变换系数的相位部分直接输入 CNN，并在训练期间学习 DOA 估计所需的特征。

May, 2017

使用卷积神经网络在多径环境中进行声源定位

本文提出使用卷积神经网络 (CNNs) 在浅水复途径环境下，对宽带声辐射噪声源（如机动船只）的源定位，通过使用 cepstrogram 和广义交叉相关图作为输入，显示出更可靠的效果，同时证明了在海上实验中，相比传统的被动测距方法，其定位性能得到了改进。

Oct, 2017

使用卷积循环神经网络进行声音事件定位和重叠源检测

本研究提出了一种卷积循环神经网络，用于在三维空间中联合定位和检测多个重叠声音事件。该方法能够有效地估计声音事件的位置和检测每个时间帧中所有声音事件类的活动，并且避免了特征提取方面的任何限制。

Jun, 2018

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023

利用深度学习的阶段麦克风阵列进行声源定位

本研究采用了卷积神经网络作为一种高效且具有高精度的算法，通过对交叉谱矩阵的直接分析寻找声源分布，从而在高频下以很短的时间内实现与传统波束成形相同精度的声源定位。

Feb, 2018

使用全秩空间协方差模型进行欠定混响音源分离

本文研究了如何在没有足够的先验信息的情况下对反射混响录音环境的盲信号分离进行建模，提出了四种特定的协方差模型，并提出了一系列的迭代 EM 算法来估计每个模型的参数，并提出了合适的程序来初始化参数并根据它们的 DOA 在所有频率桶中对估计的源的顺序进行对齐。实验结果表明了所提方法的有效性。

Dec, 2009

深度神经网络用于多说话者检测和定位

本文提出了一种使用神经网络在人机交互中同时检测和定位多个声源的方法，并采用基于概率的编码以实现对任意数量声源的检测；此外，文章探讨了基于子带交叉相关信息的特征及三种不同基于不同动机的网络架构，实验表明该方法优于传统的空间谱法。

Nov, 2017

双耳角度分离网络

我们提出了一个神经网络模型，可以使用两个麦克风在不同的角度区域将目标语音源与干扰源分离。该模型使用模拟的室内脉冲响应进行训练，无需收集真实的脉冲响应。通过依赖特定的角度区域和多个房间模拟，该模型利用一致的到达时间差（TDOA）线索，或者我们称之为延迟对比，将目标和干扰源分离，同时在各种混响环境中保持稳健性。我们展示了该模型不仅适用于具有稍微不同麦克风几何结构的商用设备，而且优于我们之前使用同一设备上的一个额外麦克风的工作。该模型在设备上实时运行，适用于低延迟的流媒体应用，如电话和视频会议。

Jan, 2024