Jul, 2018

基于深度学习的端到端声学定位:从音频信号到源位置坐标

TL;DR本文提出了一种新颖的室内声源定位方法,使用麦克风阵列并基于卷积神经网络(CNN)进行,该方法采用原始音频信号作为输入信息直接估计声源的三维位置,避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调,该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法,并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。