Dec, 2023

噪声环境中音频特征分析的LSTM-CNN网络

TL;DR通过使用长短时记忆卷积神经网络(LSTM-CNN),本研究针对有噪音环境下的每帧音频数据,提取时间和/或频率相关的声音特征,从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下,使用了19000个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明,在检测计数和性别方面,训练/验证均方误差(MSE)值约为0.019/0.017,显示出有希望的性能。