Jun, 2023

音频频谱变换器中基于频率归一化的录音设备通用性改进

TL;DR本文针对机器学习中训练和应用时间所见数据差异这一主要问题,研究了声场分类中不匹配的录音设备情况。我们发现,通过频率方面的规范化进行输入和卷积神经网络中隐藏层激活的处理,可以减少记录设备之间的差异。本文的主要目标是将这种方法应用于成为声场分类主流模型的音频谱图转换器上,并且针对该模型考察了不同的录音设备特征如何被编码到隐藏层激活中。基于这个观察,我们推断出对输入谱图进行抑制可达到最有效的去除记录设备特征的效果。我们提出了一种频率居中的谱图操作,平均提高了未经训练的录音设备上的ASC性能达18.2个百分点。