Nov, 2023

D4AM:用于下游声学模型的通用去噪框架

TL;DR在嘈杂环境中,声学模型的性能明显下降。本研究提出了一种用于各种下游声学模型的通用降噪框架 D4AM,通过特定声学模型和相应的分类目标,用反向梯度调整语音增强模型并考虑回归目标作为辅助损失,该方法可以直接估计合适的权重系数,从而避免了额外的训练成本,并有效改善各种未知声学模型的性能。该框架在 Google ASR API 上进行实验,相对于直接使用嘈杂输入,取得了 24.65% 的相对 WER 降低,是首个实现回归和分类目标有效组合的通用预处理器适用于各种未知 ASR 系统的工作。