Sep, 2023

引入噪声稳健性到预训练自动语音识别

TL;DR提出了一种新的方法,即 Cleancoder 预处理架构,从 Conformer ASR 模型中提取隐藏激活,并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图,我们证明 Cleancoder 可以滤除语音中的噪声,从而改善了下游模型在嘈杂环境中的总词错误率(WER)。