Nov, 2022

改进非目标域数据上嘈杂学生训练以提高自动语音识别能力

TL;DR本篇研究提出了一种数据选择策略(称为 LM Filter),目的是提高 Noisy Student Training 在自动语音识别中对非目标领域数据的表现。使用带和不带语言模型的假设,其 CER 差异用作过滤阈值,结果显示相比较没有数据过滤的基准表现,能够获得 10.4% 的显著提高。在 AISHELL-1 测试集中我们能够达到 3.31% 的 CER,代表了我们目前的最佳结果,而在监督的 1000 小时 AISHELL-2 数据集上,则能够达到 4.73% 的 CER,具有竞争性的表现。