Apr, 2024

Conformer-1:通过大规模半监督引导实现鲁棒性自动语音识别

TL;DR本论文介绍了 Conformer-1,一种端到端的自动语音识别(ASR)模型,它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的,其中 91%是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签,我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率(WER)上分别提高了 11.5%和 24.3%。此外,由于添加了这些数据,该模型对背景噪声更具鲁棒性。本研究取得的结果表明,将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。