Feb, 2021

利用预训练语言模型生成人类可读的自动语音识别转录

TL;DR本文提出了一个自动语音识别后处理模型,旨在将不正确和嘈杂的 ASR 输出转换为可读的文本,并使用元数据提取语料库构建了一种任务特定的数据集,并使用两阶段训练策略来微调 RoBERTa 预训练模型。在测试集上,我们的模型在可读性感知 WER(RA-WER)上比基线模型提高了 13.26%,在 BLEU 度量上提高了 17.53%。人类评估还证明我们的方法可以生成比基线更易读的转录本。