Sep, 2023

通过数据增强、半监督学习和后对齐方法改善神经逆文本规范化的鲁棒性

TL;DR逆文本规范化(ITN)对于将口语形式转换为书面形式至关重要,尤其在自动语音识别(ASR)的背景下。虽然 ASR 的大多数下游任务依赖于书面形式,但 ASR 系统通常输出口语形式,这突出了在产品级 ASR 应用中稳健的 ITN 的必要性。虽然神经 ITN 方法已经显示出潜力,但它们在处理 ASR 生成的口语文本时仍然面临性能挑战。这些挑战源于训练数据和 ASR 生成文本之间的域外问题。为了解决这个问题,我们提出了一种直接训练方法,它利用 ASR 生成的书面或口语文本,并通过 ASR 语言环境仿真和半监督学习方法增强了大型语言模型,增加了数据对。此外,我们引入了一种后对齐方法来处理不可预测的错误,从而提高了 ITN 的可靠性。我们的实验表明,在各种 ASR 场景中,我们提出的方法显著改善了 ITN 的性能。