Oct, 2022

四合一:联合逆文本规范化、标点、大写和表达不流畅对于自动语音识别的方法

TL;DR本文提出一种统一的自动语音转换为书写形式文本的方法,使用了一个两阶段的过程实现了逆文本规范化、标点符号、大写和不流畅的统一标注,然后使用权重有限状态转换器语法来格式化标注的 ITN 实体跨度。该方法在自然语言处理中的成果优于专门的模型。