Jan, 2023

基于数据驱动的语言无关反向文本规范化

TL;DR本研究提出了一种语言不可知的数据驱动反文本归一化框架,通过数据增强和神经机器翻译数据,填补了非英语标记语料库与自动语音识别模型转换到书写形式文本的方法的不足。实证评估表明,该模型有效地处理了低资源语言,同时保持了高资源语言的性能。