Oct, 2023

通过有效的文本数据利用和潜在合成提高端到端语音处理效果

TL;DR通过训练一个转换文本数据的潜在合成器,我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn),用于 E2E 语音处理模型。在低资源自动语音识别(ASR)和口语理解(SLU)任务中,LaSyn 通过为模型训练提供了伪声学表示的文本数据,分别在不同测试集上使 E2E 基线的词错误率降低了 22.3% 以上,并提高了意图分类准确率 4.1% 和槽位填充准确率 3.8%,在 STOP 上分别提高了 4.49% 和 2.25% 的准确率。同时,LaSyn 使用更少的参数,取得了与现有最先进作品相媲美的结果,证明了增强训练数据的质量。