Jun, 2024

面向非流畅语音的包容性自动语音识别:级联大规模自监督学习与目标微调和数据增强

TL;DR自动语音识别系统通常在处理口吃相关的流畅性障碍时出现故障,而这些故障包括意愿性中断和单词重复,从而导致不准确的转录。我们提出了一种包容性的 ASR 设计方法,利用标准语音的大规模自我监督学习,然后通过对较小的策划语音数据集进行有针对性的微调和数据增强来解决此问题。我们的数据增强技术可以通过增加各种不流畅性来丰富训练数据集,增强对这些语音模式的 ASR 处理。结果表明,即使是对于一个相对较小的标记数据集,结合数据增强,通过微调 wav2vec 2.0 也可以显著降低不流畅语音的单词错误率。我们的方法不仅推动了面向口吃者的 ASR 包容性,而且为能够适应更广泛的语音变化的 ASR 铺平了道路。