Mar, 2024

低资源语音识别中使用最小增强语言模型进行初始解码以提高格栅再评分

TL;DR通过在低资源语言中使用栅格重采样来提高语音识别准确性的问题,本文通过最小限度地利用目标语言中大型文本语料库中存在但基线模型中缺失的单词一元计数来改进基线语言模型,从而生成更全面的栅格。我们的方法在泰卢固语和卡纳达语分别获得了 21.8% 和 41.8% 的相对词错误率降低,这个降低与使用全维基百科文本增强的语言模型解码所获得的 21.5%(泰卢固语)和 45.9%(卡纳达语)相对词错误率降低相当,而我们的方法仅消耗 1/8 的内存。我们证明了我们的方法与基于文本选择的语言模型增强方法相当,并且对于不同规模的数据集一致。我们的方法适用于在语音数据和计算资源不足的低资源条件下训练语音识别系统,并且目标语言中有大型文本语料库的情况。我们的研究涉及解决基线的未登录词问题,而不专注于解决命名实体的缺失问题。我们的方法简单且计算成本较低。