Apr, 2024

麦霍马乌纳伊卡艾:语言模型在夏威夷语自动语音识别中的改进

TL;DR改善低资源语言夏威夷语的自动语音识别(ASR)的挑战,通过将大量独立文本数据整合到 Whisper 基础模型中,我们采用约 1.5M 字的夏威夷文本数据训练了外部语言模型(LM)。然后,我们使用该语言模型对 Whisper 进行评分,并计算标记的夏威夷数据测试集的词错误率(WER)。实验结果显示,在用夏威夷语言模型重新评分 ASR 输出时,WER 有小幅但显著的改善。结果支持在开发代表性语言的 ASR 系统时利用所有可用数据。