Jan, 2024

XLS-R 深度学习模型在资源有限语言:印尼语、爪哇语和巽他语中的多语言 ASR 上应用

TL;DR该研究论文侧重于开发和评估使用 XLS-R 300m 模型的自动语音识别 (ASR) 技术。该研究旨在提高 ASR 在将口语转化为书面文本方面的性能,尤其是印度尼西亚语、爪哇语和日惹语。该论文讨论了测试程序、使用的数据集以及训练和评估 ASR 系统中采用的方法。结果显示,XLS-R 300m 模型在 Word Error Rate (WER) 方面取得了有竞争力的度量结果,但在日惹语和日惹语上性能略有一些妥协。5-gram KenLM 语言模型的整合显著降低了 WER 并提高了 ASR 的准确性。该研究通过解决语言多样性问题,提高了 ASR 技术的发展,并为不同语言的性能优化提供了见解。