XLS-R 深度学习模型在资源有限语言：印尼语、爪哇语和巽他语中的多语言 ASR 上应用

Jan, 2024

XLS-R 深度学习模型在资源有限语言：印尼语、爪哇语和巽他语中的多语言 ASR 上应用

XLS-R Deep Learning Model for Multilingual ASR on Low- Resource Languages: Indonesian, Javanese, and Sundanese

Panji Arisaputra, Alif Tri Handoyo, Amalia Zahra

TL;DR该研究论文侧重于开发和评估使用 XLS-R 300m 模型的自动语音识别 (ASR) 技术。该研究旨在提高 ASR 在将口语转化为书面文本方面的性能，尤其是印度尼西亚语、爪哇语和日惹语。该论文讨论了测试程序、使用的数据集以及训练和评估 ASR 系统中采用的方法。结果显示，XLS-R 300m 模型在 Word Error Rate (WER) 方面取得了有竞争力的度量结果，但在日惹语和日惹语上性能略有一些妥协。5-gram KenLM 语言模型的整合显著降低了 WER 并提高了 ASR 的准确性。该研究通过解决语言多样性问题，提高了 ASR 技术的发展，并为不同语言的性能优化提供了见解。

Abstract

This research paper focuses on the development and evaluation of Automatic Speech Recognition (ASR) technology using the xls-r 300m model. The study aims to improve ASR performance in converting spoken language into written text, specifically for Indonesian, Javanese, and Sundanese lan

automatic speech recognition asr technology xls-r 300m model word error rate linguistic diversity

发现论文，激发创造

使用 XLSR-53 的印尼语自动语音识别

本研究基于 XLSR-53 预训练模型开发了印尼自动语音识别（ASR）系统，使用该模型能显著减少所需的非英语语言训练数据以达到竞争性的词错误率。研究使用了总计 24 小时、18 分钟、1 秒的数据，通过使用语言模型可以将词错误率从 20％降低到 12％。这些研究结果对于创造更好的印尼 ASR 系统并减少数据量方面进行了完善。

Aug, 2023

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了 XLS-R，这是一个基于 Wav2vec 2.0 的用于跨语言语音表示学习的大规模模型，其在 128 种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

大规模多语言自动语音识别：50 种语言，1 个模型，10 亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的 ASR 模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9％、23％和 28.8％。据我们所知，这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。

Jul, 2020

面向东南亚语言的云自动语音识别系统

介绍我们为东南亚语言开发的自动语音识别系统，以印尼语和泰语为例解释了收集语音和文本资源所需的各种策略。

Oct, 2022

无监督跨语言表示学习用于语音识别

XLSR 是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在 wav2vec 2.0 的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

利用语言模型提高印度语言的语音识别

本文探究了应用语言模型（LM）到印欧语系语言的自动语音识别（ASR）系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调，并进行结果调整。我们的研究结果显示，经过 LM 解码后，字符错误率（CER）平均降低了 28％以上，单词错误率（WER）平均降低了约 36％。文章还表明，与多样化的 LM 相比，大型 LM 可能不会带来更大的改进。此外，我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。

Mar, 2022

麦霍马乌纳伊卡艾：语言模型在夏威夷语自动语音识别中的改进

改善低资源语言夏威夷语的自动语音识别（ASR）的挑战，通过将大量独立文本数据整合到 Whisper 基础模型中，我们采用约 1.5M 字的夏威夷文本数据训练了外部语言模型（LM）。然后，我们使用该语言模型对 Whisper 进行评分，并计算标记的夏威夷数据测试集的词错误率（WER）。实验结果显示，在用夏威夷语言模型重新评分 ASR 输出时，WER 有小幅但显著的改善。结果支持在开发代表性语言的 ASR 系统时利用所有可用数据。

Apr, 2024

将预训练语言模型提炼为多语言自动语音识别模型

本研究提出了一个名为 Distill-L2S 的新方法，将一个已经训练好的跨语言语言模型转移到语音识别模型中，通过该方法在 20 种低资源语言中达到了优越性能。

Jun, 2022

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024