满语语音识别模型 ManWav
本文介绍了一个自动语音识别 (ASR) 项目,旨在研究和创建基于楚科奇语的新 ASR 系统。该语言是一种低资源语言,也是一种多合成语,其对于任何自动处理都具有很大的复杂性。通过收集音频和文本数据,我们成功地训练了 XLSR 模型,并使用 CER 度量标准获得了良好的结果。
Oct, 2022
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的 ASR 系统的部署。作者在 51 种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的 ASR 模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均 WER 相对减少 20.9%、23%和 28.8%。据我们所知,这是第一次研究超过 50 种语言和超过 16,000 小时声音跨其的多语言 ASR 的大规模研究。
Jul, 2020
改善低资源语言夏威夷语的自动语音识别(ASR)的挑战,通过将大量独立文本数据整合到 Whisper 基础模型中,我们采用约 1.5M 字的夏威夷文本数据训练了外部语言模型(LM)。然后,我们使用该语言模型对 Whisper 进行评分,并计算标记的夏威夷数据测试集的词错误率(WER)。实验结果显示,在用夏威夷语言模型重新评分 ASR 输出时,WER 有小幅但显著的改善。结果支持在开发代表性语言的 ASR 系统时利用所有可用数据。
Apr, 2024
通过利用语音和文本资源采用适应和微调技术,提高了印度语言 Bengali 和 Bhojpuri 的自动语音识别(ASR)性能,并通过多模态数据了解每种模态在构建可靠 ASR 方面的重要程度以及解决全球各种语言中的低资源问题的潜在解决方案。
Jul, 2023
本篇论文描述了一种基于数据增强的方法,使用 wav2letter ++ 模型对 Quechua 进行语音识别的实验。通过将合成数据与文本增强相结合,将基本模型的识别错误率降低了 8.73%,最终 ASR 模型的识别错误率为 22.75%。
Jul, 2022
该研究论文侧重于开发和评估使用 XLS-R 300m 模型的自动语音识别 (ASR) 技术。该研究旨在提高 ASR 在将口语转化为书面文本方面的性能,尤其是印度尼西亚语、爪哇语和日惹语。该论文讨论了测试程序、使用的数据集以及训练和评估 ASR 系统中采用的方法。结果显示,XLS-R 300m 模型在 Word Error Rate (WER) 方面取得了有竞争力的度量结果,但在日惹语和日惹语上性能略有一些妥协。5-gram KenLM 语言模型的整合显著降低了 WER 并提高了 ASR 的准确性。该研究通过解决语言多样性问题,提高了 ASR 技术的发展,并为不同语言的性能优化提供了见解。
Jan, 2024
为了改进泰语自动语音识别(ASR)模型在开源数据上的表现,我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型,并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。
Aug, 2022
本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC),采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。
Jan, 2022
本文探究了应用语言模型(LM)到印欧语系语言的自动语音识别(ASR)系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调,并进行结果调整。我们的研究结果显示,经过 LM 解码后,字符错误率(CER)平均降低了 28%以上,单词错误率(WER)平均降低了约 36%。文章还表明,与多样化的 LM 相比,大型 LM 可能不会带来更大的改进。此外,我们还展示了可以在不重新训练 ASR 模型的情况下在生物医学领域的专业数据上获得高质量翻译的结果。
Mar, 2022
Vakyansh 是一个 Indic 语言语音识别端到端工具包,通过自动数据流水线实现数据创建,训练和部署,提供了适应于 18 种 Indic 语言的最先进的语音识别模型,并开放了所有这些资源来支持语音开发者社区。
Mar, 2022