提升挪威语自动语音识别
OpenAI 的 NB-Whisper 是针对挪威语自动语音识别 (ASR) 进行细致调整的一种仿写模型,通过转换挪威口语为书面形式和翻译其他语言为挪威语,它能够将 OpenAI Whisper Large-v3 在 Fleurs 数据集上的识别错误率从 10.4 降至 6.6,NST 数据集上从 6.8 降至 2.2。
Feb, 2024
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库,对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终,作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能,并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。
May, 2022
我们在这篇论文中研究了尼泊尔自动语音识别领域的研究。我们的主要目标是对迄今为止在尼泊尔自动语音识别系统上的工作进行全面回顾,探索使用的不同数据集,研究所采用的技术,并考虑在实现尼泊尔语自动语音识别系统时遇到的障碍。与基于语音识别的全球趋势相协调,尼泊尔与自动语音识别相关的项目数量也在增加。然而,与资源充足的语言相比,尼泊尔语的语言和声学模型的研究并没有得到足够的关注。在这种情况下,我们提供一个框架和未来研究的方向。
Feb, 2024
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
Jan, 2023
通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战,本文在第二遍 n-best rescoring 框架中使用神经 LM,实现了 6.2% 的相对 WER 降低,而延迟增加很小。
Jul, 2019
本研究探讨了现有的最先进预训练自动语音识别(ASR)模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果,发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现(23.1% 的音位级错误率),而 Whisper(Faster Whisper Large-v2)则在词级表现最佳(9.8% 的词错误率)。此外,Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型,其中 Wav2Vec2 Large 的召回率最高(0.83),而 Whisper 的精确度和 F1 得分均为 0.52。
Jun, 2024
本文介绍了 NorLM 计划,旨在支持创建和使用极大的上下文化语言模型来支持挪威语(以及原则上其他北欧语言)的研究与应用,该计划提供了一个可用的软件环境和数据集,同时也提供了一份学习的经验报告。文章介绍了基于 ELMo 和 BERT 框架的挪威语大规模单语言模型的训练过程,并提供了一套 NLP 任务的对比基准结果。
Apr, 2021