提升挪威语自动语音识别

Jul, 2023

Boosting Norwegian Automatic Speech Recognition

Javier de la Rosa, Rolv-Arild Braaten, Per Egil Kummervold, Freddy Wetjen, Svein Arne Brygfjeld

TL;DR本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现，其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6％，并探讨了提高挪威语 ASR 模型的挑战和解决方案。

Abstract

In this paper, we present several baselines for automatic speech recognition (ASR) models for the two official written languages in norway: Bokm{\aa}l and →

automatic speech recognition norway bokmål nynorsk state-of-the-art

发现论文，激发创造

挪威低语：应对正字法和方言挑战

OpenAI 的 NB-Whisper 是针对挪威语自动语音识别 (ASR) 进行细致调整的一种仿写模型，通过转换挪威口语为书面形式和翻译其他语言为挪威语，它能够将 OpenAI Whisper Large-v3 在 Fleurs 数据集上的识别错误率从 10.4 降至 6.6，NST 数据集上从 6.8 降至 2.2。

Feb, 2024

L1 和 L2 瑞典语说话者的 ASR 结果比较分析

使用词错误率比较母语和非母语、朗读和即兴的瑞典话语在不同的 ASR 服务中的识别结果，并分析可能导致观察到的转录错误的语言因素。

May, 2024

挪威议会演讲语料库

使用挪威议会语音语料库进行自动语音识别训练较手稿朗读语音训练效果更好，尤其对方言的识别表现更出色。

Jan, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

国家图书馆内的言语语料库与瑞典语言音模型

本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库，对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终，作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能，并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。

May, 2022

尼泊尔自动语音识别系统现状的综合研究

我们在这篇论文中研究了尼泊尔自动语音识别领域的研究。我们的主要目标是对迄今为止在尼泊尔自动语音识别系统上的工作进行全面回顾，探索使用的不同数据集，研究所采用的技术，并考虑在实现尼泊尔语自动语音识别系统时遇到的障碍。与基于语音识别的全球趋势相协调，尼泊尔与自动语音识别相关的项目数量也在增加。然而，与资源充足的语言相比，尼泊尔语的语言和声学模型的研究并没有得到足够的关注。在这种情况下，我们提供一个框架和未来研究的方向。

Feb, 2024

使用 Kaldi 进行自动语音识别的奥地利德语会话

本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明，相对于增加语言模型数据的大小，使用发音词典可以在低资源语料情况下取得高性能。

Jan, 2023

可扩展的多语料神经语言模型用于 ASR

通过从异构语料库中训练神经语言模型、限制时延影响和处理第二遍修正器中的个性化偏差等挑战，本文在第二遍 n-best rescoring 框架中使用神经 LM，实现了 6.2% 的相对 WER 降低，而延迟增加很小。

Jul, 2019

通过自动语音识别在小学中进行阅读疏忽检测

本研究探讨了现有的最先进预训练自动语音识别（ASR）模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果，发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现（23.1% 的音位级错误率），而 Whisper（Faster Whisper Large-v2）则在词级表现最佳（9.8% 的词错误率）。此外，Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型，其中 Wav2Vec2 Large 的召回率最高（0.83），而 Whisper 的精确度和 F1 得分均为 0.52。

Jun, 2024

挪威语大规模上下文语言建模

本文介绍了 NorLM 计划，旨在支持创建和使用极大的上下文化语言模型来支持挪威语（以及原则上其他北欧语言）的研究与应用，该计划提供了一个可用的软件环境和数据集，同时也提供了一份学习的经验报告。文章介绍了基于 ELMo 和 BERT 框架的挪威语大规模单语言模型的训练过程，并提供了一套 NLP 任务的对比基准结果。

Apr, 2021