国家图书馆内的言语语料库与瑞典语言音模型
本研究旨在通过训练系统实现自动持续语音识别,并以瑞典口语为例,使用隐藏马尔可夫模型,利用 SpeechDat 数据库进行参数训练。在这项研究中,声学建模在语音识别应用方面具有一定的普适性,尽管对模型评估仅考虑了一个简化的任务(数字和自然数识别)。研究还测试了不同类型的音素模型,包括独立上下文模型和两种上下文相关模型的变体。同时,还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集(性别、年龄和方言)上系统性能的情况,并将结果与先前类似研究进行了对比,显示出明显的改进。
Apr, 2024
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
提出了一种语音识别流程,可以利用 n-gram 统计信息或原始文本数据集,在没有音频文件的情况下,使用多语种模型构建语音识别流程,并在 1909 种语言上进行了测试。
Sep, 2022
本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现,其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6%,并探讨了提高挪威语 ASR 模型的挑战和解决方案。
Jul, 2023
通过微调波形向量预训练模型,并将 N-gram 语言模型作为后处理程序,我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型,并且比现有模型更具有鲁棒性。
Sep, 2022
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
Jun, 2022
本文对梵语 ASR 进行了首次大规模研究,研究了单元选择对梵语 ASR 的影响,并发布了 78 小时的梵语 ASR 数据集,研究不同声学模型和语言模型单元在 ASR 系统中的角色,提出了一个新的模型单元,并强调选择语文文字表示对词错误率的影响。
Jun, 2021
为了改进泰语自动语音识别(ASR)模型在开源数据上的表现,我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型,并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。
Aug, 2022
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024