国家图书馆内的言语语料库与瑞典语言音模型

May, 2022

国家图书馆内的言语语料库与瑞典语言音模型

Hearing voices at the National Library -- a speech corpus and acoustic model for the Swedish language

Martin Malmsten, Chris Haffenden, Love Börjeson

TL;DR本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库，对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终，作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能，并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。

Abstract

This paper explains our work in developing new acoustic models for automated speech recognition (ASR) at KBLab, the infrastructure for data-driven research at the National Library of Sweden (KB). We evaluate different approaches for a viable →

automated speech recognition acoustic models speech-to-text pipeline swedish language pretrained language models

发现论文，激发创造

为瑞典自动语音识别系统开发声学模型

本研究旨在通过训练系统实现自动持续语音识别，并以瑞典口语为例，使用隐藏马尔可夫模型，利用 SpeechDat 数据库进行参数训练。在这项研究中，声学建模在语音识别应用方面具有一定的普适性，尽管对模型评估仅考虑了一个简化的任务（数字和自然数识别）。研究还测试了不同类型的音素模型，包括独立上下文模型和两种上下文相关模型的变体。同时，还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集（性别、年龄和方言）上系统性能的情况，并将结果与先前类似研究进行了对比，显示出明显的改进。

Apr, 2024

通过欧盟辩论自动语音识别进行政治语料库创建

本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Apr, 2023

芬兰议会 ASR 语料库 - 分析，基准测试和统计

本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道，HMM，HMM-DNN 和 AED ASR 配方，以及通过测试集和其他数据集在 ASR 上设置了基准，最后比较了不同议会元数据的 ASR 准确性变化。

Mar, 2022

ASR2K：2 千个左右的语言的语音识别（无需音频）

提出了一种语音识别流程，可以利用 n-gram 统计信息或原始文本数据集，在没有音频文件的情况下，使用多语种模型构建语音识别流程，并在 1909 种语言上进行了测试。

Sep, 2022

提升挪威语自动语音识别

本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现，其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6％，并探讨了提高挪威语 ASR 模型的挑战和解决方案。

Jul, 2023

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

Thai Wav2Vec2.0 在 CommonVoice V8 上的应用

为了改进泰语自动语音识别（ASR）模型在开源数据上的表现，我们使用了预训练 XLSR-Wav2Vec 模型和泰语 CommonVoice 语料库 V8 训练了一个新的 ASR 模型，并训练了一个三元语言模型来提高其性能。我们相信我们的模型将对泰国个人和 ASR 社区有益。

Aug, 2022

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024