芬兰议会 ASR 语料库 - 分析，基准测试和统计

Mar, 2022

芬兰议会 ASR 语料库 - 分析，基准测试和统计

Finnish Parliament ASR corpus - Analysis, benchmarks and statistics

Anja Virkkunen, Aku Rouhe, Nhan Phan, Mikko Kurimo

TL;DR本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道，HMM，HMM-DNN 和 AED ASR 配方，以及通过测试集和其他数据集在 ASR 上设置了基准，最后比较了不同议会元数据的 ASR 准确性变化。

Abstract

Public sources like parliament meeting recordings and transcripts provide ever-growing material for the training and evaluation of automatic speech recognition (ASR) systems. In this paper, we publish and analyse the Finnish parliament asr corpus, the largest publicly available collect

automatic speech recognition finnish parliament asr corpus hmm-dnn asr accuracy

发现论文，激发创造

通过欧盟辩论自动语音识别进行政治语料库创建

本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Apr, 2023

ASR Bundestag：德国大规模政治辩论数据集

ASR Bundestag 是一个关于德语自动语音识别的数据集，包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。

Feb, 2023

长篇语音识别的更新语料库和基准

本文重新发布三个标准的 ASR 语料库，用于长篇 ASR 研究，并研究了训练与测试数据不匹配问题，通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。

Sep, 2023

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

国家图书馆内的言语语料库与瑞典语言音模型

本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库，对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终，作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能，并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。

May, 2022

工业级多语种自动语音识别的解剖

描述了 AssemblyAI 的工业规模自动语音识别（ASR）系统的结构和性能优势，包括模型架构、词错误率、代码切换能力等关键方面。

Apr, 2024

启用低资源语言的 ASR：一个全面的数据集创建方法

本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程，以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本，并将其分割成适合 ASR 训练的长度，简化了资源稀缺语言中 ASR 系统的数据准备工作，并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言，不仅解决了数据匮乏问题，还提高了低资源语言的 ASR 模型性能。

Jun, 2024

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

英语口音的爱丁堡国际语料库：迈向英语 ASR 的民主化

该论文介绍了一个新的英语语音数据集 Edinburgh International Accents of English Corpus (EdAcc)，用于更好地代表各种英语语音的多样性，经使用 680,000 小时的转录数据进行训练后，最好的模型在印度、牙买加和奈及利亚等地的表现都有所下降，平均词错误率为 19.7％。

Mar, 2023

TED-LIUM 3: 基于增加数据和语料库重新分配的说话人自适应实验

本文介绍 TED-LIUM 发布的第三个语音识别数据集，主要是为了增加训练声学模型的可用数据，比 TED-LIUM 2 多出一倍以上的语料。研究表明，相比 2012 年和 2014 年发布的数据集，通过提高训练数据量，对于端到端的 ASR 系统更为有效。同时，本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划，并且将其免费提供给研究社区。

May, 2018