芬兰议会 ASR 语料库 - 分析,基准测试和统计
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
ASR Bundestag 是一个关于德语自动语音识别的数据集,包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。
Feb, 2023
本文重新发布三个标准的 ASR 语料库,用于长篇 ASR 研究,并研究了训练与测试数据不匹配问题,通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。
Sep, 2023
该论文介绍了 MSR-86K,这是一个逐渐增长的大规模多语言语音识别研究语料库,由 YouTube 上公开可访问的视频转录数据组成,包括 15 种语言和总共 86300 小时的 ASR 数据。同时,该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K,相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。
Jun, 2024
本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库,对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终,作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能,并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。
May, 2022
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
该论文介绍了一个新的英语语音数据集 Edinburgh International Accents of English Corpus (EdAcc),用于更好地代表各种英语语音的多样性,经使用 680,000 小时的转录数据进行训练后,最好的模型在印度、牙买加和奈及利亚等地的表现都有所下降,平均词错误率为 19.7%。
Mar, 2023
本文介绍 TED-LIUM 发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比 TED-LIUM 2 多出一倍以上的语料。研究表明,相比 2012 年和 2014 年发布的数据集,通过提高训练数据量,对于端到端的 ASR 系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划,并且将其免费提供给研究社区。
May, 2018