挪威议会演讲语料库
本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现,其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6%,并探讨了提高挪威语 ASR 模型的挑战和解决方案。
Jul, 2023
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库,对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终,作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能,并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。
May, 2022
本文介绍对 NURC 项目的自动语音识别及错误分析结果,选择最佳的自动识别模型并进行样本测试,成功自动转录了 284 小时的葡萄牙语口语数据。
Oct, 2022
我们制作了一个包含 332 小时的哈萨克语音语料库,内容涵盖来自不同地区和年龄组的参与者的超过 153,000 个语音,其中包含男女。这项工作旨在提高各种哈萨克语音和语言处理应用。我们详细描述了数据收集和预处理程序,并介绍了数据库规范。我们还分享了我们在数据库构建期间面临的经验和挑战,以对计划为低资源语言构建语音语料库的研究人员有所裨益。通过初步的语音识别实验,我们证明了该语料库的可靠性。此外,我们还发布了一个 ESPnet 配方,以支持该语音识别模型的复现和语料库的使用。
Sep, 2020
ASR Bundestag 是一个关于德语自动语音识别的数据集,包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。
Feb, 2023
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019
本文介绍一个基于互联网搜集的,供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集,其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率,并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。
Nov, 2021
通过 NLP 管道对政治沟通领域的历史文本进行各种任务的大规模语料库使用,我们介绍了德国议会语料库(GerParCor),该语料库包含德语议会记录文本从三个世纪到四个国家的国家和联邦级别的数据,同时也包含通过 OCR 过程转换的凯尔特字提案。
Apr, 2022