THCHS-30:一个免费的中文语音语料库
本文介绍一个基于互联网搜集的,供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集,其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率,并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。
Nov, 2021
本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集,该数据集基于一组讲座授权视频构建,包括约 68 小时的普通话数据、它们的手动转录和英语翻译,以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务,并使用该语料库评估了自动同声传译系统。
Apr, 2021
发布了名为 AISHELL-1 的开源普通话语音语料库,是目前适用于进行普通话语音识别研究和构建普通话语音识别系统的最大语料库,实验结果表明音频录制和转录的质量是有前途的。
Sep, 2017
本文介绍了英语翻译,适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明,将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上,突显了配对训练数据的重要性。
Mar, 2024
本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus),适用于训练和评估混合语音识别系统。使用 TALCS 语料库,作者在两个流行的语音识别工具包(ESPnet 和 Wenet)上进行实验以构建基线系统,证明了录音和转录的质量很有前途且基线系统可行。
Jun, 2022
我们制作了一个包含 332 小时的哈萨克语音语料库,内容涵盖来自不同地区和年龄组的参与者的超过 153,000 个语音,其中包含男女。这项工作旨在提高各种哈萨克语音和语言处理应用。我们详细描述了数据收集和预处理程序,并介绍了数据库规范。我们还分享了我们在数据库构建期间面临的经验和挑战,以对计划为低资源语言构建语音语料库的研究人员有所裨益。通过初步的语音识别实验,我们证明了该语料库的可靠性。此外,我们还发布了一个 ESPnet 配方,以支持该语音识别模型的复现和语料库的使用。
Sep, 2020
本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC),采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。
Jan, 2022
WenetSpeech 是当前最大的开源普通话语音语料库,其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据,以及采集自多个场景下的数据,采用 OCR 及高质量 ASR 转录进行语音文本对齐,利用自研的端到端标签错误检测方法进一步筛选数据后,提供了工具集如 Kaldi、ESPnet 等,并基于三个不同测试集对其进行了基准测试。
Oct, 2021
台湾在 2020 年启动了 VoiceBanking 项目,旨在为肌萎缩性侧索硬化症患者提供个性化的普通话语音合成系统。本文报道了 VoiceBanking 项目中语料库设计、录制、数据整理和修正,以及开发的个性化普通话语音合成系统的评估。
Aug, 2023
本研究介绍了一个由 50 名中英双语 5-6 岁儿童故事叙述构成的非母语英语语音语料库,提供了 6.5 个小时的儿童在英语(L2)故事理解测试中的文本、语法和发音错误的标注记录和人工评级分数。本语料库可用于第二语言教学,并有助于提高自动语音识别(ASR)的总体性能。
Apr, 2023