THCHS-30：一个免费的中文语音语料库

Dec, 2015

THCHS-30：一个免费的中文语音语料库

THCHS-30 : A Free Chinese Speech Corpus

Dong Wang, Xuewei Zhang

TL;DR该研究提供了一个免费的中文语音数据库 THCHS-30，以支持免费数据运动，帮助年轻的语音识别研究者以及刚开始关注该领域的人们。他们报告了基于该数据库建立的基准系统，包括在高噪声条件下的性能表现。

Abstract

speech data is crucially important for speech recognition research. There are quite some speech databases that can be purchased at prices

speech data speech recognition speech databases free data movement chinese speech database

发现论文，激发创造

民间演讲：商业应用的大规模多元化英文语音识别数据集

本文介绍一个基于互联网搜集的，供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集，其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率，并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。

Nov, 2021

BSTC：中英文大规模语音翻译数据集

本文介绍了 BSTC (Baidu Speech Translation Corpus) 数据集，该数据集基于一组讲座授权视频构建，包括约 68 小时的普通话数据、它们的手动转录和英语翻译，以及自动语音识别 (ASR) 模型的自动转录。我们进一步邀请了三名经验丰富的口译员在模拟会议场景中同时口译测试讲座。预计该语料库将促进自动同声传译的研究以及实用系统的开发。我们组织了同声传译任务，并使用该语料库评估了自动同声传译系统。

Apr, 2021

AISHELL-1: 一个开放源代码的汉语语音数据集与基准语音识别系统

发布了名为 AISHELL-1 的开源普通话语音语料库，是目前适用于进行普通话语音识别研究和构建普通话语音识别系统的最大语料库，实验结果表明音频录制和转录的质量是有前途的。

Sep, 2017

推进语音翻译：普通话 - 英语电话会话语料库

本文介绍了英语翻译，适用于部分通话家庭普通话数据和香港科技大学普通话电话语音数据的语音翻译任务。研究表明，将通用翻译模型微调为普通话 - 英语对话电话语音训练集可以使目标领域 BLEU 提高 8 个百分点以上，突显了配对训练数据的重要性。

Mar, 2024

TALCS：一份开源的汉英混杂语料库及其语音识别基准

本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus)，适用于训练和评估混合语音识别系统。使用 TALCS 语料库，作者在两个流行的语音识别工具包（ESPnet 和 Wenet）上进行实验以构建基线系统，证明了录音和转录的质量很有前途且基线系统可行。

Jun, 2022

一份众包的开源哈萨克语语音语料库及初始语音识别基准线

我们制作了一个包含 332 小时的哈萨克语音语料库，内容涵盖来自不同地区和年龄组的参与者的超过 153,000 个语音，其中包含男女。这项工作旨在提高各种哈萨克语音和语言处理应用。我们详细描述了数据收集和预处理程序，并介绍了数据库规范。我们还分享了我们在数据库构建期间面临的经验和挑战，以对计划为低资源语言构建语音语料库的研究人员有所裨益。通过初步的语音识别实验，我们证明了该语料库的可靠性。此外，我们还发布了一个 ESPnet 配方，以支持该语音识别模型的复现和语料库的使用。

Sep, 2020

粤语自动语音识别数据集：调查与新数据集

本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC)，采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。

Jan, 2022

WenetSpeech：一个拥有 10,000 多小时的多领域普通话语音语料库用于语音识别

WenetSpeech 是当前最大的开源普通话语音语料库，其包含 10000 小时以上高质量语音数据、2400 小时弱标注语音数据以及大约 10000 小时无标注语音数据，以及采集自多个场景下的数据，采用 OCR 及高质量 ASR 转录进行语音文本对齐，利用自研的端到端标签错误检测方法进一步筛选数据后，提供了工具集如 Kaldi、ESPnet 等，并基于三个不同测试集对其进行了基准测试。

Oct, 2021

VoiceBank-2023：用于构建语音障碍患者个性化 TTS 系统的多说话人普通话语音语料库

台湾在 2020 年启动了 VoiceBanking 项目，旨在为肌萎缩性侧索硬化症患者提供个性化的普通话语音合成系统。本文报道了 VoiceBanking 项目中语料库设计、录制、数据整理和修正，以及开发的个性化普通话语音合成系统的评估。

Aug, 2023

编制及理论基础：一个包含中英双语儿童非母语言音频语料库

本研究介绍了一个由 50 名中英双语 5-6 岁儿童故事叙述构成的非母语英语语音语料库，提供了 6.5 个小时的儿童在英语（L2）故事理解测试中的文本、语法和发音错误的标注记录和人工评级分数。本语料库可用于第二语言教学，并有助于提高自动语音识别（ASR）的总体性能。

Apr, 2023