民间演讲：商业应用的大规模多元化英文语音识别数据集

Nov, 2021

民间演讲：商业应用的大规模多元化英文语音识别数据集

The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cerón, Keith Achorn...

TL;DR本文介绍一个基于互联网搜集的，供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集，其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率，并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。

Abstract

The People's Speech is a free-to-download 30,000-hour and growing supervised conversational english speech recognition dataset licensed for academic and commercial usage under CC-BY-SA (with a CC-BY subset). The

english speech recognition dataset data collection methodology word error rate machine learning corpora

发现论文，激发创造

Common Voice: 一個大規模多語言語音語料庫

Common Voice 是一个为语音技术研究和开发设计的大型多语言转录音频资源，采用众包方式进行数据收集和验证，目前包括 29 种语言，收集了超过 2500 小时的音频数据，实现了多语言端到端的自动语音识别。

Dec, 2019

Speech Wikimedia：一个包含 77 种语言的多语言语音数据集

维基媒体数据集是一个公开可用的音频和转录汇编，包含来自维基共享资源的 1780 小时（195GB）CC-BY-SA 许可的转录语音，在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录，使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。

Aug, 2023

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

VoxPopuli: 面向表示学习、半监督学习和解释的大规模多语种语音语料库

介绍了 VoxPopuli，它是一个大规模的多语种语音语料库，提供包含 23 种语言的 100K 小时未标记语音数据，以及 16 种语言中的 1.8K 小时转录演讲和对应的 5 种其他语言的 5.1K 小时口译。该语料库还提供了语音识别基线和验证了 VoxPopuli 未标记数据在半监督学习中的多用途性。语料库将在该网址下公开发布。

Jan, 2021

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech，它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

THCHS-30：一个免费的中文语音语料库

该研究提供了一个免费的中文语音数据库 THCHS-30，以支持免费数据运动，帮助年轻的语音识别研究者以及刚开始关注该领域的人们。他们报告了基于该数据库建立的基准系统，包括在高噪声条件下的性能表现。

Dec, 2015