CSS10：10 种语言的单发言人语音数据集合集

Mar, 2019

CSS10：10 种语言的单发言人语音数据集合集

CSS10: A Collection of Single Speaker Speech Datasets for 10 Languages

Kyubyong Park, Thomas Mulc

TL;DR本文描述了我们开发的 CSS10 数据集，其中包含来自十种语言的单讲者语音数据集，我们用这些数据集来训练神经文本转语音模型并进行测试，并公开发布这些数据集、预训练模型和测试资源，希望它们可以被用于未来的语音任务。

Abstract

We describe our development of css10, a collection of single speaker speech datasets for ten languages. It is composed of short audio clips from LibriVox audiobooks and their aligned texts. To validate its quality we train two neural text-to-speech models on each dataset. Subsequently,

css10 single speaker speech datasets neural text-to-speech models mean opinion score tests publicly available

发现论文，激发创造

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

MLS: 一个大规模的多语言语音研究数据集

本文介绍了 Multilingual LibriSpeech（MLS）数据集，这是一个大型的多语言语音研究语料库，包括 8 种语言，以及相应语言模型和基线自动语音识别模型。该数据集将在 http URL 上免费提供，我们相信它将为 ASR 和 TTS 研究开辟新的途径。

Dec, 2020

CML-TTS 低资源语言语音合成的多语言数据集

本文介绍了 CML-TTS，这是一个新的文本到语音（TTS）数据集，它在多语言方面提供了新的研究可能性。

Jun, 2023

Speech Wikimedia：一个包含 77 种语言的多语言语音数据集

维基媒体数据集是一个公开可用的音频和转录汇编，包含来自维基共享资源的 1780 小时（195GB）CC-BY-SA 许可的转录语音，在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录，使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。

Aug, 2023

BibleTTS：一个大型、高保真、多语种且独特的非洲语音语料库

BibleTTS 是一个由 Open.Bible 项目自 Biblica 发布的圣经记录而来的语音数据集，共有十种撒哈拉以南非洲的语言，为各种语言的文本转语音模型的开发提供了高质量的 48kHz 单人演讲录音素材。

Jul, 2022

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Apr, 2019

对话短语说话人分离任务（CSSD）：数据集，评估指标和基线

文章介绍了一个新的对话说话人分离任务，即 CSSD 任务，提供了相关数据集和评估指标 CDER，并采用变分贝叶斯 HMM x-vector 系统作为 CSSD 任务的基准模型。

Aug, 2022

民间演讲：商业应用的大规模多元化英文语音识别数据集

本文介绍一个基于互联网搜集的，供用于学术和商业目的的超过 30,000 小时且无停顿的英语对话数据集，其中包含已获授权录音数据和其现有的语音转文本。该研究证明数据集训练的模型在 Librispeech 的 test-clean 测试集上有 98% 的单词错误率，并探讨了创建大型机器学习语料库的法律和伦理问题以及其维护的计划。

Nov, 2021

VoxLingua107：一个口语识别数据集

本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语，并从 YouTube 中检索视频来提取具有语音的视频片段，并使用语音活动检测和说话人分离提取包含语音的视频片段，最终构建了可用于多种口语识别任务的语言识别模型，自动检索的数据结果优于使用手工标记的专有数据集。

Nov, 2020

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023