LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

Apr, 2019

LibriTTS：从 LibriSpeech 中衍生的用于文本转语音的语料库

LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

Heiga Zen, Viet Dang, Rob Clark, Yu Zhang, Ron J. Weiss...

TL;DR该论文提出了一个新的语音语料库 LibriTTS，用于文本转语音，并展示了该语料库训练出的神经完整端到端的 TTS 模型在自然度方面的评估结果不低于 4.0。

Abstract

This paper introduces a new speech corpus called "libritts" designed for text-to-speech use. It is derived from the original audio and tex

libritts speech corpus text-to-speech neural end-to-end tts models mean opinion scores

发现论文，激发创造

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023

LibriS2S: 一份德英语音到语音翻译语料库

该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题，研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库，提出了基于 FastSpeech 2 模型的新文本到语音模型，以及如何使模型直接根据源语言的发音来生成语音信号。

Apr, 2022

Hi-Fi 多说者英语语音合成数据集

本文介绍了一个新的多说话人英语数据集用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本，采样率为 44.1 kHz，每个说话者至少有 17 小时的语音。为了选择高质量的语音样本，我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比（SNR）的音频记录。该数据集已公开发布在此 http 网址。

Apr, 2021

LibriTTS-P：一种用于文本转语音和风格字幕的具有说话风格和发音者身份提示的语料库

我们介绍了 LibriTTS-P，这是一个基于 LibriTTS-R 的新语料库，包括对说话风格的话语级描述（即提示语）和对说话人特征的说话人级提示。我们采用混合方法构建提示注释：（1）手动注释捕捉到的说话人特征的人类感知，和（2）关于说话风格的合成注释。与现有的英语提示数据集相比，我们的语料库为 LibriTTS-R 的所有说话者提供了更多样化的提示注释。基于提示的可控 TTS 的实验结果表明，使用 LibriTTS-P 训练的 TTS 模型比使用传统数据集的模型具有更高的自然度。此外，样式字幕任务的结果表明，利用 LibriTTS-P 的模型生成的单词比使用传统数据集的模型多 2.5 倍准确。我们的语料库 LibriTTS-P 可以在此 https 网址上获得。

Jun, 2024

使用法语翻译扩充 Librispeech：一种用于直接语音翻译评估的多模态语料库

本文介绍了使用 LibriSpeech 增强现有单语语料库的方法，建立起一种包含源语言中的语音与目标语言中的文本的大型开放式平行语料库，并给出了相应的处理细节和手动评估结果，该平行语料库可以用于直接语音翻译或其他口语翻译实验。

Feb, 2018

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

BibleTTS：一个大型、高保真、多语种且独特的非洲语音语料库

BibleTTS 是一个由 Open.Bible 项目自 Biblica 发布的圣经记录而来的语音数据集，共有十种撒哈拉以南非洲的语言，为各种语言的文本转语音模型的开发提供了高质量的 48kHz 单人演讲录音素材。

Jul, 2022

Libri-Light: 一项有限或无监督 ASR 基准测试

提供了一个适用于有限或无监督语音识别训练的口语英语音频集合，其中包含来自 LibriVox 项目的开源有声读物，已使用语音活动检测进行段分割，并标记有 SNR，说话者 ID 和流派描述，同时提供了基线系统和评估指标，分为三个设置进行评估。

Dec, 2019

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

KazakhTTS2：扩充开源哈萨克语 TTS 语料库，更多数据，讲话人和主题

本研究介绍了 KazakhTTS2 语料库的构建过程，并提供了 TTS 系统的训练和评估细节。本语料库足以为 Kazakh 和其他 Turkic 语言的语音和语言研究提供帮助，其公开可用于构建高质量的 TTS 系统。

Jan, 2022