Apr, 2021

Hi-Fi 多说者英语语音合成数据集

TL;DR本文介绍了一个新的多说话人英语数据集 用于训练文本转语音模型。该数据集基于处于公共领域的 LibriVox 有声读物和 Project Gutenberg 文本书籍。新数据集包含 10 个说话者的约 292 小时的语音样本,采样率为 44.1 kHz,每个说话者至少有 17 小时的语音。为了选择高质量的语音样本,我们考虑了至少 13 kHz 的信号带宽和至少 32 dB 的信噪比(SNR)的音频记录。该数据集已公开发布在此 http 网址。