Feb, 2022

低资源表达文本朗读的分布增强

TL;DR本文介绍了一种新的数据增强技术,用于文本到语音的任务,能够生成新的(文本,音频)训练样本,而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性,有助于减少过拟合,特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性,并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明,我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量,并能大大提高基于注意力的 TTS 模型的鲁棒性。