利用人类反馈提升零样本语音合成
使用零样本学习和多语言语言模型,该研究提出了一种只使用目标语言文本数据进行多语言语音合成(TTS)的方法,其能够成功地为只有文本资源的低资源语言开发 TTS 系统,大大拓展了 TTS 的覆盖范围并能取得高度理解度。
Jan, 2023
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
对于从噪声音频提示生成的语音合成,我们研究了多种策略来提高其质量,包括无监督预训练、多说话者检测、基于 DNSMOS 的数据过滤和随机噪声混合微调等,实验证明相较于应用语音增强到音频提示的方法,我们的方法能够显著提高可懂度、说话者相似度以及整体音频质量。
Jun, 2024
现有的文本转语音(TTS)研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战,我们提出了一个整合了零样本和少样本演讲者适应策略的框架。
Apr, 2024
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。
Mar, 2022
本研究提出了一种零样本文本转语音模型,使用自监督学习获取的语音表示模型进行条件控制,并引入了声学特征和音素持续时间预测器的分离调制以提高重现性能和语音转换效果。
Apr, 2023
本文提出了一个高质量的语音合成系统 AdaSpeech 4,用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力,并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外,本文基于基向量的分布提出了一种新的监督损失,以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中,AdaSpeech 4 实现了比基线更好的语音质量和相似性,而无需进行任何微调。
Apr, 2022
逆向推断优化(RIO)是一种简单有效的方法,旨在使用来自人类反馈的强化学习,增强基于自回归模型的零样本文本到语音(TTS)系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量,从而选择用于 RLHF 的示例,从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求,并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标,包括平均意见分、词错误率和说话人相似性。值得注意的是,RIO 还可以将错误输出的发生率几乎降为零,与使用地面真实语音作为提示时的稳健性相媲美。
Jul, 2024
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。
Feb, 2023
基于自监督学习的说话人嵌入提取的零样本文本到语音方法可以非常准确地再现说话人的特征。然而,当参考语音包含噪声时,这种方法的语音合成质量会降低。本文中,我们提出了一种噪声鲁棒的零样本文本到语音方法。我们将适配器融入自监督学习模型中,并使用带噪声的参考语音对其进行微调,同时采用了语音增强前端以进一步提高性能。通过客观和主观评估,我们证实了所提出方法对参考语音中的噪声具有很高的鲁棒性,并且与语音增强相结合有效地工作。
Jan, 2024