Jul, 2024

鲁棒零样本文本转语音合成与逆向推导优化

TL;DR逆向推断优化(RIO)是一种简单有效的方法,旨在使用来自人类反馈的强化学习,增强基于自回归模型的零样本文本到语音(TTS)系统的鲁棒性。RIO 通过引入基于贝叶斯原理的逆向推断的新概念来评估没有人类注释的 TTS 系统生成的语音质量,从而选择用于 RLHF 的示例,从而引导后续的优化以提高 TTS 的鲁棒性。RIO 框架通过采样、自动注释和学习来消除奖励模型或成对偏好数据的需求,并通过减少训练和推理条件之间的差异显著提高了零样本 TTS 性能的稳定性。实验结果验证了 RIO 能够有效改善主观和客观指标,包括平均意见分、词错误率和说话人相似性。值得注意的是,RIO 还可以将错误输出的发生率几乎降为零,与使用地面真实语音作为提示时的稳健性相媲美。