Jun, 2024

利用人类反馈提升零样本语音合成

TL;DR在此研究中,我们提出了一种将主观人类评估整合到 TTS 训练过程中的新方法,名为不确定性感知优化(UNO),通过考虑主观人类语音感知和评估中的固有变异性来最大化语音生成的效用,实验证明 UNO 极大地提升了 TTS 模型在 MOS、词错误率和说话人相似性方面的零样本性能,同时还展示了 UNO 在情感 TTS 中无缝、灵活地适应所需说话风格的显著能力。