Sep, 2024

偏好对齐改善基于语言模型的文本到语音合成

TL;DR本研究解决了基于语言模型的文本到语音合成(TTS)在生成内容吸引力方面的优化问题。通过偏好对齐算法,尤其是直接偏好优化(DPO),显著提升了可懂性、说话者相似性及主观评估得分,且在某些评估中超越了人类语音。研究表明,偏好对齐适用于低资源场景,并能有效推广到领域外的应用。