Nov, 2023

为语音合成编码特定讲话者的潜在语音特征

TL;DR提出了一种用于建模众多发言人的新方法,并通过对特征进行离散化和将其与语音合成模型相结合来表示目标发言人的语音特征。该方法在主观相似性评估中获得了较高的相似度平均意见分数(SMOS),甚至对于未见过的发言人,其性能优于最佳多发言人模型的已见发言人,而且也显著优于零样本方法。此外,该方法在生成新的虚拟发言人方面表现出色,并且通过编码潜在特征能够完全重构原始发言人的语音,说明该方法可以作为在各种任务中对发言人特征进行编码和重构的通用方法。