Jun, 2024

自回归扩散变换器用于文本到语音合成

TL;DR通过使用连续空间中的向量序列将音频编码为完美重构的高码率连续语音表示,我们提出了一个仅使用解码器的扩散变换器(ARDiT),在零样本语音合成和其他生成任务中表现出与最先进模型相当或优于其的性能。通过在自回归步骤中采用积分 Kullback-Leibler 散度进行蒸馏,我们显著提高了样本的感知质量,并将扩散模型的迭代采样过程压缩为单一步骤。此外,ARDiT 可以训练以一步预测多个连续向量,从而显著减少采样时的延迟。