BriefGPT.xyz
Jul, 2024
语音合成中的变体:说话者嵌入的子中心建模
We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings
HTML
PDF
Ismail Rasim Ulgen, Carlos Busso, John H. L. Hansen, Berrak Sisman
TL;DR
通过利用多个类别中心而不是传统嵌入中的单个类别中心,我们在语音合成中提出了一种新颖的说话人嵌入网络,为模型引入变化,同时保持说话人识别性能,并证明我们的方法在合成语音的自然度和韵律方面提供了更好的效果。
Abstract
In
speech synthesis
, modeling of rich
emotions
and
prosodic variations
present in human voice are crucial to synthesize natural speech. Al
→