Mar, 2023

使用半监督风格提取器和分层建模提高跨说话人风格转移的韵律表现在语音合成中

TL;DR提出了一种强度可控半监督风格提取器,用于解开语音中的风格、内容和音色,同时设计了分层韵律预测器以提高其音韵建模,并提出跨发话人循环一致性损失作为训练阶段辅助模型学习未见过的风格 - 音色组合,并展示它的效果优于基线方法。