Mar, 2022

面向基于层级上下文信息的汉语语音合成的表现性语音风格建模

TL;DR本文提出了一种层级框架,用于从上下文中建模表达语音合成的风格。通过 Hierarchical Context Encoder 来探索更广泛的上下文信息,结合 Inter-Phrase 和 Inter-Sentence 关系,提出了一种新的训练策略 —— Knowledge Distillation,该方法在普通话演讲数据集上进行了客观和主观评估,显著提高了合成语音的自然度和表现力。