本研究提出了一种新的层次化有条件变分自编码器,用于生成声调特征,可用于合成语音信号,与现有技术相比具有更高的性能。
May, 2019
本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型,实现了 prosody 的多分辨率建模,并使用有条件的 VAE 结构对所有潜在维度进行分层约束,提升了模型的可解释性和分离性能。
Feb, 2020
我们提出了一种声学增强的语言建模方法,通过使用语音单元预测中的错误积累来改善 TTS 模型的性能,通过自我监督表示来作为自回归语言模型的训练目标,并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器,以减少非自回归训练中的错误传播,客观和主观评估验证了我们提出方法的有效性。
Jun, 2024
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
提出了一种基于决策树和 GMM 的无监督词级韵律标记方法,利用这种方法训练的 TTS 系统可以实现可控语音合成。实验结果显示,与 typical FastSpeech2 模型相比,使用词级韵律标记的 TTS 模型不仅具有更好的自然度,而且还能够操作词级韵律。
Feb, 2022
本文提出了一种基于 TTS 系统的韵律学习机制,利用本文语言模型的语义特征改进韵律预测结果,并提出了一种名为局部注意力的自注意力结构,以消除输入文本长度局限性,实验证明,我们的模型在英语和汉语合成中产生了更加令人满意的韵律,尤其在汉语合成中,我们的模型优于基准模型,MOS 差距为 0.08,合成语音的整体自然度得到了显著提高。
Aug, 2020
本文提出了一种基于 SPMH 和韵律良好性限制的语音合成模型,可有效地合成和复制日语语音中反映句法结构的语音特征,如初段降低、韵律增强等。
Mar, 2022
探究在语音数据中使用音韵学信息(从语音的时间和旋律中获得的信息)来实现句子和主题单元的分割,并将其与基于单词的方法相结合,取得了与基于单词的统计语言模型相当甚至更好的性能,而且需要较少的训练数据和手动标签。
Jun, 2000
本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法,以更好地进行语音合成并将主要因素与噪声和背景噪声分离。
Apr, 2022
我们提出了一种基于扩散模型的最小监督高保真语音合成方法,其中所有模块均基于扩散模型构建,非自回归框架增强了可控性,持续时间扩散模型实现了多样化的韵律表达。
Sep, 2023