非自回归语音合成的分层韵律建模

Nov, 2020

非自回归语音合成的分层韵律建模

Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

Chung-Ming Chien, Hung-yi Lee

TL;DR分析了不同韵律建模设置下的非自回归 TTS 模型行为，并提出了一种层次结构，其中基于单词级韵律特征来预测音素级韵律特征的方法，该方法在客观和主观评估中在音频质量和语音韵律自然性方面优于其他竞争对手。

Abstract

prosody modeling is an essential component in modern text-to-speech (TTS) frameworks. By explicitly providing prosody features to the TTS model, the style of synthesized utterances can thus be controlled. However

prosody modeling text-to-speech non-autoregressive tts models hierarchical architecture phoneme-level prosody features

发现论文，激发创造

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

可解释语音合成的全层次精细韵律建模

本文提出了一种基于 Tacotron 2 的分层、细粒度和可解释的潜变量模型，实现了 prosody 的多分辨率建模，并使用有条件的 VAE 结构对所有潜在维度进行分层约束，提升了模型的可解释性和分离性能。

Feb, 2020

语音增强的语言建模用于文本到语音合成

我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。

Jun, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

无监督的词级韵律标记技术用于可控语音合成

提出了一种基于决策树和 GMM 的无监督词级韵律标记方法，利用这种方法训练的 TTS 系统可以实现可控语音合成。实验结果显示，与 typical FastSpeech2 模型相比，使用词级韵律标记的 TTS 模型不仅具有更好的自然度，而且还能够操作词级韵律。

Feb, 2022

无文本长度限制语音合成系统的韵律学习机制

本文提出了一种基于 TTS 系统的韵律学习机制，利用本文语言模型的语义特征改进韵律预测结果，并提出了一种名为局部注意力的自注意力结构，以消除输入文本长度局限性，实验证明，我们的模型在英语和汉语合成中产生了更加令人满意的韵律，尤其在汉语合成中，我们的模型优于基准模型，MOS 差距为 0.08，合成语音的整体自然度得到了显著提高。

Aug, 2020

应用句法 - 韵律映射假设和韵律完整性约束到神经序列到序列语音合成

本文提出了一种基于 SPMH 和韵律良好性限制的语音合成模型，可有效地合成和复制日语语音中反映句法结构的语音特征，如初段降低、韵律增强等。

Mar, 2022

基于韵律的语音自动分句和主题划分

探究在语音数据中使用音韵学信息（从语音的时间和旋律中获得的信息）来实现句子和主题单元的分割，并将其与基于单词的方法相结合，取得了与基于单词的统计语言模型相当甚至更好的性能，而且需要较少的训练数据和手动标签。

Jun, 2000

多说者语音合成的细粒度噪声控制

本文提出了一种基于对抗训练、表示瓶颈和音框级建模的无监督噪音建模方法和基于全层次变分自编码器的细粒度语调建模方法，以更好地进行语音合成并将主要因素与噪声和背景噪声分离。

Apr, 2022

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023