通过建模残差多模态实现鲁棒的 FastSpeech 2
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
我们提出了一种基于扩散模型的最小监督高保真语音合成方法,其中所有模块均基于扩散模型构建,非自回归框架增强了可控性,持续时间扩散模型实现了多样化的韵律表达。
Sep, 2023
本文提出了一种用于提高低资源的 TTS 系统性能的方法,其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形,并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成,并通过优化训练策略,利用训练集增强了微型语言环境下的训练质量,并在 MOS 测试中显示出优异的性能。
Oct, 2022
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023
提出一种多阶段、多码本(MSMC)方法来高效实现神经 TTS 合成,该方法使用基于向量量化的变分自编码器(VQ-VAE)编码语音训练数据的 Mel 频谱图,并通过多阶段逐渐进行下采样,将它们量化为具有不同时间分辨率的多个 MSMC 表示,同时使用多个 VQ 码本。在合成中,神经声码器将预测的 MSMCR 转换为最终语音波形,该方法在 16 小时的英语 TTS 数据库中,以女性说话者的 TTS 得分(MOS)为 4.41,比基准值的 MOS(3.62)更出色,同时低参数的紧凑版本仍然可以保持高 MOS 得分,消融研究表明,多个阶段和多个码本对于实现高性能的 TTS 都是有效的。
Sep, 2022
本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统,通过几个特殊设计的组件 / 技术改善了文本到语音的对齐,并在多个数据集上展示了其效果。
Jun, 2020
通过引入连续时间扩散模型,CM-TTS 在不需要对抗训练或预训练模型依赖的情况下,在较少的步骤中实现了高质量的语音合成,通过动态概率设计加权采样器来确保整个训练过程的无偏学习。实验证实了 CM-TTS 相对于现有的单步语音合成系统的卓越性能,代表了该领域的重大进展。
Mar, 2024
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
我们提出了一种声学增强的语言建模方法,通过使用语音单元预测中的错误积累来改善 TTS 模型的性能,通过自我监督表示来作为自回归语言模型的训练目标,并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器,以减少非自回归训练中的错误传播,客观和主观评估验证了我们提出方法的有效性。
Jun, 2024