ProsoSpeech: 用量化向量预训练增强语音合成的韵律

Feb, 2022

ProsoSpeech: 用量化向量预训练增强语音合成的韵律

ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

Yi Ren, Ming Lei, Zhiying Huang, Shiliang Zhang, Qian Chen...

TL;DR介绍 ProsoSpeech 模型，通过量化预训练的潜在语调向量来增强 Prosody，该模型可生成具有比基线模型更丰富 Prosody 的表达性音频。

Abstract

Expressive text-to-speech (TTS) has become a hot research topic recently, mainly focusing on modeling prosody in speech. prosody modeling has several challenges: 1) the extracted pitch used in previous

text-to-speech prosody modeling latent vectors speech data expressive speech

发现论文，激发创造

DiffProsody: 基于扩散的潜在韵律生成，用于具有韵律条件对抗训练的表情化语音合成

通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody，本研究证实了其在生成韵律向量方面的有效性，并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度，因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。

Jul, 2023

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020

基于语言驱动的动态分层变分网络合成不同语调语音

本研究提出了一种新的层次化有条件变分自编码器，用于生成声调特征，可用于合成语音信号，与现有技术相比具有更高的性能。

May, 2019

NaturalSpeech 3：基于分解编解码和扩散模型的零样本语音合成

自然言语 3 通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间，并实现了高质量、相似度、韵律和可懂性的自然语音生成。

Mar, 2024

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

多模式自动韵律标注与对比预训练的 SSWP

在表达性文本转语音（TTS）领域中，显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程，通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间，并构建了一个多模态语调标注器，该模型在自动生成语调标注方面表现优异，达到了最先进的性能水平，并且在不同数据量的测试中展现出了显著的鲁棒性。

Sep, 2023

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022