ProsoSpeech: 用量化向量预训练增强语音合成的韵律
通过使用基于扩散的潜在韵律生成器和韵律条件对抗训练的新方法 DiffProsody,本研究证实了其在生成韵律向量方面的有效性,并且韵律条件鉴别器通过准确模拟韵律极大提高了生成语音的质量。使用去噪扩散生成对抗网络提高了韵律生成的速度,因此 DiffProsody 能够比传统的扩散模型生成韵律的速度快 16 倍。通过实验证明了我们提出的方法具有卓越的性能。
Jul, 2023
本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统,同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习,能够实现不同说话人以及多样化合成的语音转换。实验表明,在零样本情况下,与之前的 TTS 系统相比,本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高,并能通过只提供语音提示来实现新的零样本歌唱合成。
Apr, 2023
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。
Feb, 2023
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
本文提出了一种离散潜在空间的顺序先验方法,可以更自然地生成高度连续的语音,通过使用向量量化(VQ)对潜在特征进行离散化,并分别在结果上训练自回归(AR)先验模型,在听觉测试和自动语音识别(ASR)性能的客观指标方面,实验结果表明所提出的模型显著提高了随机样本生成的自然度,而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。
Feb, 2020
自然言语 3 通过因式分解扩散模型将语音波形分解为内容、韵律、音色和声学细节的子空间,并实现了高质量、相似度、韵律和可懂性的自然语音生成。
Mar, 2024
本文提出了一种基于无监督预训练的神经文本朗读生成模型,通过学习 Warped Mel-Spectrogram 的重构来优化时序关系,进一步提高数据利用效率,在低资源语言情境下实现了显著的性能提升。
Mar, 2023
在表达性文本转语音(TTS)领域中,显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程,通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
Sep, 2023
本论文提出了一种表达性语音合成模型,该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性,如角色配音和说话风格,其中的潜在细节级别空间同时也捕捉更粗粒度的信息。
Nov, 2022