统计语音波形合成的全面评估
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
我们提出了一种新的适用于文本到语音(TTS)模型的模型架构,将预训练的自监督学习(SSL)语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合,通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明,该模型表现明显不佳,我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关,我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。
Dec, 2023
本文介绍在移动设备上部署的基于 LSTM-RNN 的 SPSS 的进一步优化,其中包括权重量化、多帧推理和鲁棒推理。使用了经过优化的 LSTM-RNN 的 SPSS 在运行时速度上可以与基于 HMM 的 SPSS 相媲美,同时保持自然性。对 LSTM-RNN - 基础的 SPSS 和基于 HMM 的单元选择语音合成之间的评估也在本文中呈现。
Jun, 2016
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标上显示出优异性。
Feb, 2023
这篇研究论文以综述为基础,对各种文字转语音(TTS)技术进行了全面研究。研究比较了诸如串联 TTS、共振合成 TTS 和统计参数 TTS 等不同的 TTS 技术在语音自然度、系统复杂程度和适用性等方面的优势和局限性,并探索了神经 TTS 和混合 TTS 等最新进展。该研究的结果对于希望了解不同 TTS 技术及其适用性的研究人员、开发人员和用户具有重要价值。
Dec, 2023
本文提出了一个将多个韵律转移技术综合起来的综合层次系统(holistic cascade system)来把源语言的情感转移到目标语言中。我们还建立了一个基准的情感测试集来评估多重情感维度。实验结果表明,这种综合建模方法优于单一方面的研究。
Jan, 2023
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
在表达性文本转语音(TTS)领域中,显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程,通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间,并构建了一个多模态语调标注器,该模型在自动生成语调标注方面表现优异,达到了最先进的性能水平,并且在不同数据量的测试中展现出了显著的鲁棒性。
Sep, 2023