统计语音波形合成的全面评估

Nov, 2018

Comprehensive evaluation of statistical speech waveform synthesis

Thomas Merritt, Bartosz Putrycz, Adam Nadolski, Tianjun Ye, Daniel Korzekwa...

TL;DR本文评估亚马逊的统计语音波形合成系统，对其质量进行了深入评估，并与基于混合单元选择合成的系统进行比较，以便更好地了解其优缺点。

Abstract

statistical tts systems that directly predict the speech waveform have recently reported improvements in synthesis quality. This investigation evaluates Amazon's statistical speech waveform synthesis (SSWS) syste

statistical tts speech waveform synthesis amazon ssws quality evaluation speech errors

发现论文，激发创造

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

一个实验研究：评估 WavLM 和 BEST-RQ 的组合框架在文本到语音合成中的应用

我们提出了一种新的适用于文本到语音（TTS）模型的模型架构，将预训练的自监督学习（SSL）语音模型 WavLM 与简单的 BEST-RQ 向量量化框架相结合，通过在 LibriSpeech 数据集上的 SUPERB 基准测试实验证明，该模型表现明显不佳，我们推测这种表现偏差与使用量化器对原始音频波形和频谱图进行特征处理之间的差异有关，我们讨论了这种方法的局限性以更好地引导 TTS 的未来发展。

Dec, 2023

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

用合成语音训练识别器评估语音合成

论文提出了一种基于训练合成语音自动识别模型并评估其在真实语音上表现的评估技术，该指标与意见分数自然性和可懂性均呈现出强相关性。

Oct, 2023

移动设备快速、紧凑、高质量基于 LSTM-RNN 统计参数语音合成器

本文介绍在移动设备上部署的基于 LSTM-RNN 的 SPSS 的进一步优化，其中包括权重量化、多帧推理和鲁棒推理。使用了经过优化的 LSTM-RNN 的 SPSS 在运行时速度上可以与基于 HMM 的 SPSS 相媲美，同时保持自然性。对 LSTM-RNN - 基础的 SPSS 和基于 HMM 的单元选择语音合成之间的评估也在本文中呈现。

Jun, 2016

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

基于评审的不同文字转语音技术研究

这篇研究论文以综述为基础，对各种文字转语音（TTS）技术进行了全面研究。研究比较了诸如串联 TTS、共振合成 TTS 和统计参数 TTS 等不同的 TTS 技术在语音自然度、系统复杂程度和适用性等方面的优势和局限性，并探索了神经 TTS 和混合 TTS 等最新进展。该研究的结果对于希望了解不同 TTS 技术及其适用性的研究人员、开发人员和用户具有重要价值。

Dec, 2023

一种全面级联系统、基准测试和人类评估协议，用于表达性语音翻译

本文提出了一个将多个韵律转移技术综合起来的综合层次系统（holistic cascade system）来把源语言的情感转移到目标语言中。我们还建立了一个基准的情感测试集来评估多重情感维度。实验结果表明，这种综合建模方法优于单一方面的研究。

Jan, 2023

无监督文本转语音合成与无监督自动语音识别

该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统，可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能，并开展了对文本单元和声码器影响的研究。

Mar, 2022

多模式自动韵律标注与对比预训练的 SSWP

在表达性文本转语音（TTS）领域中，显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程，通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间，并构建了一个多模态语调标注器，该模型在自动生成语调标注方面表现优异，达到了最先进的性能水平，并且在不同数据量的测试中展现出了显著的鲁棒性。

Sep, 2023