基于深度学习的合成语音自然度评估

Apr, 2021

基于深度学习的合成语音自然度评估

Deep Learning Based Assessment of Synthetic Speech Naturalness

Gabriel Mittag, Sebastian Möller

TL;DR本文提出了一种新的客观预测合成语音自然度的模型，采用 CNN-LSTM 网络逐端训练，独立于语言，能用于评估文本转语音或语音转换系统的效果，通过在多个数据集上测试证明模型的可靠性。

Abstract

In this paper, we present a new objective prediction model for synthetic speech naturalness. It can be used to evaluate text-to-speech or Voice Conversion systems and works language independently. The model is tr

synthetic speech naturalness text-to-speech voice conversion cnn-lstm

发现论文，激发创造

NaturalSpeech：端到端文本语音合成，质量达人类水平

本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech，通过多个关键模块提高文本先验的容量和语音后验的复杂度，同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS（比较平均意见分数），与人类录音不存在显著性差异。

May, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

儿童语音合成的文本到语音处理流程、评估方法和初步微调结果

本研究通过开发和验证训练管道，使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。

Mar, 2022

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

MOSNet：基于深度学习的语音转换客观评估

本文提出了基于深度学习的评估模型 MOSNet，用于预测转换语音的人类评分，实验结果表明其预测得分与人类得分高度相关，因此可以用作减少昂贵的人类评分需求的计算评估器。

Apr, 2019

Syn-Att：通过半监督的未知多类 CNN 集成进行合成音频归属

通过将语音转化为对数梅尔频谱图，利用半监督学习和集成方法来提高稳健性和泛化性，本文提出了一种将合成语音与生成器相关联的新策略，并在 IEEE SP Cup 2022 的 ICASSP 挑战中，准确率相较 Eval 2 提高了 12-13%，Eval 1 提高了 1-2%。

Sep, 2023

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

基于序列到序列模型的直接语音到语音翻译

该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络，能够直接将一种语言的语音翻译成另一种语言的语音，无需中间文本表示，该方法通过学习将语音谱图映射到目标语言的谱图，同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验，证明了该方法在这个极具挑战的任务上的可行性。

Apr, 2019

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024