基于深度学习的合成语音自然度评估
本文提出了一种基于变分自动编码器的 TTS 系统 NaturalSpeech,通过多个关键模块提高文本先验的容量和语音后验的复杂度,同时在 LJSpeech 数据集上实验证明该系统在句子级别上达到了人类录音的 - 0.01 CMOS(比较平均意见分数),与人类录音不存在显著性差异。
May, 2022
本研究通过开发和验证训练管道,使用儿童语音数据集对最先进的神经 TTS 模型进行微调并进行了多方面的评估。结果表明训练后的 TTS 模型能够从只有 5 秒的参考音频样本中合成类似儿童的语音。
Mar, 2022
Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的 WaveNet 推断内核,实现了 400 倍的实时速度。
Feb, 2017
本文提出了基于深度学习的评估模型 MOSNet,用于预测转换语音的人类评分,实验结果表明其预测得分与人类得分高度相关,因此可以用作减少昂贵的人类评分需求的计算评估器。
Apr, 2019
通过将语音转化为对数梅尔频谱图,利用半监督学习和集成方法来提高稳健性和泛化性,本文提出了一种将合成语音与生成器相关联的新策略,并在 IEEE SP Cup 2022 的 ICASSP 挑战中,准确率相较 Eval 2 提高了 12-13%,Eval 1 提高了 1-2%。
Sep, 2023
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
利用 LibriSpeech 数据集,将合成语音与自然语音数据集相结合,使用神经网络训练的端到端自动语音识别模型达到了最新的状态,极大地推动了自动语音识别技术的进步。
Nov, 2018
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而,这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础,从而限制了其创造性应用。相反,关于说话人身份和风格的自然语言提示已经展示了有希望的结果,并提供了一种直观的控制方法。然而,依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后,我们将这种方法应用到一个 45k 小时的数据集上,用于训练语音语言模型。此外,我们提出了简单的方法来增加音频保真度,尽管完全依赖于现有数据,但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件,实现了高保真度的语音生成,在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。
Feb, 2024