高效自适应文本转语音
描述了一个基于神经网络的文本转语音(TTS)合成系统,可以以许多不同讲话者的声音生成语音音频,该系统由三个独立训练的部分组成,包括训练说话者编码器网络进行讲话者验证任务,基于 Tacotron 2 的序列合成网络,以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。
Jun, 2018
本文提出了适应性讲话者神经声码器,用于参数文本到语音(TTS)系统,利用全局属性提取方法及目标讲话者特征优化获得了高质量可自适应的 TTS 语音合成。
Nov, 2018
本文提出了一种使用元学习算法的多说话人文本转语音(Meta-TTS)模型,通过少量的适应步骤,可以生成具有高语音相似度的语音合成,并且比已有的说话人适应方法和说话人编码方法更为高效。
Nov, 2021
我们提出了一种基于学习的文本转语音系统,通过使用嵌入空间内的网络来从短的未转录音频样本中捕获新说话者,实现了语音合成系统的极大性能提升,且适用于新的声音,即使从非常短的样本中拟合。
Feb, 2018
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术,可以从单个模型生成不同的声音,并构建了具有高性能的构建组件:Deep Voice2 和后处理神经语音合成器的 Tacotron,通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。
May, 2017
本文介绍一种多语言语音合成方法,该方法使用上下文参数生成的元学习概念,使用更少的训练数据和更多的语言产生自然音质的多语言语音;其模型使用 Tacotron 2 和完全卷积输入文本编码器,在训练中使用 CSS10 数据集和新的基于 5 种语言的通用语音数据集,同时使用对抗分类器和梯度反转层增强语音克隆。实验结果表明,该模型跨语言信息共享效果良好,在 “代码切换” 语音合成中表现更自然、准确。
Aug, 2020
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统,并能达到类似于真实语音自然度的效果。
Jun, 2021
本文研究一种可转移的音位嵌入框架,旨在解决少样本跨语言语音合成问题。在 8 分钟以下数据提供的极少样本情况下,作者提出了包括基于音位 TTS 模型和码本模块在内的框架。通过利用音位级平均的自我监督学习特征,实现了合成语音质量的有效改进。实验证明,使用 30 秒左右数据就能够合成出可理解的说话声音。
Jun, 2022
本研究提出了一种参数高效的少样本说话人自适应方法,通过使用可训练轻量级模块 (residual adapters) 来增加骨干模型 (backbone model) 实现对各种目标说话人的共享,可以在保持语音自然性和说话人相似性的同时仅使用上亿模型参数的 0.1%。
Oct, 2022