UnifySpeech: 零样本文本转语音和语音转换的统一框架
该研究提出了一个跨语言语音合成框架,包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法,我们的评估表明这种方法优于现有的基于多语言训练模型的方法,并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性,尤其适用于资源匮乏环境。
Sep, 2023
本文提出一种使用多任务学习的语音转换器,该转换器使用基于 seq2seq 的文本到语音作为嵌入空间,旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明,多任务学习有助于在语音转换中保留语言内容。
Nov, 2019
我们提出了一种使用 Tacotron 的扩展模型体系结构,将其作为文本到语音(TTS)任务和语音转换(VC)任务的共享模型进行训练。通过使用多源序列到序列模型作为共享模型,我们可以分别根据输入类型完成这两个不同的任务。使用预测的 mel-spectrogram 调制 WaveNet 生成波形信号,并建议联合训练一个支持多个源的目标说话人解码器的共享模型。听觉实验表明,我们提出的多源编码器 - 解码器模型可以有效地实现 TTS 和 VC 任务。
Mar, 2019
本文提出了一种基于 TTS-VC 转移学习的语音转换框架,采用多说话人语音合成系统和编码器 - 解码器架构等技术,实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。
Sep, 2020
我们提出了一种统一的系统,可以实现一次性的声音转换,包括语调、节奏和说话人属性,并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题,并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。
Nov, 2022
该研究提出了一种基于自监督预训练模型的无配对数据标准的语音转换方法,不仅能够转换说话人的音色,而且还能够转换韵律及音调等语音韵律信息,并且在定量和定性评估中优于其他方法。
Dec, 2022
这篇论文介绍了一种新颖的语音转换(VC)模型,它由文本指令引导,比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同,我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型,处理离散代码序列,生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比,我们的模型以端到端的方式处理语音的各种信息,而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。
Sep, 2023
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
本篇论文提出了一种基于跨模态知识转移的多说话人视频朗读合成系统,利用向量量化及对比预测编码来导出获得离散类音素的声学单元,利用 Lip-to-Index 网络推断声学单元的索引序列,并利用说话人编码器来产生说话人表示,以有效地控制生成语音的说话人身份。经过广泛的评估验证,该方法在生成具有高自然度、易懂度和说话人相似度的高质量语音方面具有最先进的性能。
Feb, 2022
该研究使用多语言方法进行零样本多说者语音合成,可在低资源语种上实现零样本语音转换,使用 VITS 模型,经过多项创新修改后,在 VCTK 数据集上实现了最先进的结果,并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。
Dec, 2021