通过分解表示学习改进零样本语音风格转换
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
解决合成声音的自然性和说话人相似度降低的问题,我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性,并利用变分自动编码器的表示学习能力增强说话人编码器,实验证明我们的模型在未知说话人上有更好的表现。
Aug, 2023
本研究提出了一种分层适应性端到端的零样本语音风格转换模型,通过使用分层变分推断和自监督表示在仅使用语音数据集训练模型的情况下,实现了新的发声者的语音风格转换。该模型采用分层适应性生成器进行音调表示和波形音频逐步生成,利用无条件生成来提高声音相对的声学能力。实验结果表明,在零样本语音风格转换场景中,本方法优于其他语音风格转换模型。
Jul, 2023
本研究利用机器学习方法进行虚拟代理人的行为风格建模,通过多模态数据进行风格转换,包括不同演讲者的手势合成。通过实验证明,该方法能更好地捕捉语音中的风格信息,不受测试阶段未见演讲者的影响。
May, 2023
本文提出了一种使用非并行训练数据的序列到序列(seq2seq)语音转换方法,该方法使用编码器 - 解码器神经网络框架构建模型,从声学特征中提取解交叉的语言和说话者表示,并通过保留源话语的语言表示,将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明,该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。
Jun, 2019
本文提出了一种新的艺术风格转换方案,它仅涉及一个带有仔细设计的瓶颈的自编码器,通过仅通过自重构损失进行训练,我们形式证明这种方案可以实现分布匹配的风格转换。 我们基于此方案提出了 AUTOVC,并在非平行数据的多对多语音转换中实现了最先进的结果,这是首次进行零样本语音转换。
May, 2019
本文提出了一种使用仅一次源和目标说话者示例语音,通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法,无需事先见过源和目标说话者训练模型即可执行声音转换,目标语音及说话者的相似性得到了客观和主观的评估,同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。
Apr, 2019
这篇文章介绍了一种高效的零射击情感风格转换的方法,通过分解语音为语义令牌、说话者表示和情感嵌入,并训练一个解码器来重构语音信号,实现将源语音中的情感内容与目标语音嵌入相结合,同时保留源语音中的说话者和语音内容。
Jan, 2024
本研究提出了一种基于 Q-VAE 和批归一化以及数据增强的跨说话人语音风格转移方法,无需使用手动标注的标签即可实现从源说话人到目标说话人的风格迁移,并证明了该方法优于基准方法。
Dec, 2022
一个基于面部图像的零样本语音转换任务中,提出了一种新颖的零样本面部语音转换方法,通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换,并引入预训练的零样本语音转换模型,通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。
Sep, 2023