StarGAN-ZSVC:低资源环境下的零样本语音转换
本文提出了一种使用生成对抗网络的变体 StarGAN 进行非平行多对多语音转换(VC)的方法,称为 StarGAN-VC,这种方法可以在不需要平行语音生成器训练的情况下实现并同时学习不同属性域之间的多对多映射,能够快速生成转换的语音信号,并且具有比基于变分自编码 GAN 的最新方法更高的音质和说话者相似度。
Jun, 2018
介绍了一种新的方法 SLMGAN,它利用 SLM(大规模预训练的语音语言模型)在生成对抗网络(GAN)框架中实现鉴别任务,特别是用于语音转换。通过在基于 mel 的鉴别器之上添加基于 SLM 的 WavLM 鉴别器,并结合新设计的 SLM 特征匹配损失函数,实现了一种无监督的零样本语音转换系统,培训过程中不需要文本标签。主观评估结果表明,SLMGAN 在自然度方面优于现有的零样本语音转换模型,并达到了相似性方面的可比较水平,突显了基于 SLM 的鉴别器在相关应用中的潜力。
Jul, 2023
本研究提出了一种改进的条件方法 StarGAN-VC2,包含源域和目标域的条件对抗损失和基于调制的条件方法,来使多域语音转换更加准确和自然。实验结果显示,该方法在语音质量和说话人相似度方面优于之前的 StarGAN-VC 模型。
Jul, 2019
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
一个基于面部图像的零样本语音转换任务中,提出了一种新颖的零样本面部语音转换方法,通过使用面部 - 语音对齐模块和混合监督策略来实现从一个源说话者到一个目标说话者的语音特征转换,并引入预训练的零样本语音转换模型,通过大量实验证明了该方法在零样本面部语音转换任务中的优越性。
Sep, 2023
该研究使用多语言方法进行零样本多说者语音合成,可在低资源语种上实现零样本语音转换,使用 VITS 模型,经过多项创新修改后,在 VCTK 数据集上实现了最先进的结果,并且可以在少于 1 分钟的输入语音上对 YourTTS 进行微调以获得最佳效果。
Dec, 2021
SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性,在生成高质量语音时与目标参考的相似性更好,即使对于非常短的参考讲话。
Dec, 2023
解决合成声音的自然性和说话人相似度降低的问题,我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性,并利用变分自动编码器的表示学习能力增强说话人编码器,实验证明我们的模型在未知说话人上有更好的表现。
Aug, 2023
本文提出了一种新的艺术风格转换方案,它仅涉及一个带有仔细设计的瓶颈的自编码器,通过仅通过自重构损失进行训练,我们形式证明这种方案可以实现分布匹配的风格转换。 我们基于此方案提出了 AUTOVC,并在非平行数据的多对多语音转换中实现了最先进的结果,这是首次进行零样本语音转换。
May, 2019
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。
Apr, 2017