通过对抗学习分离音频表示进行无平行数据的多目标语音转换

Apr, 2018

通过对抗学习分离音频表示进行无平行数据的多目标语音转换

Multi-target Voice Conversion without Parallel Data by Adversarially Learning Disentangled Audio Representations

Ju-chieh Chou, Cheng-chieh Yeh, Hung-yi Lee, Lin-shan Lee

TL;DR该研究提出了一种使用循环一致性对抗网络（Cycle-GAN）和自编码器的声音转换和身份识别方法，可将声音转换为多种不同的说话者，同时实现了说话人特征和语言内容的分离。初步实验结果表明，在没有平行数据的情况下，可取得非常好的语音质量。

Abstract

Recently, cycle-consistent adversarial network (cycle-gan) has been successfully applied to voice conversion to a different speaker without parallel data, although in those approaches an individual model is neede

cycle-gan voice conversion adversarial learning autoencoder speaker embedding

发现论文，激发创造

使用循环一致性对抗网络进行并行无数据语音转换

本文提出了一个无需并行数据的语音转换方法，称为 CycleGAN-VC，使用循环一致性对抗网络（CycleGAN）与门控卷积神经网络（CNNs）和身份映射损失，可以在不依赖于并行数据的情况下学习从源声音到目标声音的映射，该方法适用于不同的语音转换任务，具有高品质、不需要额外的数据、模块或对准过程，并可以避免无法逆转的模型失真问题。

Nov, 2017

基于循环一致性对抗网络实现高质量非平行语音转换

本文提出了使用循环一致对抗网络（CycleGAN）进行非平行数据语音转换训练的方法，并通过主观评价证明其优于 Merlin 开源神经网络语音合成系统和基于 GAN 的平行 VC 系统。这是非平行 VC 方法表现超过最先进的平行 VC 方法的首次研究。

Apr, 2018

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017

TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换

本文提出了一种名为 TGAVC 的语音转换框架，通过望文生义的内容嵌入，辅助提取正文内容并应用对抗训练消除说话人身份信息，从而更有效地分离语音的内容和音色。实验结果表明，TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。

Aug, 2022

利用深度生成混合网络和敌对对偶辨别器进行非并行情感转换

提出了一种新颖的情感语音转换方法，采用变分循环生成对抗网络（VC-GAN）在没有平行训练数据的情况下进行转换，并通过基本频率轮廓的生成模块进一步优化训练过程，可以实现高质量的情感转换语音的合成。

Jul, 2020

使用非并行训练数据的 VAW-GAN 歌声转化

本论文提出了一种基于 VAW-GAN 的歌声转换框架，通过训练一个编码器来解开歌手身份和演唱语调（F0 曲线），通过对歌手身份和 F0 进行条件生成，解码器能够生成具有未见目标歌手身份的输出谱特征，并提高了 F0 渲染的性能。

Aug, 2020

用生成对抗网络对失语症患者的非配对语音进行转换

本研究提出了一种新的音频转换方法，是一种 GAN-based 无监督的语音转换模型，用于改善协助医疗手术的病人的语音理解性，该方法可以将受损的语音转换为正常的语音而保留语言内容和说话人特征。

Oct, 2018

非平行序列到序列语音转换系统中的语言和说话人分离表征

本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Jun, 2019

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019