辅助分类变分自编码器实现的非平行多对多语音转换

Aug, 2018

辅助分类变分自编码器实现的非平行多对多语音转换

ACVAE-VC: Non-parallel many-to-many voice conversion with auxiliary classifier variational autoencoder

Hirokazu Kameoka, Takuhiro Kaneko, Kou Tanaka, Nobukatsu Hojo

TL;DR本研究提出了一种非平行的一对多语音转换方法，使用一种称为辅助分类器变分自编码器的条件变分自编码器变体。该方法采用全卷积体系结构构建编码器和解码器网络，并使用信息论正则化进行模型训练，避免了声学特征序列中的时间依赖关系丢失。通过引入辅助分类器进行训练，避免了属性类标签对输入语音的控制失效。在非平行的语音身份转换任务中，实验结果表明该简单方法效果良好，避免了模糊声音的产生。

Abstract

This paper proposes a non-parallel many-to-many voice conversion (VC) method using a variant of the conditional variational autoencoder (VAE) called an →

voice conversion conditional variational autoencoder auxiliary classifier information-theoretic regularization convolutional architecture

发现论文，激发创造

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

基于变分自编码器的跨域特征语音转换

本文为了更好地用变分自编码器 (VAE) 进行语音转化，提出了一种名为 CDVAE 的新颖框架，该框架将多种光谱特征（如 STRAIGHT 光谱和 MCC）用于无监督学习，实现了对编码器和解码器行为的设计。结果显示，该框架在主观测试中的表现优于传统的 VAE 框架。

Aug, 2018

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017

TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换

本文提出了一种名为 TGAVC 的语音转换框架，通过望文生义的内容嵌入，辅助提取正文内容并应用对抗训练消除说话人身份信息，从而更有效地分离语音的内容和音色。实验结果表明，TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。

Aug, 2022

通过对抗学习分离音频表示进行无平行数据的多目标语音转换

该研究提出了一种使用循环一致性对抗网络（Cycle-GAN）和自编码器的声音转换和身份识别方法，可将声音转换为多种不同的说话者，同时实现了说话人特征和语言内容的分离。初步实验结果表明，在没有平行数据的情况下，可取得非常好的语音质量。

Apr, 2018

StarGAN-VC：基于星形生成敌对网络的非平行多对多语音转换

本文提出了一种使用生成对抗网络的变体 StarGAN 进行非平行多对多语音转换（VC）的方法，称为 StarGAN-VC，这种方法可以在不需要平行语音生成器训练的情况下实现并同时学习不同属性域之间的多对多映射，能够快速生成转换的语音信号，并且具有比基于变分自编码 GAN 的最新方法更高的音质和说话者相似度。

Jun, 2018

高级条件变分自编码器（A-CVAE）：通过解离潜在特征表示进行开放领域对话生成解释的探索

本研究旨在通过介绍一种认知方法，利用先前的知识驱动生成模型，实现在中尺度特征分离中调节潜在变量，使得深度学习的开放领域对话系统可以生成更高质量和更可解释性的对话。

Jul, 2022

使用变分自编码器从非步调一致的语料库进行语音转换

本文提出了基于可变自动编码器的光谱转换 SC 框架，以利用非平行语料库进行训练，消除与使用平行语料库或音素对齐有关的限制，包括编码器和解码器来学习光谱转换系统，通过客观和主观评价验证了该方法的有效性并与其他 SC 方法进行了比较。

Oct, 2016

AGAIN-VC: 一种使用激活引导和自适应实例归一化的一次性语音转换

本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统，改进了合成质量和说话人相似性之间的权衡问题，表现最佳。

Oct, 2020

基于 Transformer 的有条件变分自编码器对话生成

该论文介绍了一种新的 CVAE-T 对话模型，基于 Transformer 的结构，通过训练包含正负样本的数据并引入正则化项，可以在生成回复时提高信息量。

Oct, 2022