基于条件 DSVAE 的零样本语音转换改进

May, 2022

基于条件 DSVAE 的零样本语音转换改进

Towards Improved Zero-shot Voice Conversion with Conditional DSVAE

Jiachen Lian, Chunlei Zhang, Gopala Krishna Anumanchipalli, Dong Yu

TL;DR通过条件的 DSVAE 模型，将内容信息的分离，并在语音转换方面实现更好的性能。

Abstract

Disentangling content and speaking style information is essential for zero-shot non-parallel voice conversion (VC). Our previous study investigated a novel framework with →

zero-shot non-parallel voice conversion disentangled sequential variational autoencoder content embedding conditional dsvae

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

DSVAE: 可解释的分离合成语音检测表示

本文提出使用 Disentangled Spectrogram Variational Auto Encoder (DSVAE) 处理语音谱图以生成可解释的表示，并创建激活映射来区分合成和真实人类讲话信号，通过 ASVspoof2019 数据集获得高精度（>98%）检测多种语音合成器合成的语音。

Apr, 2023

低资源任务特定自然语言生成的解缠自编码器

本文提出了一种具有解缩先验的变分自编码器 VAE-DPRIOR，用于无或很少任务特定标记示例的特定任务自然语言生成。我们通过为隐藏内容空间引入条件先验和为隐藏标签空间引入另一个条件先验来执行分解表示学习，以应对跨任务的组合泛化，并展示了这些新型先验即使在先前的工作中没有特定正则化也能够分解表示。内在内容先验使得从训练过的任务的内容空间中直接采样多样化内容表示成为可能，并将它们与新任务的表示融合，以在低资源环境下生成语义多样化的文本。我们的广泛实验展示了我们的模型在连续零 / 少样本学习中数据增强和在少样本设置中文本风格转移方面的卓越性能。

Feb, 2022

对比分解时序变分自编码器

提出了一种称为对比去纠缠顺序变分自动编码器（C-DSVAE）的方法来进行自我监督的去纠缠表示学习，并使用对比估计的互信息以及简单且有效的数据增强技术来引入附加的归纳偏差。实验结果显示，C-DSVAE 在多个度量标准上显著优于现有的最先进方法。

Oct, 2021

离散序列自编码器

这篇论文介绍了一种针对高维时序数据（如视频或音频）的 VAE 模型架构，学习了数据的潜在表示，可以近似地分解潜在的时间相关特征（动态）和随时间保持不变的特征（内容），从而进行内容和动态的部分控制，并给出了在人工生成的卡通视频片段和声音记录上的实验证据，进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。

Mar, 2018

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

高级条件变分自编码器（A-CVAE）：通过解离潜在特征表示进行开放领域对话生成解释的探索

本研究旨在通过介绍一种认知方法，利用先前的知识驱动生成模型，实现在中尺度特征分离中调节潜在变量，使得深度学习的开放领域对话系统可以生成更高质量和更可解释性的对话。

Jul, 2022

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017

从解耦的句法和语义空间生成句子

本文提出了一种基于变分自编码器的模型，通过在模型的潜在空间中使用线性化树序列显式建模句法信息，从而生成来自分离的句法和语义子空间的句子，并能应用于无监督的释义生成和句法转换等任务，实验结果优于现有相关工作。

Jul, 2019

半监督学习的解缩变分自编码器

本文提出了一种名为 SDVAE 的半监督变分自编码器，其将输入数据转化为可解释和不可解释的特征表示，使用分类信息来规范可解释的特征表示，并使用强化学习来增强特征学习能力，此框架适用于图像和文本数据。

Sep, 2017