基于条件 DSVAE 的零样本语音转换改进
本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换,通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离,并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能,不仅在客观评估上表现良好,而且在主观评估方面具有鲁棒性,即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。
Mar, 2022
本文提出使用 Disentangled Spectrogram Variational Auto Encoder (DSVAE) 处理语音谱图以生成可解释的表示,并创建激活映射来区分合成和真实人类讲话信号,通过 ASVspoof2019 数据集获得高精度(>98%)检测多种语音合成器合成的语音。
Apr, 2023
本文提出了一种具有解缩先验的变分自编码器 VAE-DPRIOR,用于无或很少任务特定标记示例的特定任务自然语言生成。我们通过为隐藏内容空间引入条件先验和为隐藏标签空间引入另一个条件先验来执行分解表示学习,以应对跨任务的组合泛化,并展示了这些新型先验即使在先前的工作中没有特定正则化也能够分解表示。内在内容先验使得从训练过的任务的内容空间中直接采样多样化内容表示成为可能,并将它们与新任务的表示融合,以在低资源环境下生成语义多样化的文本。我们的广泛实验展示了我们的模型在连续零 / 少样本学习中数据增强和在少样本设置中文本风格转移方面的卓越性能。
Feb, 2022
提出了一种称为对比去纠缠顺序变分自动编码器(C-DSVAE)的方法来进行自我监督的去纠缠表示学习,并使用对比估计的互信息以及简单且有效的数据增强技术来引入附加的归纳偏差。实验结果显示,C-DSVAE 在多个度量标准上显著优于现有的最先进方法。
Oct, 2021
这篇论文介绍了一种针对高维时序数据(如视频或音频)的 VAE 模型架构,学习了数据的潜在表示,可以近似地分解潜在的时间相关特征(动态)和随时间保持不变的特征(内容),从而进行内容和动态的部分控制,并给出了在人工生成的卡通视频片段和声音记录上的实验证据,进一步论证了随机 RNN 模型相对于确定性 RNN 对长序列的压缩与生成的效率更高的假设。
Mar, 2018
本文提出了一种新的艺术风格转换方案,它仅涉及一个带有仔细设计的瓶颈的自编码器,通过仅通过自重构损失进行训练,我们形式证明这种方案可以实现分布匹配的风格转换。 我们基于此方案提出了 AUTOVC,并在非平行数据的多对多语音转换中实现了最先进的结果,这是首次进行零样本语音转换。
May, 2019
本研究旨在通过介绍一种认知方法,利用先前的知识驱动生成模型,实现在中尺度特征分离中调节潜在变量,使得深度学习的开放领域对话系统可以生成更高质量和更可解释性的对话。
Jul, 2022
该论文提出了一种基于 VAW-GAN 的非平行语音转换框架,可以用于从未对齐的语音语料库中构建语音转换系统,并展示了该框架的有效性和提升的转换质量。
Apr, 2017
本文提出了一种基于变分自编码器的模型,通过在模型的潜在空间中使用线性化树序列显式建模句法信息,从而生成来自分离的句法和语义子空间的句子,并能应用于无监督的释义生成和句法转换等任务,实验结果优于现有相关工作。
Jul, 2019
本文提出了一种名为 SDVAE 的半监督变分自编码器,其将输入数据转化为可解释和不可解释的特征表示,使用分类信息来规范可解释的特征表示,并使用强化学习来增强特征学习能力,此框架适用于图像和文本数据。
Sep, 2017