VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

Jun, 2020

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net architecture

Da-Yi Wu, Yen-Hao Chen, Hung-Yi Lee

TL;DR本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Abstract

voice conversion (VC) is a task that transforms the source speaker's timbre, accent, and tones in audio into another one's while preserving the linguistic content. It is still a challenging work, especially in a one-shot setting. →

voice conversion auto-encoder disentangle u-net vq

发现论文，激发创造

VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法，用于一次成音转换

本文提出通过使用向量量化 (VQ) 进行内容编码，并在训练期间引入互信息 (MI) 作为相关度度量，从而在无监督的情况下实现内容、说话人和音高表示的适当分离，以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时，捕捉目标说话人的特征，实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。

Jun, 2021

AGAIN-VC: 一种使用激活引导和自适应实例归一化的一次性语音转换

本文提出了基于激活引导和自适应实例标准化的 AGAIN-VC 系统，改进了合成质量和说话人相似性之间的权衡问题，表现最佳。

Oct, 2020

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

谁是真实的讲者

探索利用深度学习技术进行声音转换，识别原始说话者的可行性，通过使用分段转换的转换语音进行实验证明从转换声音中识别真实说话者的可行性，并使用具有来自源说话者的某些信息的 VLAD 进行构建的识别模型在转换语音上表现出很好的性能。

Apr, 2024

AUTOVC: 仅基于自动编码器损失的零样本语音风格转换

本文提出了一种新的艺术风格转换方案，它仅涉及一个带有仔细设计的瓶颈的自编码器，通过仅通过自重构损失进行训练，我们形式证明这种方案可以实现分布匹配的风格转换。我们基于此方案提出了 AUTOVC，并在非平行数据的多对多语音转换中实现了最先进的结果，这是首次进行零样本语音转换。

May, 2019

基于排序模块和语音增强的自动语音分离转换

本论文提出了一种语音转换模型，通过只使用两个扩充函数，自动将语音分解成四个部分，而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效，并且实验结果表明，我们的模型在解缠效果和语音自然度方面均优于基线。

Jun, 2023

TGAVC: 使用文本引导和对抗训练来改进自编码器语音转换

本文提出了一种名为 TGAVC 的语音转换框架，通过望文生义的内容嵌入，辅助提取正文内容并应用对抗训练消除说话人身份信息，从而更有效地分离语音的内容和音色。实验结果表明，TGAVC 模型在自然度和转换语音的相似度上优于 AutoVC。

Aug, 2022