VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法，用于一次成音转换

Jun, 2021

VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法，用于一次成音转换

VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion

PDF

Disong Wang, Liqun Deng, Yu Ting Yeung, Xiao Chen, Xunying Liu...

TL;DR本文提出通过使用向量量化 (VQ) 进行内容编码，并在训练期间引入互信息 (MI) 作为相关度度量，从而在无监督的情况下实现内容、说话人和音高表示的适当分离，以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时，捕捉目标说话人的特征，实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。

Abstract

one-shot voice conversion (VC), which performs conversion across arbitrary speakers with only a single target-speaker utterance for reference, can be effectively achieved by speech representation disentanglement.

one-shot voice conversion speech representation disentanglement vector quantization mutual information unsupervised learning

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020

基于排序模块和语音增强的自动语音分离转换

本论文提出了一种语音转换模型，通过只使用两个扩充函数，自动将语音分解成四个部分，而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效，并且实验结果表明，我们的模型在解缠效果和语音自然度方面均优于基线。

Jun, 2023

使用解耦表示构建说话人匿名系统是否足够？

本研究通过使用向量量化技术，加强从声学模型中提取特征时的内容和说话人信息的分离，从而改进说话人匿名化技术，并在 VoicePrivacy 2022 工具包上验证了该方法的有效性。

Aug, 2022

使用实例标准化分离说话者和内容表示进行单次语音转换

本文提出了一种使用仅一次源和目标说话者示例语音，通过实例归一化来分解说话者和语音内容表示的一次性语音转换方法，无需事先见过源和目标说话者训练模型即可执行声音转换，目标语音及说话者的相似性得到了客观和主观的评估，同时表明该模型可以在没有任何监督的情况下学习含义深层次的说话者表示。

Apr, 2019

零语音 2020 挑战中基于向量量化的神经网络用于语音单元发现

本文提出两种神经模型，均使用向量量化技术将连续特征映射为有限的编码，旨在利用无标签数据学习将语音的音素内容与说话人特定细节分离的离散表述。在 Zero Speech 2020 挑战赛的英语和印度尼西亚语数据上，我们的两个模型都优于 2019 年和 2020 年挑战赛的所有提交，相对提高超过 30%。

May, 2020

使用向量量化进行保护隐私的语音表示学习

本文提出了一种匿名表示方案，使用矢量量化来限制表示空间并通过禁止说话人身份信息实现对隐私的保护，从而在保留语音识别的基础上实现说话人匿名化。

Mar, 2022

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

vq-wav2vec：离散语音表示的自我监督学习

该研究提出了 vq-wav2vec 算法，用于学习音频片段的离散表示，并通过自监督上下文预测任务实现。实验结果表明，BERT 预训练在 TIMIT 音素分类和 WSJ 语音识别方面实现了新的最优结果。

Oct, 2019

使用自监督离散语音表示进行任意一对多序列到序列语音转换

利用自监督 VQ-Wav2vec 表示的任意人说话到固定目标说话的任意对一语音转换问题的序列到序列框架，通过预处理和后处理方法，我们的模型可以具有更好的泛化能力，即使只有 5 分钟的数据。

Oct, 2020