基于排序模块和语音增强的自动语音分离转换

Jun, 2023

基于排序模块和语音增强的自动语音分离转换

Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation

Zhonghua Liu, Shijun Wang, Ning Chen

TL;DR本论文提出了一种语音转换模型，通过只使用两个扩充函数，自动将语音分解成四个部分，而不需要多个手工制作的特征或费力的瓶颈调整。所提出的模型简单但高效，并且实验结果表明，我们的模型在解缠效果和语音自然度方面均优于基线。

Abstract

voice conversion (VC) converts the voice of a source speech to that of a target while maintaining the source's content. Speech can be mainly decomposed into four components: →

voice conversion content timbre disentangle speech naturalness

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

基于三重信息瓶颈的无监督语音分解

本文介绍了 SpeechSplit，一个可以盲目将语音分解为其四个组成部分的算法，以及如何在没有文本标签的情况下分别在语调、音高和节奏上执行风格转换。

Apr, 2020

VQMIVC: 一种基于向量量化和互信息的无监督语音表示解缠方法，用于一次成音转换

本文提出通过使用向量量化 (VQ) 进行内容编码，并在训练期间引入互信息 (MI) 作为相关度度量，从而在无监督的情况下实现内容、说话人和音高表示的适当分离，以提高单次语音转换系统的性能。该方法在保留源语言内容和语调变化的同时，捕捉目标说话人的特征，实现了比现有单次语音转换系统更高的语音自然度和说话人相似度。

Jun, 2021

SpeechSplit 2.0: 无需调节自编码器瓶颈的无监督语音去混叠技术

本文介绍了 SpeechSplit 2.0，它通过使用有效的信号处理方法来限制语音组件的信息流，从而实现了特定方面的语音转换和语音分离，相比于 SpeechSplit 在语音分离方面具有更高的稳健性和可靠性。

Mar, 2022

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

VAW-GAN: 一种用于语音情感元素解耦和重组的方法

本篇研究通过变分自编码 Wasserstein 生成对抗网络（VAW-GAN）研究情感音频的解耦和重组，提出一种基于 VAW-GAN 的发言者依赖型情感语音转换框架，包括两个 VAW-GAN 管道，一个用于频谱转换，另一个用于韵律转换，在客观和主观评估中验证了我们提出的方法的有效性。

Nov, 2020

VQVC+: 基于向量量化和 U-Net 架构的一次性语音转换

本文利用 U-Net 架构和向量量化方法来优化声音转换，取得了良好的声音自然度和说话人相似度。

Jun, 2020

使用变分自编码瓶颈网络和 Wasserstein 生成对抗网络从不对齐语料库进行语音转换

该论文提出了一种基于 VAW-GAN 的非平行语音转换框架，可以用于从未对齐的语音语料库中构建语音转换系统，并展示了该框架的有效性和提升的转换质量。

Apr, 2017