非平行序列到序列语音转换系统中的语言和说话人分离表征

Jun, 2019

非平行序列到序列语音转换系统中的语言和说话人分离表征

Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations

Jing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai

TL;DR本文提出了一种使用非并行训练数据的序列到序列（seq2seq）语音转换方法，该方法使用编码器 - 解码器神经网络框架构建模型，从声学特征中提取解交叉的语言和说话者表示，并通过保留源话语的语言表示，将说话者表示替换为目标音频的表示来实现语音转换。实验结果表明，该方法在语音转换挑战 2018 中得到了比最佳非并行语音转换方法更高的相似度和自然程度。

Abstract

This paper presents a method of sequence-to-sequence (seq2seq) voice conversion using non-parallel training data. In this method, disentangled linguistic and speaker representations are extracted from acoustic fe

seq2seq voice conversion encoder-decoder neural networks disentangled linguistic and speaker representations non-parallel training data

发现论文，激发创造

基于稳健解缠变分语音表示学习的零样本语音转换

本研究提出利用自监督分离式语音表示学习的新视角进行零样本语音转换，通过在序列变分自编码器中平衡全局说话人表示和时变内容表示之间的信息流实现分离，并应用实时数据增强培训策略以使所学表示不受噪声干扰。在 TIMIT 和 VCTK 数据集上表现出了优越性能，不仅在客观评估上表现良好，而且在主观评估方面具有鲁棒性，即使在源 / 目标语音帧存在噪声的情况下仍能保持不错的性能。

Mar, 2022

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

通过对抗学习分离音频表示进行无平行数据的多目标语音转换

该研究提出了一种使用循环一致性对抗网络（Cycle-GAN）和自编码器的声音转换和身份识别方法，可将声音转换为多种不同的说话者，同时实现了说话人特征和语言内容的分离。初步实验结果表明，在没有平行数据的情况下，可取得非常好的语音质量。

Apr, 2018

通过分解表示学习改进零样本语音风格转换

本研究提出了一种基于解缠表示学习的零样本语音转换方法，通过在输入语音的内容嵌入和目标样式嵌入之间进行组合来实现对新声音的转换，可以在无先验知识和非并行数据的情况下完成，方法在 VCTK 数据集上进行验证，并在许多对多和零样本实验上展现出了最新的标志性结果。

Mar, 2021

使用自监督离散语音表示进行任意一对多序列到序列语音转换

利用自监督 VQ-Wav2vec 表示的任意人说话到固定目标说话的任意对一语音转换问题的序列到序列框架，通过预处理和后处理方法，我们的模型可以具有更好的泛化能力，即使只有 5 分钟的数据。

Oct, 2020

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

使用未标注的外部数据进行对抗性发声人分离的自监督表征语音转换

提出了一种基于声音转换技术的高相似度任意语音转换方法，该方法中使用了自监督学习方法及其提取的 SSL 输入表示，采用对抗训练机制和辅助判别器，通过外部未标注的大型语音语料库，在合成模块中成功解决了与 SSL 表示中的说话者信息与音色相似度有关的限制问题。实验结果表明，我们的方法在自然度高且相似度可比的情况下比监督方法更加灵活，同时可以推广至其他 SSL 表示作为输入的 VC 方法，而且无需大量标注数据的支持。

May, 2023

通用可推广的零样本说话者自适应语音合成与解绑表示

解决合成声音的自然性和说话人相似度降低的问题，我们提出了一种通用的零样本说话人自适应语音合成和声音转换模型。该模型使用解耦表示学习来改善模型的普适性，并利用变分自动编码器的表示学习能力增强说话人编码器，实验证明我们的模型在未知说话人上有更好的表现。

Aug, 2023

使用非平行数据将从 TTS 中转移的语言表示进行口音转换

该研究提出了一种新颖的非自回归框架用于口音转换，通过学习口音无关的语言表示并使用它们来转换源语音中的口音，从而保留说话者的身份。研究还调查了在我们提出的框架中的本地数据和不同声学特征的预训练策略的有效性，并使用主客观度量来全面评估了我们方法的性能。评估结果突出了预训练策略和丰富的语义特征的益处，显著提高了音频质量和可理解性。

Jan, 2024

用于序列到序列语音转换的预训练技术

本文介绍一种转换语音的新方法，提出了在应用 Sequence-to-sequence (seq2seq) voice conversion (VC) 模型之前，将其他语音处理任务如文本到语音 (TTS) 和自动语音识别 (ASR) 应用到模型中来传递知识，从而生成高质量，高准确性，高还原度的语音，证明了 transformer 模型在智能，自然和相似性方面优于 RNN 模型。

Aug, 2020