基于多任务学习的情感语音转换与语音合成

Nov, 2019

基于多任务学习的情感语音转换与语音合成

Emotional Voice Conversion using Multitask Learning with Text-to-speech

Tae-Ho Kim, Sungjae Cho, Shinkook Choi, Sejik Park, Soo-Young Lee

TL;DR本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Abstract

voice conversion (VC) is a task to transform a person's voice to different style while conserving linguistic contents. Previous state-of-the-art on VC is based on sequence-to-sequence (seq2seq) model, which could mislead linguistic information. There was an attempt to overcome it by us

voice conversion multitask learning seq2seq model linguistic information text-to-speech

发现论文，激发创造

基于语音合成的小数据情感语音转换：两阶段序列到序列训练

本文提出了一种新的 2 阶段训练策略，用于在保留语言内容和说话者身份的同时改变话语的情感状态，包括用于转换情感样式和语言信息的技术，并在客观和主观评估中显著改善目前的技术水平。

Mar, 2021

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

神经声码器的多目标情感语音转换

本文介绍了一种利用深度双向长短期记忆网络和神经合成器来进行语音的情感转换，同时使用包含丰富语言信息的音素后验概率作为辅助输入特征，提高了转换效果的多目标情感转换架构 Multi-target EVC (MTEVC)，并将条件 WaveNet 和基于流的 WaveNet (FloWaveNet) 神经合成器作为其核心部件，训练了这些神经合成器，并将语音库中的说话者信息以及情感信息定义为附加特征。实验结果的客观度量和主观评估验证了提出的 MTEVC 架构在情感语音转换方面的有效性。

Apr, 2020

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Dec, 2019

Sequence-to-Sequence 情感语音转换概述和分析

本文调查了最近使用序列到序列模型进行情感语音转换的文章，从 6 个方面总结了它们的动机、训练策略、模型架构、数据集、模型输入和评估方法，并为研究人员提供了当前最先进技术的易于理解的概述，最后讨论了序列到序列情感语音转换的现有挑战。

Mar, 2022

UnifySpeech: 零样本文本转语音和语音转换的统一框架

该论文提出了 UnifySpeech 模型，它首次将文字转语音（TTS）和语音转换（VC）结合到一个框架中，通过矢量量化和域限制技术，加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。

Jan, 2023

通向通用文本指导的语音转换

这篇论文介绍了一种新颖的语音转换（VC）模型，它由文本指令引导，比如 “以慢速和低沉的音调清晰地说话” 或 “以开朗少年的声音说话”。与传统方法依赖于参考话语来确定转换语音的属性不同，我们的模型为语音转换增加了多样性和特定性。提出的 VC 模型是一种神经编解码语言模型，处理离散代码序列，生成转换语音的代码序列。它利用文本指令作为风格提示来修改给定语音的韵律和情感信息。与以往的方法相比，我们的模型以端到端的方式处理语音的各种信息，而不再依赖于使用不同的编码器来处理源语音的韵律和内容等不同方面。实验证明了我们的模型在理解指令并产生合理结果方面的令人印象深刻的能力。

Sep, 2023

使用多源 Tacotron 和 WaveNet 的文本转语音和声音转换联合训练框架

我们提出了一种使用 Tacotron 的扩展模型体系结构，将其作为文本到语音（TTS）任务和语音转换（VC）任务的共享模型进行训练。通过使用多源序列到序列模型作为共享模型，我们可以分别根据输入类型完成这两个不同的任务。使用预测的 mel-spectrogram 调制 WaveNet 生成波形信号，并建议联合训练一个支持多个源的目标说话人解码器的共享模型。听觉实验表明，我们提出的多源编码器 - 解码器模型可以有效地实现 TTS 和 VC 任务。

Mar, 2019

用于序列到序列语音转换的预训练技术

本文介绍一种转换语音的新方法，提出了在应用 Sequence-to-sequence (seq2seq) voice conversion (VC) 模型之前，将其他语音处理任务如文本到语音 (TTS) 和自动语音识别 (ASR) 应用到模型中来传递知识，从而生成高质量，高准确性，高还原度的语音，证明了 transformer 模型在智能，自然和相似性方面优于 RNN 模型。

Aug, 2020

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018