基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

Dec, 2019

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

Voice Transformer Network: Sequence-to-Sequence Voice Conversion Using Transformer with Text-to-Speech Pretraining

Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda

TL;DR本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Abstract

We introduce a novel sequence-to-sequence (seq2seq) voice conversion (VC) model based on the transformer architecture with →

voice conversion transformer text-to-speech pretraining seq2seq

发现论文，激发创造

用于序列到序列语音转换的预训练技术

本文介绍一种转换语音的新方法，提出了在应用 Sequence-to-sequence (seq2seq) voice conversion (VC) 模型之前，将其他语音处理任务如文本到语音 (TTS) 和自动语音识别 (ASR) 应用到模型中来传递知识，从而生成高质量，高准确性，高还原度的语音，证明了 transformer 模型在智能，自然和相似性方面优于 RNN 模型。

Aug, 2020

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

使用多源 Tacotron 和 WaveNet 的文本转语音和声音转换联合训练框架

我们提出了一种使用 Tacotron 的扩展模型体系结构，将其作为文本到语音（TTS）任务和语音转换（VC）任务的共享模型进行训练。通过使用多源序列到序列模型作为共享模型，我们可以分别根据输入类型完成这两个不同的任务。使用预测的 mel-spectrogram 调制 WaveNet 生成波形信号，并建议联合训练一个支持多个源的目标说话人解码器的共享模型。听觉实验表明，我们提出的多源编码器 - 解码器模型可以有效地实现 TTS 和 VC 任务。

Mar, 2019

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018

基于 Transformer 与 RNN 的语音应用比较研究

本文章研究了一种新兴的序列到序列模型 ——Transformer，并将它与传统 RNN 模型在 15 项 ASR、1 项多语言 ASR、1 项 ST 和 2 项 TTS 基准测试中进行了比较和分析，发现了各种训练技巧以及 Transformer 在各项任务中带来的显著性能优势，最终实验结果表明 Transformer 在 13/15 项 ASR 基准测试中比 RNN 具有惊人的优越性能。

Sep, 2019

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022