用于序列到序列语音转换的预训练技术

Aug, 2020

用于序列到序列语音转换的预训练技术

Pretraining Techniques for Sequence-to-Sequence Voice Conversion

Wen-Chin Huang, Tomoki Hayashi, Yi-Chiao Wu, Hirokazu Kameoka, Tomoki Toda

TL;DR本文介绍一种转换语音的新方法，提出了在应用 Sequence-to-sequence (seq2seq) voice conversion (VC) 模型之前，将其他语音处理任务如文本到语音 (TTS) 和自动语音识别 (ASR) 应用到模型中来传递知识，从而生成高质量，高准确性，高还原度的语音，证明了 transformer 模型在智能，自然和相似性方面优于 RNN 模型。

Abstract

Sequence-to-sequence (seq2seq) voice conversion (VC) models are attractive owing to their ability to convert prosody. Nonetheless, without sufficient data, seq2seq VC models can suffer from unstable training and mispronunciation problems in the converted speech, thus far from practical

voice conversion seq2seq model pretraining asr transformer

发现论文，激发创造

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Dec, 2019

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

逐步提升语音识别和语音转换

本论文中，我们提出了一种新颖的迭代方法，用于同时提高自动语音识别模型和语音转换模型。我们在低数据资源情况下，通过使用语音转换模型作为数据增强方法来进一步微调 ASR 模型，从而实验性地展示了两个模型的性能提高。

May, 2023

使用非平行训练数据从语音合成到语音转换的迁移学习

本文提出了一种基于 TTS-VC 转移学习的语音转换框架，采用多说话人语音合成系统和编码器 - 解码器架构等技术，实现任意语音转换且在语音质量、自然度和说话人相似度等方面均优于竞争方法。

Sep, 2020

Wav2Seq：使用伪语言预训练语音到文本编解码模型

Wav2Seq 是第一个用于预训练语音数据的自监督方法，采用了伪语言作为紧凑的离散表示，并制定了自监督伪语音识别任务 - 将音频输入转录为伪子词序列。

May, 2022

基于多任务学习的情感语音转换与语音合成

本文提出一种使用多任务学习的语音转换器，该转换器使用基于 seq2seq 的文本到语音作为嵌入空间，旨在提高保留语言信息的能力。在韩国男性情感文本 - 语音数据集上进行的实验表明，多任务学习有助于在语音转换中保留语言内容。

Nov, 2019

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

使用自监督离散语音表示进行任意一对多序列到序列语音转换

利用自监督 VQ-Wav2vec 表示的任意人说话到固定目标说话的任意对一语音转换问题的序列到序列框架，通过预处理和后处理方法，我们的模型可以具有更好的泛化能力，即使只有 5 分钟的数据。

Oct, 2020

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022