DiscreTalk: 将文本转语音作为机器翻译问题

May, 2020

DiscreTalk: 将文本转语音作为机器翻译问题

DiscreTalk: Text-to-Speech as a Machine Translation Problem

Tomoki Hayashi, Shinji Watanabe

TL;DR本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

Abstract

This paper proposes a new end-to-end text-to-speech (E2E-TTS) model based on neural machine translation (NMT). The proposed model consists

end-to-end text-to-speech neural machine translation vq-vae transformer-nmt

发现论文，激发创造

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

文本到语音的神经传感器和发声器：基于语义标记预测的方法

基于神经传导器的文本到语音 (TTS) 框架，通过使用从 wav2vec2.0 嵌入中获得的离散语义标记，易于采用神经传导器实现 TTS 框架，从而享受其单调对齐约束；该模型首先通过神经传导器生成对齐的语义标记，然后使用非自回归 (NAR) 语音生成器从语义标记合成语音样本，该分离框架减轻了 TTS 的训练复杂性，使得每个阶段能够分别专注于语言和对齐建模以及细粒度声学建模；在零样本自适应 TTS 上的实验结果表明，通过客观和主观指标，该模型在语音质量和说话人相似度方面超过了基准模型；我们还研究了我们提出的模型的推断速度和语调可控性，展示了神经传导器在 TTS 框架中的潜力。

Nov, 2023

UTTS：基于条件去耦合序列变分自编码器的无监督语音合成

本文提出了一种新的无监督文本到语音（UTTS）框架，支持零样本语音克隆和高自然度、可理解度语音合成，是从分离的语音表示学习的角度开发的多说话人语音合成器，其利用了最近在自监督语音表示学习和语音合成前端技术方面的先进进展，在训练期间提供了条件分离的时序变分自编码器（C-DSVAE）作为骨干 UTTS AM。

Jun, 2022

并行 Tacotron：非自回归且可控 TTS

本文提出了一种用于神经端到端文本到语音的非自回归神经网络模型 Parallel Tacotron，该模型采用变分自编码器来提高自然性，轻量级卷积来捕获局部上下文，并引入迭代光谱损失以进一步提高自然性，实验结果表明，Parallel Tacotron 与强的自回归基线模型相匹配，并在推理时间上显著提高了效率。

Oct, 2020

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022

语音增强的语言建模用于文本到语音合成

我们提出了一种声学增强的语言建模方法，通过使用语音单元预测中的错误积累来改善 TTS 模型的性能，通过自我监督表示来作为自回归语言模型的训练目标，并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器，以减少非自回归训练中的错误传播，客观和主观评估验证了我们提出方法的有效性。

Jun, 2024

基于语义标记预测的两阶段文本到语音的神经转换器

我们提出了一种以神经推导器为中心的新型文本转语音（TTS）框架，将整个 TTS 流程分为语义级序列到序列建模和细粒度声学建模阶段，并利用从 wav2vec2.0 嵌入中获取的离散语义标记。我们采用了一种名为令牌推导器的神经推导器，用于语义标记预测以实现稳健高效的对齐建模，从其固有的硬单调对齐约束中受益。接下来，一个非自回归（NAR）语音生成器从这些语义标记有效地合成波形。此外，参考语音在每个阶段控制时间动态和声学条件。这种解耦的框架降低了 TTS 的训练复杂性，同时使每个阶段能够专注于语义和声学建模。我们在零 - shot 自适应 TTS 上的实验证明，我们的模型在语音质量和说话人相似性方面超过了基准模型，无论是客观上还是主观上。我们还深入探讨了我们方法在推理速度和韵律控制能力方面的优势，突出了神经推导器在 TTS 框架中的潜力。

Jan, 2024

利用量化的细粒度 VAE 和自回归韵律先验生成多样且自然的文本语音样本

本文提出了一种离散潜在空间的顺序先验方法，可以更自然地生成高度连续的语音，通过使用向量量化（VQ）对潜在特征进行离散化，并分别在结果上训练自回归（AR）先验模型，在听觉测试和自动语音识别（ASR）性能的客观指标方面，实验结果表明所提出的模型显著提高了随机样本生成的自然度，而且随机从所提出的模型中采样可以用作提高 ASR 性能的数据增强。

Feb, 2020