一种多阶段多码本的 VQ-VAE 方法实现高性能神经 TTS

Sep, 2022

一种多阶段多码本的 VQ-VAE 方法实现高性能神经 TTS

A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS

Haohan Guo, Fenglong Xie, Frank K. Soong, Xixin Wu, Helen Meng

TL;DR提出一种多阶段、多码本（MSMC）方法来高效实现神经 TTS 合成，该方法使用基于向量量化的变分自编码器（VQ-VAE）编码语音训练数据的 Mel 频谱图，并通过多阶段逐渐进行下采样，将它们量化为具有不同时间分辨率的多个 MSMC 表示，同时使用多个 VQ 码本。在合成中，神经声码器将预测的 MSMCR 转换为最终语音波形，该方法在 16 小时的英语 TTS 数据库中，以女性说话者的 TTS 得分（MOS）为 4.41，比基准值的 MOS（3.62）更出色，同时低参数的紧凑版本仍然可以保持高 MOS 得分，消融研究表明，多个阶段和多个码本对于实现高性能的 TTS 都是有效的。

Abstract

We propose a Multi-Stage, Multi-Codebook (MSMC) approach to high-performance neural tts synthesis. A vector-quantized, variational autoencoder (vq-vae) based feature analyzer is used to encode Mel spectrograms of

neural tts synthesis msmc approach vq-vae triplet loss mos score

发现论文，激发创造

学习紧凑的语音表示以实现低资源语言的高质量神经语音合成

本文提出了一种用于提高低资源的 TTS 系统性能的方法，其利用紧凑的语音表示并利用 Multi-Stage Multi-Codebook (MSMC) VQ-GAN 学习 MSMCR 表示并解码成波形，并使用多阶段预测器从文本中预测 MSMCRs 进行 TTS 合成，并通过优化训练策略，利用训练集增强了微型语言环境下的训练质量，并在 MOS 测试中显示出优异的性能。

Oct, 2022

Zerospeech Challenge 2019 中的 VQVAE 无监督单元发现和多尺度 Code2Spec 反转器

我们利用 VQ-VAE 和 Code2Spec 实现了一个语音合成系统，并使用多种聚类算法和压缩方法进行了比较，结果在 ZeroSpeech Challenge 2019 中取得了显著的提高。

May, 2019

一种基于向量量化的方法用于实际自然语言转音频合成

使用真实世界的语音数据训练了一个新的 MQTTS 系统，其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配，提高了语音合成的质量，并在客观和主观指标上显示出优异性。

Feb, 2023

QS-TTS：基于向量量化的自监督语音表示学习的半监督文本朗读合成

本文提出了一种新颖的半监督文本到语音（TTS）框架 QS-TTS，通过利用更多未标记的语音音频，并借助向量量化的自监督语音表示学习（VQ-S3RL）来改善 TTS 质量，从而降低对有监督数据的需求。

Aug, 2023

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

DiscreTalk: 将文本转语音作为机器翻译问题

本文提出了一种基于神经机器翻译 (NMT) 的全自动文本语音 (E2E-TTS) 模型，该模型由非自回归向量量化变分自动编码器 (VQ-VAE) 模型和自回归 Transformer-NMT 模型两部分组成，实验结果表明，该模型在自然度方面表现优异，可与 VQ-VAE 模型的重构相媲美。

May, 2020

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021

通过建模残差多模态实现鲁棒的 FastSpeech 2

本篇论文通过引入 TVC-GMM，一种 Trivariate-Chain 高斯分布的混合模型，将过度平滑的 mel-spectrogram 有条件解码器进行建模，从而改善表达数据集中的音频质量。

Jun, 2023

基于音频编解码器的零样本文本到语音合成的改进：多模态背景和大型语言模型

通过将 Qformer 应用于多模态上下文信息，结合预训练的大型语言模型和音频编码器，我们提出了一种适应多种上下文 TTS 场景的全新语音合成模型，通过预测语义令牌和生成声学令牌来提高音频质量和说话人相似性。广泛的客观和主观评估结果表明，我们的方法在各种上下文 TTS 场景中优于基准模型。

Jun, 2024

无线通信和传感器网络中多模态数据融合的优化

本文提出了一种基于向量量化变分自编码器架构的多模态数据融合新方法，可以在 MNIST-SVHN 数据和 WiFi 光谱数据之间以及 5G 通信场景下实现卓越的重构性能，并通过端到端 CSI 反馈系统来压缩基站（eNodeB）和用户设备（UE）之间传输的数据，为各种类型的输入数据（CSI，光谱图，自然图像等）学习一个具有区分性的压缩特征空间，是针对计算资源有限的应用的一个合适的解决方案。

Feb, 2023