SC VALL-E：风格可控的零样本文本到语音合成器

Jul, 2023

SC VALL-E：风格可控的零样本文本到语音合成器

SC VALL-E: Style-Controllable Zero-Shot Text to Speech Synthesizer

Daegyeom Kim, Seongho Hong, Yong-Hoon Choi

TL;DR本研究提出了基于神经编解码语言模型（VALL-E）的风格控制（SC）VALL-E 模型，用以生成具有可控属性的表达性语音，并通过与其他模型的比较实验评估其性能。

Abstract

expressive speech synthesis models are trained by adding corpora with diverse speakers, various emotions, and different speaking styles to the dataset, in order to control various characteristics of speech and generate the desired voice. In this paper, we propose a →

expressive speech synthesis style control neural codec language model attribute control comparative experiments

发现论文，激发创造

神经编解码语言模型是零样本文本到语音合成器

本文介绍了一种基于语言模型的文本到语音合成方法，使用名为 Vall-E 的神经编解码器语言模型，通过在预训练阶段将 60K 小时的英语语音数据进行规模扩大，可以使用仅三秒的不同说话人的注册录音作为语音提示来合成高质量的个性化语音，并能够在保持发言人情感和声学环境的前提下，提高声音自然度和发言人相似度。

Jan, 2023

VALL-E 2: 神经编码语言模型为人类水平的零 - shot 文本到语音合成器

VALL-E 2 是零样本文本到语音合成领域最新的神经编解码模型，首次实现了人类水平的合成，并引入了两个重要的改进：重复感知采样和编解码编组建模。实验结果表明 VALL-E 2 在语音鲁棒性、自然程度和说话者相似性方面均超过了之前的系统，在 LibriSpeech 和 VCTK 数据集上取得了人类水平的合成效果，具有很大的潜在应用价值。

Jun, 2024

VALL-E R：鲁棒高效的零射文本语音合成方法：单调对齐

利用离散神经音频编解码器，我们提出了 VALL-E R，一个强大且高效的零 - shot 语音合成系统，通过引入音素单调对齐策略和编解码器合并方法，提高了音素的可控性，加快了解码速度，并取得了接近真实语音的字词错误率和超过 60% 的推理时间减少。

Jun, 2024

使用您自己的语音发出外语：跨语言神经编解码语言建模

本研究提出了一种跨语言神经编解码语言模型，VALL-E X，用于跨语言语音合成，并通过实验证明其在零样本跨语言文本到语音合成和零样本语音到语音翻译任务中能够生成质量高的语音。此外，VALL-E X 可有效缓解外国口音问题，可通过语言 ID 控制。

Mar, 2023

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

该研究提出了 ELLAA-V，一种基于语言模型的零样本文本转语音框架，可以在音素级别实现合成音频的细粒度控制，并且在准确性和稳定性方面优于现有方法。

Jan, 2024

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

ControlSpeech: 实现解耦编解码器的零样本复制和零样本语言风格控制的同时处理

控制语音 (ControlSpeech) 是一个文本到语音系统，能够完全克隆说话者的声音，并且可以根据几秒钟的音频提示和简单的文本风格描述提示进行任意控制和调整。

Jun, 2024

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018

RALL-E: 强大的编解码器语言建模与思维链刺激在文本合成中的应用

RALL-E 是一种用于文本到语音合成的鲁棒语言建模方法，通过链式思维提示和自注意力机制来增强基于大型语言模型的语音合成的稳健性。

Apr, 2024