从文本预测端到端语音合成中的表现性语音风格

Aug, 2018

从文本预测端到端语音合成中的表现性语音风格

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

Daisy Stanton, Yuxuan Wang, RJ Skerry-Ryan

TL;DR本文介绍了一种名为 “Text-Predicted Global Style Token” 的结构，能够使用 GST 技术，仅通过文本预测生成带有语音样式的合成语音，无需显式标签或辅助输入，并证明其能生成比两种基线模型更多具有音高和能量变化的音频，并且能够成功地分离说话者身份和语音风格。

Abstract

global style tokens (GSTs) are a recently-proposed method to learn latent disentangled representations of high-dimensional data. GSTs can be used within tacotron, a state-of-the-art end-to-end text-to-

global style tokens tacotron text-predicted global style token speech synthesis multi-speaker

发现论文，激发创造

Style Tokens：端到端语音合成中的无监督风格建模、控制和转移

本文提出了 “全局风格标记”（GST），即在 Tacotron 中共同训练的嵌入库，用于无标签的声学建模，可用于控制合成音频的速度、讲话风格和样式转换，从而提高生成长篇文本的效率和鲁棒性。

Mar, 2018

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

用于受控文本风格转换的删除、检索、生成方法转换

本文提出了一种新的手段 —— 生成式转换器（GST），其使用无监督的预训练语言模型和 Transformer，以重写句子以达到目标风格的目的，并使用 GLEU 评估度量，超出其他当今最先进的情感、性别和政治审查数据集上的性能。

Aug, 2019

具高效的分层变换器的生成式预训练语音语言模型

我们介绍了一种用于有效语音语言建模的层次变压器的生成预训练语音变压器 (GPST)，它将音频波形量化为两种不同类型的离散语音表示，并在层次变压器架构中进行集成，从而实现统一的单阶段生成过程并增强 Hi-Res 音频生成能力。通过以端到端无监督的方式在大型语音语料库上进行训练，GPST 可以生成具有多样说话人身份的句法一致的语音。给定一个简短的 3 秒提示，GPST 可以产生自然连贯的个性化语音，展示了上下文学习能力。此外，我们的方法可以通过结合多语义令牌和通用声学令牌轻松扩展到口语跨语言语音生成。实验结果表明，GPST 在词错误率、语音质量和说话人相似度方面明显优于现有语音语言模型。详情请参见 https://youngsheen.github.io/GPST/demo。

Jun, 2024

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Nov, 2020

基于风格描述的条件韵律层归一化扩散生成对抗网络的文本转语音

使用基于扩散生成对抗网络的方法（Prosodic Diff-TTS），通过将风格描述和内容文本作为输入生成仅经过 4 个去噪步骤的高保真语音样本。它利用了新颖的条件韵律层归一化，将风格嵌入结合到基于多头注意力的音素编码器和基于梅尔频谱图解码器的生成器体系结构中来生成语音。风格嵌入是通过在辅助任务上微调预训练的 BERT 模型，如音高、说话速度、情感和性别分类等生成的。我们使用多种量化指标对我们提出的架构在多说话人 LibriTTS 和 PromptSpeech 数据集上的有效性进行了验证，以衡量生成的准确性和 MOS 值。

Oct, 2023

GenerSpeech: 通向可推广的跨域文本转语音风格转移

GenerSpeech 是一种用于处理 out-of-domain (OOD) 语音合成的文本到语音模型，具有高保真的零样式迁移能力。它通过两个组件将语音变化分解为样式不可知和样式特定部分，以提高模型的泛化能力，并在零样式迁移和自适应样式迁移方面超过了现有技术。

May, 2022

基于言语风格潜在表示的端到端文本转语音技术：基于自然对话的研究

本研究旨在实现一种接近于人类对话的 TTS，通过基于 VAE/GMVAE-VITS 的训练，利用上下文信息来综合预测所需样式的语音合成，实验结果表明，该方法在对话级别的自然度方面优于原本的 VITS。

Jun, 2022

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023