Style Tokens：端到端语音合成中的无监督风格建模、控制和转移

Mar, 2018

Style Tokens：端到端语音合成中的无监督风格建模、控制和转移

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ Skerry-Ryan, Eric Battenberg...

TL;DR本文提出了 “全局风格标记”（GST），即在 Tacotron 中共同训练的嵌入库，用于无标签的声学建模，可用于控制合成音频的速度、讲话风格和样式转换，从而提高生成长篇文本的效率和鲁棒性。

Abstract

In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness.

global style tokens embedding speech synthesis style transfer acoustic modeling

发现论文，激发创造

从文本预测端到端语音合成中的表现性语音风格

本文介绍了一种名为 “Text-Predicted Global Style Token” 的结构，能够使用 GST 技术，仅通过文本预测生成带有语音样式的合成语音，无需显式标签或辅助输入，并证明其能生成比两种基线模型更多具有音高和能量变化的音频，并且能够成功地分离说话者身份和语音风格。

Aug, 2018

用于受控文本风格转换的删除、检索、生成方法转换

本文提出了一种新的手段 —— 生成式转换器（GST），其使用无监督的预训练语言模型和 Transformer，以重写句子以达到目标风格的目的，并使用 GLEU 评估度量，超出其他当今最先进的情感、性别和政治审查数据集上的性能。

Aug, 2019

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

通过音素级内容 - 风格解耦实现文本转语音合成中的细粒度风格建模、转移和预测

该论文提出了一种新型的神经网络系统，用于情感文本转语音合成中的细粒度风格建模、转移和预测，该系统通过从音素水平的语音段的梅尔光谱图中提取风格嵌入来实现细粒度建模，并应用协作学习和对抗学习策略来实现内容和风格因素的有效区分。该系统不仅可以用于单个说话者情况下的不同内容的语音风格转移，还可以用于文本到语音合成，并在内容保留方面表现更好。

Nov, 2020

ZS-MSTM: 基於對抗解綜多模態風格編碼的零樣式轉移理論在從文本和語音驅動的手勢動畫中的應用

本研究利用机器学习方法进行虚拟代理人的行为风格建模，通过多模态数据进行风格转换，包括不同演讲者的手势合成。通过实验证明，该方法能更好地捕捉语音中的风格信息，不受测试阶段未见演讲者的影响。

May, 2023

端到端语音合成中学习风格控制与转移的潜在表示

本文介绍了利用变分自编码器（VAE）来实现语音合成模型的端到端学习，以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性，使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示，然后将其馈入 TTS 网络来引导语音合成中的风格，可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃，采用了多种技术。最后，所提出的模型在风格控制上表现良好，并在风格转移的 ABX 偏好测试中优于全局风格令牌（GST）模型。

Dec, 2018

SC VALL-E：风格可控的零样本文本到语音合成器

本研究提出了基于神经编解码语言模型（VALL-E）的风格控制（SC）VALL-E 模型，用以生成具有可控属性的表达性语音，并通过与其他模型的比较实验评估其性能。

Jul, 2023

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

风格均衡：可控生成序列模型的无监督学习

本文介绍了解决无监督学习中可控生成序列模型的训练 - 推断不匹配问题的方法，该方法利用样式转换模块将目标样式信息转移至无关样式输入进行训练，实现了在未配对的内容和样式样本下进行训练并缓解了训练 - 推断不匹配问题，通过文本到语音合成和文本到手写合成的实验验证了提出的样式均衡方法，结果表明在用户研究中，该方法实现了与实际数据相当的风格复制分数。

Oct, 2021