使用大型语言模型控制说话风格以实现表情丰富的 TTS

May, 2023

使用大型语言模型控制说话风格以实现表情丰富的 TTS

Using a Large Language Model to Control Speaking Style for Expressive TTS

Atli Thor Sigurgeirsson, Simon King

TL;DR本研究旨在使用生成型语言模型与 TTS 模型，提供合适的发音特征，以更好地表达不同的说话风格和对话语境，从而提升语音合成的表现。

Abstract

Appropriate prosody is critical for successful spoken communication. contextual word embeddings are proven to be helpful in predicting prosody

prosody contextual word embeddings reference-based tts models generative language models tts prompts

发现论文，激发创造

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

文本转语音的预训练语言模型的比较分析

本研究旨在比较分析不同的预训练语言模型在文本转语音任务中的影响，包括韵律预测和停顿预测，并发现模型大小与质量之间存在对数关系，以及中性和表达韵律之间的显著性能差异。此外，还发现任务对较小模型不太敏感，并且我们的实证结果与这些语言模型的 GLUE 分数之间存在强相关性。据我们所知，这是第一项研究探究不同预训练语言模型对文本转语音影响的研究。

Sep, 2023

简单有效的多句 TTS 系统，具有表达和连贯的韵律

本文针对长文本合成语音的特殊困难，通过将上下文信息、强大文本特征和多人数据用于 Transformer-based FastSpeech 的简单扩展，改进了合成语音的韵律，其中 BERT 也受益于更多的训练数据。通过客观的停顿和速度指标和全面的主观评估，得出了一种较强的合成语音系统，其中包括所有改进扩展，相对于同类竞品在语音自然度方面表现出显著的提升。

Jun, 2022

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

情感和说话者条件下的语速生成

使用 CREMA-D 数据集，利用带情感的 GAN 生成相对于中性语音的音素长度，可以提供给 TTS 系统以生成更具表现力的语言。使用 IMLE 训练的生成模型也能够实现更好的中性语音机器生成，但仍需进一步主观评价的研究。

Jan, 2023