一种基于双向式文本到语音模型的新闻播报员声音合成方法，可适用于有限数据

ACLApr, 2019

一种基于双向式文本到语音模型的新闻播报员声音合成方法，可适用于有限数据

In Other News: A Bi-style Text-to-speech Model for Synthesizing Newscaster Voice with Limited Data

Nishant Prateek, Mateusz Łajszczak, Roberto Barra-Chicote, Thomas Drugman, Jaime Lorenzo-Trueba...

TL;DR本文提出了一种用于合成新闻播报风格的少量数据语音合成模型，它不仅使用了目标风格的韵律变化，而且在上下文中使用词嵌入进行条件约束，与中立 NTTS 和基于连接的中立合成相比，这个模型缩小了新闻播报风格语音与中立语音合成之间感知的风格适宜性差距约三分之二。

Abstract

neural text-to-speech synthesis (NTTS) models have shown significant progress in generating high-quality speech, however they require a large quantity of training data. This makes creating models for multiple styles expensive and time-consuming. In this paper different styles of speech

neural text-to-speech synthesis prosodic variations newscaster-style speech supplementary data contextual word embeddings

发现论文，激发创造

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

数据增强用于文本转语音的跨说话人风格转移

使用语音转换进行数据增强，构建单说话人多风格的 TTS 系统，实现控制不同说话人的风格和保留目标说话人身份的表达性语音转换。

Feb, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

通过合成注释实现高保真度文本转语音的自然语言指导

通过对大规模数据集进行训练的文本到语音模型展示了令人印象深刻的语境学习能力和自然度。然而，这些模型中的说话人身份和风格的控制通常需要以参考语音录音为基础，从而限制了其创造性应用。相反，关于说话人身份和风格的自然语言提示已经展示了有希望的结果，并提供了一种直观的控制方法。然而，依赖于人工标注的描述限制了其扩展到大规模数据集的能力。我们的工作弥合了这两种方法之间的差距。我们提出了一种可扩展的方法来对说话人身份、风格和录音条件的各个方面进行标注。然后，我们将这种方法应用到一个 45k 小时的数据集上，用于训练语音语言模型。此外，我们提出了简单的方法来增加音频保真度，尽管完全依赖于现有数据，但性能显著超越了最近的工作。我们的结果展示了通过单一模型和直观的自然语言条件，实现了高保真度的语音生成，在各种口音、韵律风格、信道条件和声学条件下均表现出色。可以在此网址听到音频样本。

Feb, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

元音风格语音：多说话人适应性文本转语音生成

该研究提出了一种名为 StyleSpeech 的新型神经文本到语音合成模型，其中使用 Style-Adaptive Layer Normalization 以及 Meta-StyleSpeech 等技术，实现了在只有短时音频样本的情况下，能够高质量地合成符合目标人物语音风格的语音。实验结果显示，该模型能够显著地超越基准模型。

Jun, 2021

以阿拉伯广播新闻为案例研究的 TTS 无监督数据选择

本文探讨了一种针对低资源语言的完全无监督的 TTS 建模方法，旨在提高语音生成的效率并让其更接近自然人类语音。在案例研究中，该方法成功地使用了广播新闻作为语料集，通过自动数据选择和预训练 / 微调策略，提高了模型的性能。

Jan, 2023

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

揭示表现力语音合成的潜在风格因素

本研究通过引入风格编码器，提出了一种基于数据驱动学习的语音合成模型，无需额外标注即可单独学习语音中的韵律风格，能够在一定程度上预测并控制合成语音的韵律风格。

Nov, 2017