StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

Apr, 2024

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

StoryTTS: A Highly Expressive Text-to-Speech Dataset with Rich Textual Expressiveness Annotations

Sen Liu, Yiwei Guo, Xie Chen, Kai Yu

TL;DR我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Abstract

While acoustic expressiveness has long been studied in expressive text-to-speech (ETTS), the inherent →

acoustic expressiveness text-to-speech expressiveness storytts textual expressiveness

发现论文，激发创造

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

具有语言信息的强调表达 TTS 技术

提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

May, 2023

使用少量人工注释的自然语言提示驱动的表达性语音合成

通过利用大型语言模型的语义推理能力，我们提出了 FreeStyleTTS（FS-TTS），一个具备最小人为注释的可控表达性语音合成模型，能够从原始输入文本或用户定义的描述中检索所需风格，从而实现灵活、多功能和精确的风格控制。

Nov, 2023

使用 Style 标签的生动文本转语音技术

本文提出了一种使用自然语言编写的样式标记的新型情感语音合成模型 StyleTagging-TTS，并使用预训练的语言模型对语言嵌入和说话风格域之间的关系进行建模，实现了对未见过的样式标记的控制。相比目前的表情 TTS 模型，该模型表现出更好的语音质量和表现力。

Apr, 2021

TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

我们提出了 TextrolSpeech，这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外，我们还提出了一种名为 Salle 的高效架构，将文本可控 TTS 作为一个语言模型任务处理，利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终，我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。

Aug, 2023

低资源场景下用于栋笃笑表演的语音合成技术

本研究构建了一个新的数据集，开发了 ComedicSpeech—— 适用于低资源场景下的单口喜剧合成的 TTS 系统，其灵活提取了韵律、个人节奏和填充词等个性特征，并展示了仅使用每位喜剧演员十分钟训练数据的情况下，比基线模型获得更好的表现。

May, 2023

一种全面级联系统、基准测试和人类评估协议，用于表达性语音翻译

本文提出了一个将多个韵律转移技术综合起来的综合层次系统（holistic cascade system）来把源语言的情感转移到目标语言中。我们还建立了一个基准的情感测试集来评估多重情感维度。实验结果表明，这种综合建模方法优于单一方面的研究。

Jan, 2023

高质量文本转语音数据集生成的自动化端到端开源软件

通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式，本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集，以满足对高质量数据的重要需求，从而简化 TTS 模型的数据集创建过程，促进基于语音的技术的发展。

Feb, 2024

提升无文字语音翻译中的表达能力转移

通过离散语音单元级别的多语情感嵌入，以及有效地预测目标语言中的语音单元的音高和持续时间，本研究展示了一种能够有效捕捉跨不同语言的表达能力的新方法，通过客观和主观实验，结果显示本方法在提高传达情感和文化细微差别方面优于当前先进系统的表达能力转移。

Oct, 2023

EMOVIE：一种普通话情感语音数据集及其简单情感文本转语音模型

本篇论文提供了包括 9,724 个样本的情感语音数据集，并提出了一种名为 EMSpeech 的情感语音合成模型，该模型无需参考音频即可从文本预测情感标签并生成更富表现力的语音。在实验中，作者验证了数据集的有效性，证明了该模型在情感语音合成任务中取得了显著性能。

Jun, 2021