低资源场景下用于栋笃笑表演的语音合成技术

May, 2023

低资源场景下用于栋笃笑表演的语音合成技术

ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios

Yuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song

TL;DR本研究构建了一个新的数据集，开发了 ComedicSpeech—— 适用于低资源场景下的单口喜剧合成的 TTS 系统，其灵活提取了韵律、个人节奏和填充词等个性特征，并展示了仅使用每位喜剧演员十分钟训练数据的情况下，比基线模型获得更好的表现。

Abstract

text to speech (TTS) models can generate natural and high-quality speech, but it is not expressive enough when synthesizing speech with dramatic expressiveness, such as stand-up comedies. Considering comedians have diverse personal speech styles, including personal prosody, rhythm, and

text to speech stand-up comedy prosody representation rhythm modeling personal fillers

发现论文，激发创造

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

TextrolSpeech：一种带编解码语言文本风格控制的语音语料库

我们提出了 TextrolSpeech，这是一个与丰富文本属性一起注释的首个大规模语音情感数据集。该数据集包含 236,220 对以自然文本描述为样式提示的样式提示和对应的语音样本。此外，我们还提出了一种名为 Salle 的高效架构，将文本可控 TTS 作为一个语言模型任务处理，利用音频编解码代码作为中间表示来替代传统的 mel 频谱图。最终，我们成功展示了该模型在可控 TTS 任务中具有可比较的性能。

Aug, 2023

StyleTTS：一种基于样式的生成模型，用于自然且多样化的文本转语音合成

提出了 StyleTTS，一种基于风格的生成模型，用于生成具有自然韵律的多样化语音，通过自监督学习表示发声风格，无需明确标记。在内部评估中，该模型在单人和多人语音数据集中均优于最先进的模型。

May, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

StoryTTS：一个具有丰富文本表达注释的高度表现力的文本到语音数据集

我们介绍了 StoryTTS，一种包含丰富的声学和文本表现力的 ETTS 数据集，通过系统和全面的标注框架定义了五个维度的文本表现力，并使用大型语言模型进行批量注释，结果是包含 61 小时的连续且高度抑扬顿挫的语音，带有准确的文本转录和丰富的文本表现力注释。实验证明，当与 StoryTTS 中的文本标签集成时，TTS 模型能够生成具有改进表现力的语音。

Apr, 2024

高质量文本转语音数据集生成的自动化端到端开源软件

通过集成特定语言的音位分布、自动化录制过程、自动化和人机协同质量保证、以及记录的处理以符合指定格式，本文引入了一种端到端工具以生成文本到语音 (TTS) 模型的高质量数据集，以满足对高质量数据的重要需求，从而简化 TTS 模型的数据集创建过程，促进基于语音的技术的发展。

Feb, 2024

ContextSpeech：适用于段落阅读的表现力强、有效率的文本转语音技术

该论文提出了一种轻量级而有效的 TTS 系统 ContextSpeech，采用记忆缓存的复现机制和分层结构的文本语义，以及线性化的自注意力机制来增强全局文本和语音语境，并在长篇阅读中显着提高了语音质量和语调表现力。

Jul, 2023

非流畅语音 -- 单说者会话语音数据集与言语表情

研究表明，非语言语音如笑声、叹息、结巴等虽不直接提供词汇含义，但其提供的语义和语用上下文对理解其间的讽刺等有重要作用。本研究提出了 DisfluencySpeech，一个以真实对话模拟形式重现 Switchboard-1 电话语音语料库中出色演讲的英语语音数据集，为开发能够预测性地从文本中合成非语言语音的 TTS 模型提供了帮助。

Jun, 2024

低资源表达文本朗读的分布增强

本文介绍了一种新的数据增强技术，用于文本到语音的任务，能够生成新的（文本，音频）训练样本，而无需额外的数据。该方法可增加训练期间可用的文本条件的多样性，有助于减少过拟合，特别是在低资源环境下。我们将文本和音频段进行替换以确保语法正确性，并采取额外措施确保合成的语音不含有由于组合不一致的音频样本而导致的伪影。感知评估结果表明，我们的方法改善了许多数据集、说话人和 TTS 体系结构的语音质量，并能大大提高基于注意力的 TTS 模型的鲁棒性。

Feb, 2022

使用大型语言模型控制说话风格以实现表情丰富的 TTS

本研究旨在使用生成型语言模型与 TTS 模型，提供合适的发音特征，以更好地表达不同的说话风格和对话语境，从而提升语音合成的表现。

May, 2023