基于发音器官学的可控表情语音合成

Jun, 2024

基于发音器官学的可控表情语音合成

Articulatory Phonetics Informed Controllable Expressive Speech Synthesis

Zehua Kcriss Li, Meiying Melissa Chen, Yi Zhong, Pinxin Liu, Zhiyao Duan

TL;DR通过声音的产生水平，我们以声韵学为基础，定义了一个由声门化、紧张度和共振三个维度构成的框架（GTR），来研究表达性语音合成，记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集（GTR-Voice），并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性，并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力，同时也开源了数据集和 TTS 模型。

Abstract

expressive speech synthesis aims to generate speech that captures a wide range of para-linguistic features, including emotion and articulation, though current research primarily emphasizes emotional aspects over the nuanced articulatory features mastered by professional voice actors. I

expressive speech synthesis articulatory phonetics gtr framework voice production level gtr-voice dataset

发现论文，激发创造

声道运动编码器：声道运动学作为语音编解码器

基于语音生理学基础，提出了语音的神经编码 - 解码框架 —— 声学编码器，通过训练大规模语音数据实现了完全可理解的、高质量的声学合成器，具有普适性和高性能，为语音的编码系统提供了有力支持。

Jun, 2024

情境表达式语音合成

本研究提出了一种新的任务设置，即什么样的语音是由特定环境所决定的，而非仅仅局限于情绪的预定义类别，为此，我们构建了一个综合数据集并开发了一个有效的框架来生成高质量的自然语音。

Nov, 2022

表达能力与语音合成

将机器赋予说话的能力一直是人工智能研究的长期追求。通过对语义意义和情感表达范围进行准确合成，我们正处在实现这一目标的边缘。本文概述了让我们取得如此成果的方法学进展，并勾勒了达到人工表达能力的下一个层次的不断努力。同时，我们还探讨了快速发展的表达性语音合成（ESS）技术的社会影响以及降低风险和确保 ESS 能力与道德规范对齐的方法。

Apr, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

具有语言信息的强调表达 TTS 技术

提出了一种基于 EE-TTS 的强调语音合成模型，该模型利用多层语言信息进行韵律信息的预测，并同时进行语音合成和语言信息输出，并经过实验证明其优于基线模型，并且在不同数据集上也具有较强的泛化能力。

May, 2023

通过预测基于标记的声学潜变量学习话语级表示以用于情感语音合成

本论文提出了一种表达性语音合成模型，该模型利用标记级别的潜在韵律变量来捕捉和控制话语级别属性，如角色配音和说话风格，其中的潜在细节级别空间同时也捕捉更粗粒度的信息。

Nov, 2022

情感语音合成的细粒度情感强度传输、控制和预测

本文提出了一种用于序列到序列的细粒度情感语音合成的统一模型，通过学习到的排名函数引入音素级情感强度表示来描述本地情感细节，并采用句子级情感类别来呈现合成语音的全局情感。

Nov, 2020

混合情感语音合成

本研究提出一种新的情感文本转语音框架，通过量化不同情绪之间的差异，训练模型并控制模型在运行时生成所需的情感混合，实现了语音情感合成研究中的情感混合模拟。

Aug, 2022