可控口音的语音合成

Sep, 2022

Controllable Accented Text-to-Speech Synthesis

Rui Liu, Berrak Sisman, Guanglai Gao, Haizhou Li

TL;DR该论文提出了一种神经网络 TTS 架构，可在推理期间控制重音和重音强度，并以三种新机制实现，即使用方案控制因子建模复杂的重音变异，量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明，并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。

Abstract

Accented text-to-speech (TTS) synthesis seeks to generate speech with an accent (L2) as a variant of the standard version (L1). Accented TTS synthesis is challenging as L2 is different from L1 in both in terms of phonetic rendering and prosody pattern. Furthermore, there is no easy sol

accented text-to-speech synthesis neural tts architecture accent intensity control prosody pattern phonetic rendering

发现论文，激发创造

重音文本转语音的明确强度掌控

本文提出了一种直观明确的口音强度控制方案，首先从 L1 语音识别模型中提取后验概率，称为 “发音好坏度”，量化有重音的语音的音素重音程度，然后设计了一种基于 FastSpeech2 的 TTS 模型 Ai-TTS，在语音生成过程中考虑口音强度表达。实验证明，我们的方法在口音渲染和强度控制方面优于基线模型。

Oct, 2022

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

Jun, 2024

文本转语音的细粒度情感控制：学习排名类内和类间情感强度

本文提出了一种精细可控的情感语音生成模型，考虑到类间和类内距离，能够产生有较大情感区别的自然语音，实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。

Mar, 2023

QI-TTS: 用于情感语音合成的问句语调控制

本文提出 QI-TTS，通过多风格提取器和相对属性，实现了表达问句意图和转移 emmotion 的精细化音调控制，实验证明了其在情感语音合成中改善语调表达效果的有效性。

Mar, 2023

PoeticTTS -- 用于文学研究的可控诗歌朗读

本研究提出了一种方法，对诗歌进行语音合成，从而使文学学者可以系统地研究文本、口语实现和听众对诗歌的感知之间的相互影响，并发现该方法在客观评估和人类研究中取得了成功。

Jul, 2022

神经语音合成调查

本文全面调研了神经网络 TTS 在包括文本分析、声学模型、声码器等方面的研究进展，进一步总结了相关资源（数据集、开源实现），并提出了未来的研究方向。

Jun, 2021

半监督生成建模用于可控语音合成

本文提出一种新颖的生成模型，它将最先进的神经文本到语音技术和半监督概率潜变量模型相结合。通过对某些潜变量进行部分监督，我们能够强制它们具有一致和可解释的特征，这在纯无监督的文本到语音模型中过去是不可能的。我们证明了我们的模型能够可靠地发现和控制语音的重要属性（例如情感和语速），即使只监督 1％（30 分钟）。在这样低的监督水平下，我们观察不到合成质量与最先进的基线水平相比的下降。

Oct, 2019

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

层次式生成模型用于可控语音合成

该研究提出了一种神经序列到序列的文本转语音模型，基于变分自动编码器（VAE）框架，通过两级分层潜变量，实现对生成语音中很少被训练数据标记的潜在属性的控制，包括口音、语速、噪声等，其中第一级为类别变量，第二级为多元高斯变量，通过高斯混合模型 (GMM) 实现。经广泛评估，该模型展现出控制这些潜在属性的能力。

Oct, 2018