重音文本转语音的明确强度掌控

Oct, 2022

Explicit Intensity Control for Accented Text-to-speech

Rui Liu, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li

TL;DR本文提出了一种直观明确的口音强度控制方案，首先从 L1 语音识别模型中提取后验概率，称为 “发音好坏度”，量化有重音的语音的音素重音程度，然后设计了一种基于 FastSpeech2 的 TTS 模型 Ai-TTS，在语音生成过程中考虑口音强度表达。实验证明，我们的方法在口音渲染和强度控制方面优于基线模型。

Abstract

Accented text-to-speech (TTS) synthesis seeks to generate speech with an accent (L2) as a variant of the standard version (L1). How to control the intensity of accent in the process of TTS is a very interesting research direction, and has attracted more and more attention. Recent work design a speaker-adversarial loss to disentangle the speaker and accent in

accented tts accent intensity control goodness of pronunciation l2 accent fastspeech2

发现论文，激发创造

可控口音的语音合成

该论文提出了一种神经网络 TTS 架构，可在推理期间控制重音和重音强度，并以三种新机制实现，即使用方案控制因子建模复杂的重音变异，量化重音强度的强调强度建模策略以及一致性约束模块。实验为该模型的重音渲染和强度控制性能提供了证明，并证明其是有史以来第一篇关于具有明确强度控制的重音 TTS 合成的研究。

Sep, 2022

文本转语音的细粒度情感控制：学习排名类内和类间情感强度

本文提出了一种精细可控的情感语音生成模型，考虑到类间和类内距离，能够产生有较大情感区别的自然语音，实验证明该模型的可控性、情感表现力和自然度均优于两种现有的同类模型。

Mar, 2023

QI-TTS: 用于情感语音合成的问句语调控制

本文提出 QI-TTS，通过多风格提取器和相对属性，实现了表达问句意图和转移 emmotion 的精细化音调控制，实验证明了其在情感语音合成中改善语调表达效果的有效性。

Mar, 2023

情感演讲合成与丰富的精细控制

本论文提出了一种有效的情感控制方法，用于端到端的文本到语音（TTS）系统，使用嵌入向量表示 TTS 输入并结合了内外情感距离比算法和插值技术来提高发音的表现力和可控性。主观评估表明所提算法优于传统方法。

Nov, 2019

EmoDiff：带软标签引导的可控强度情感语音合成

本文提出 EmoDiff 模型，采用分类器指导的软标签技术来控制情感强度，从而能够在维持高质量的同时精确控制情感强度，并能够生成出具有特定情感强度的多样化语音。

Nov, 2022

利用多层次 VAE 和对抗训练进行的文本转语音口音转化

提出了一种利用多级变分自编码器与对抗学习的文本转语音模型，用于解决语音合成和转换中的口音问题，以期构建更具包容性的系统。通过客观评价指标和主观听觉测试对性能进行评估，结果表明与基线相比，口音转换能力有所提高。

Jun, 2024

零数据的文本语音可控重音

本文提出了一种可扩展的方法来产生高质量的文本转语音 (TTS) 的强调效果，并在不需要录音或注释的情况下实现，通过预测强调词的持续时间的简单但有效的方法，比光谱图修改技术更好地改善自然度 7.3％，并通过 40％正确测试强调的单词在一个女性 en-US 参考语音的句子中的识别。

Jul, 2023

情感语音转换的情感强度及其控制

本文提出了一种基于情感标签库的情感语音转换网络，可以控制输出语音的细粒度情感强度和情感表达能力，并将说话人风格从语言内容中解耦，并用连续的空间中的样式嵌入来编码说话人风格。

Jan, 2022

评估利用 LLMs 进行文本生成中属性强度的平滑控制

大语言模型（LLM）的平滑控制在文本生成中具有重要意义，本论文提出了评估生成文本属性强度范围、校准度和一致性以及其与预期语境的相关性的度量指标，通过引入 Elo 评级系统和 GPT4 的评估方法来量化属性强度和上下文相关性，并研究了两种无需训练的实现语言模型平滑控制的方法：使用语义转换器进行提示和修改内部模型表示。

Jun, 2024

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020