ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

May, 2023

ZET-Speech：基于扩散和基于风格的模型的零样本自适应情感可控语音合成

ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models

Minki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang

TL;DR本文提出了一种零样本适应情绪可控 TTS 模型 ZET-Speech，旨在实现对任何说话者情感语音的合成，采用了域对抗学习和扩散模型的引导方法，实验结果表明，ZET-Speech 成功地合成了所需情感的自然和情感语音，适用于已知和未知说话者。

Abstract

emotional text-to-speech (TTS) is an important task in the development of systems (e.g., human-like dialogue agents) that require natural and emotional speech. Existing approaches, however, only aim to produce emotional TTS for seen speakers during training, without consideration of th

emotional text-to-speech zet-speech zero-shot adaptive tts model domain adversarial learning diffusion model

发现论文，激发创造

AdaSpeech 4: 零 - shot 场景下的自适应文本转语音

本文提出了一个高质量的语音合成系统 AdaSpeech 4，用于零样本适应性文本到语音。该系统通过将说话者特征系统地建模来提高对新说话者的泛化能力，并通过三个步骤改善了建模。除了利用条件层归一化将提取的说话人特征整合到 TTS 模型中之外，本文基于基向量的分布提出了一种新的监督损失，以在生成的 Mel 声谱图中保持相应的说话人特征。在多个数据集中，AdaSpeech 4 实现了比基线更好的语音质量和相似性，而无需进行任何微调。

Apr, 2022

透过零训练样本的情感和言语阻碍生成实现人性化的语音合成

现代对话系统在情感深度和人类交互特征方面存在重大局限。为弥补这一差距，我们设计了一种创新的语音合成流程，通过零 - shot 设置下的先进语言模型将人类情感和不流畅的特质引入生成的文本，从而更好地模拟人类语音模式，提供更直观自然的用户交互，产生几乎无法与真实人类交流区分的合成语音，使每次交互更具个人化和真实性。

Mar, 2024

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

神经 TTS 中的文本驱动情感风格控制与跨说话人风格转移

该论文提出了一种基于文本的情感风格控制接口和跨说话人风格转移方法，利用双模态风格编码器以及新的风格损失函数，实现高质量的表达性语音合成。

Jul, 2022

NaturalSpeech 2: 潜在扩散模型是自然且零 - shot 的语音和歌唱合成器

本研究提出了一种利用神经音频编解码器和扩散模型生成取定潜向量的文本转语音系统，同时设计了自然语音提示机制以促进扩散模型和时域 / 频域预测器的上下文学习，能够实现不同说话人以及多样化合成的语音转换。实验表明，在零样本情况下，与之前的 TTS 系统相比，本系统在语调、音色相似度、鲁棒性和音质方面都有显著的提高，并能通过只提供语音提示来实现新的零样本歌唱合成。

Apr, 2023

利用跨领域语音情感识别协助，使用无标记情感数据集进行情感可控语音合成

本文提出了一种新颖的情感文本转语音合成方法，通过跨域语音情感识别模型和情感文本转语音模型进行联合训练，从而在不需要情感标签的 TTS 数据集上生成具有情感表现力的语音，并且几乎不影响其语音质量。

Oct, 2020

强化学习用于情绪文本转语音合成中情感区分性的提高

本研究提出一个新的交互式训练范式（i-ETTS）以及一种迭代的强化学习训练策略，应用于情感文本朗读合成 (ETTS) 任务，此方法以情感识别为指导，提高情感可辨别性，在清楚地传达出文字情感的同时，提供更加准确的情感朗读效果，实验结果表明此方法优于当前最先进的基线方法，且是首次在情感文本朗读合成任务中引入强化学习技术。

Apr, 2021

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外 / 未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的 TTS 系统 Mega-TTS，训练了 20k 小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

面向阿拉伯方言的零射 Text-To-Speech

构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。

Jun, 2024