呈现：零样本文本到韵律的控制

Aug, 2024

PRESENT: Zero-Shot Text-to-Prosody Control

Perry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman, Dorien Herremans

TL;DR本研究解决了当前语音合成中细粒度韵律控制的不足，提出了一种名为PRESENT的方法，能够在不需新的训练或样式嵌入的情况下实现韵律编辑。研究表明，该方法在零样本语言转移中表现优异，对德语、匈牙利语和西班牙的字典错误率显著改善，且实现了亚音素级别的控制，首次应用于基于快语音2的模型。

Abstract

Current strategies for achieving fine-grained prosody control in speech synthesis entail extracting additional style embeddings or adopting more complex architectures. To enable zero-shot application of pretraine

发现论文，激发创造

面向单说者神经文本转语音的细粒度鲁棒性韵律转移

本文提出一种神经文本转语音系统，通过使用变分自动编码器并在音标级别上聚合韵律特征，实现了从一个说话者到另一个说话者的精细韵律转移，并且解决了参考信号文本缺失的问题。主要关键字为“神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳”和“序列到序列”。

Jul, 2019

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

利用跨句BERT Embeddings改进韵律建模实现端到端语音合成

提出了一种使用上下文信息和 BERT 嵌入的文本表征来在端到端的方式中进行语调生成，实验表明这种方法可以显著提高合成语音的自然度和表现力，并可以通过更改相邻的句子间接地控制语调。

Nov, 2020

零样本多说话人文本语音中的准确声调复制

本论文采用utterance级别的规范化和发音人嵌入，在提取精细的韵律特征的同时，成功实现了音频发音人与其语调的克隆。通过客观评估和人工试验，结果表明可以在不降低质量的条件下，成功实现语音的克隆。

Jun, 2022

利用声学上下文调节、话语嵌入和参考编码器实现零样本基于文本的语音编辑

本文研究了基于文本声音编辑技术（Text-based voice editing，TBVE）的新方法，通过使用预训练说话人验证嵌入和联合训练参考编码器的方法，增强了语音中的说话人身份和韵律连续性。

Oct, 2022

通过学习离散音素级韵律表示实现可控语音合成

本文介绍一种使用直观的离散标签实现音素级F0和时长控制的新方法，其使用无监督的韵律聚类过程将音素级F0和时长特征离散化为韵律标签的输入序列，该模型不需要参考语音就能合成语音，并具有高质量的语音输出和有效的韵律控制能力。

Nov, 2022

从文本学会说话：无监督文本预训练的零射多语言语音合成

使用零样本学习和多语言语言模型，该研究提出了一种只使用目标语言文本数据进行多语言语音合成（TTS）的方法，其能够成功地为只有文本资源的低资源语言开发TTS系统，大大拓展了TTS的覆盖范围并能取得高度理解度。

Jan, 2023

Mega-TTS: 具有本征归纳偏置的大规模零样本文本转语音

该研究基于语音属性的分解和对应的感性偏见，提出了一种基于方谱的TTS系统Mega-TTS，训练了20k小时的语音数据，实现了零样本文本到语音的高质量生成。

Jun, 2023

FlashSpeech：高效零射击语音合成

闪电语音是一种大规模零样本语音合成系统，使用比之前的方法推理时间约占 5％，具有高音质和高相似性的性能，同时实现了语音处理的多样性。

Apr, 2024

USAT: 通用说话者自适应文本转语音方法

现有的文本转语音（TTS）研究主要致力于提高训练数据集中演讲者合成语音的质量。为迎接有限参考数据的见外/未训练演讲者进一步合成真实语音的挑战，我们提出了一个整合了零样本和少样本演讲者适应策略的框架。

Apr, 2024