面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

Apr, 2024

面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling

Quanxiu Wang, Hui Huang, Mingjie Wang, Yong Dai, Jinzuomu Zhong...

TL;DR在本文中，我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线，它包括 Multi-scale Contrastive Text-audio Pre-training（MC-TAP）协议和并行化的 TTS 前端模型，通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解，以及执行 TN、PD 和 PBP 预测任务，实验证明了我们提出方法的卓越性能。

Abstract

Over the past decade, a series of unflagging efforts have been dedicated to developing highly expressive and controllable text-to-speech (TTS) systems. In general, the holistic TTS comprises two interconnected components: the frontend module and the backend module. The frontend excels in capturing linguistic representations from the raw text input, while the

text-to-speech systems frontend module multi-scale contrastive text-audio pre-training tts frontend model state-of-the-art performance

发现论文，激发创造

英文语音合成的统一前端框架

该论文提出了一种统一的前端框架，以捕捉英语 TTS 前端模块之间的相互依赖关系，从而实现了所有模块的最新水平性能。

May, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

前端文本处理中的多任务学习在 TTS 中的应用

我们提出了一个多任务学习（MTL）模型，用于共同完成文本转语音（TTS）前端中常见的三个任务：文本规范化（TN），词性标注（POS）和同音异义词消歧（HD）。我们的框架利用了树状结构，其中包含一个主干，用于学习共享表示，以及分别的任务特定头。我们进一步结合了一个预训练的语言模型，利用其内置的词汇和语境知识，并研究了如何最好地利用其嵌入以最大程度地使我们的多任务模型受益。通过任务层面的消融实验，我们证明了我们在所有三个任务上训练得到的完整模型相比于只训练于个别或子组合任务的模型具有最强的整体性能，证实了我们的多任务学习框架的优势。最后，我们引入了一个新的 HD 数据集，其中包含多种上下文中平衡的句子，用于研究各种同音异义词及其发音。我们表明，将该数据集纳入训练中相比于仅使用常用但不均衡的预先存在的数据集，显著提高了 HD 性能。

Jan, 2024

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

May, 2023

多模式自动韵律标注与对比预训练的 SSWP

在表达性文本转语音（TTS）领域中，显式的语调边界极大地提升了合成语音的自然度和可控性。本论文提出了一个新颖的两阶段自动注释流程，通过对对比的文本 - 语音空间进行预训练来增强从联合文本 - 语音空间中提取的语调空间，并构建了一个多模态语调标注器，该模型在自动生成语调标注方面表现优异，达到了最先进的性能水平，并且在不同数据量的测试中展现出了显著的鲁棒性。

Sep, 2023

通过基于流的语音转换进行跨语言知识蒸馏，用于稳健的多语言文本到语音转换

该研究提出了一个跨语言语音合成框架，包括上游声码转换模型和下游文本转语音模型。通过在四个阶段中使用声码转换模型将目标语音转换为目标说话人的声音、联合目标语言的语言特征和持续时间进行单一说话人声学模型的训练以及设计一种与地区无关的波形合成器等方法，我们的评估表明这种方法优于现有的基于多语言训练模型的方法，并在不同的模型结构、语言、说话人和数据量方面展现出其鲁棒性，尤其适用于资源匮乏环境。

Sep, 2023

Dict-TTS: 带有先验字典知识的学习发音文本转语音

本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Jun, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

带有对抗学习的条件变分自编码器用于端到端的文本转语音

本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法，还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他公开数据集上的最佳 TTS 系统，并能达到类似于真实语音自然度的效果。

Jun, 2021