英文语音合成的统一前端框架

May, 2023

a unified front-end framework for english text-to-speech synthesis

Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, YuanYuan Huo...

TL;DR该论文提出了一种统一的前端框架，以捕捉英语 TTS 前端模块之间的相互依赖关系，从而实现了所有模块的最新水平性能。

Abstract

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and pho

english tts front-end framework prosodies phonemes grapheme-to-phoneme

发现论文，激发创造

面向并行 TTS 前端建模的先验不可知多尺度对比文本 - 音频预训练

在本文中，我们提出了一种名为 TAP-FM 的新型 TTS 前端预测流水线，它包括 Multi-scale Contrastive Text-audio Pre-training（MC-TAP）协议和并行化的 TTS 前端模型，通过在无监督学习中采用多粒度对比预训练来获得更丰富的见解，以及执行 TN、PD 和 PBP 预测任务，实验证明了我们提出方法的卓越性能。

Apr, 2024

基于多语言上下文的语音合成中文字发学习

该研究提出了一个多语种统一的前端系统，通过建模语音信息和语言知识，在处理发音相关任务时取得了有竞争力的结果。

Jul, 2023

端到端对抗文本转语音

该研究提出了一种基于端到端的方式来从文本或音素中生成语音的方法，使用逐字符或逐音素音频输出序列，通过可微分的对齐策略来保证高保真度音频的生成，实现了在不需要多阶段训练和额外监督下，比之前的技术达到了相似的高质量合成音效。

Jun, 2020

多语言文本分析用于文本到语音合成

本文介绍了一种基于（加权）有限状态转化器的文本分析模型，可用于 TTS 合成，其使用词汇工具包构建转换器，适用于 8 种语言，包括西班牙语、意大利语、罗马尼亚语、法语、德语、俄语、普通话和日语。

Aug, 1996

前端文本处理中的多任务学习在 TTS 中的应用

我们提出了一个多任务学习（MTL）模型，用于共同完成文本转语音（TTS）前端中常见的三个任务：文本规范化（TN），词性标注（POS）和同音异义词消歧（HD）。我们的框架利用了树状结构，其中包含一个主干，用于学习共享表示，以及分别的任务特定头。我们进一步结合了一个预训练的语言模型，利用其内置的词汇和语境知识，并研究了如何最好地利用其嵌入以最大程度地使我们的多任务模型受益。通过任务层面的消融实验，我们证明了我们在所有三个任务上训练得到的完整模型相比于只训练于个别或子组合任务的模型具有最强的整体性能，证实了我们的多任务学习框架的优势。最后，我们引入了一个新的 HD 数据集，其中包含多种上下文中平衡的句子，用于研究各种同音异义词及其发音。我们表明，将该数据集纳入训练中相比于仅使用常用但不均衡的预先存在的数据集，显著提高了 HD 性能。

Jan, 2024

Tacotron: 面向端到端的语音合成

该研究提出了 Tacotron，一种端到端的生成式文本转语音模型，通过多个关键技术在序列到序列的框架下进行良好性能表现，同时模型以帧为单位直接生成语音，表现自然度和速度方面优于传统的参数化系统。

Mar, 2017

UnifySpeech: 零样本文本转语音和语音转换的统一框架

该论文提出了 UnifySpeech 模型，它首次将文字转语音（TTS）和语音转换（VC）结合到一个框架中，通过矢量量化和域限制技术，加强了 TTS 的说话人建模能力和 VC 的语音内容解耦能力。

Jan, 2023

ESPnet2-TTS: TTS 研究的扩展边界

本研究介绍了一个名为 ESPnet2-TTS 的端到端文本转语音工具包，支持实时灵活预处理、神经语音编码器联合训练、先进的 TTS 模型及预训练模型。实验结果表明，该工具包生成的语音接近于真实语音，达到了顶尖水平。

Oct, 2021

基于前缀到前缀框架的增量式文本转语音合成

利用前缀到前缀框架构建的神经增量文本转语音系统，实现了在线语音合成，从而将计算延迟和输入延迟分别降至 O (1) 水平。

Nov, 2019

MM-TTS: 多模态、情绪感应文本转语音综合的统一框架

Multimodal Emotional Text-to-Speech System (MM-TTS) is proposed, which leverages emotional cues from multiple modalities, addresses the limitations of current approaches in capturing human emotions, and achieves superior performance compared to traditional Emotional Text-to-Speech models.

Apr, 2024