FastPitch：具有音高预测的并行语音合成

Jun, 2020

FastPitch：具有音高预测的并行语音合成

FastPitch: Parallel Text-to-speech with Pitch Prediction

Adrian Łańcucki

TL;DRFastPitch 是一种基于基频轮廓的全并行文本到语音模型，可以预测音高轮廓并生成更具表现力的语音，同时保留着便利的 Transformer 架构，具备很高的速度和语音合成质量。

Abstract

We present fastpitch, a fully-parallel text-to-speech model based on FastSpeech, conditioned on fundamental frequency contours. The model

fastpitch text-to-speech fundamental frequency contours expressive speech transformer architecture

发现论文，激发创造

增量式 FastPitch：基于分块的高质量文本语音合成

提出了增量 FastPitch，这是一种使用块基 FFT 块、受限的块注意力蒙版进行训练和固定尺寸过去模型状态进行推理的 FastPitch 变体，可以产生与并行 FastPitch 相当的语音质量，并且具有更低的延迟，适用于实时语音应用。

Jan, 2024

使用保留音色的音高增强提高 FastPitch 的音高可控性

本文介绍了针对最近开发的 FastPitch 说话人的音调控制模型，其生成的语音质量对平均音高偏离较大的音高值下降的问题，并提出了两种算法来改善 FastPitch 的鲁棒性，一是保留音色的变调算法，二是使用不同音高范围的语料库定义 FastPitch 的训练算法，实验结果表明这些算法可以提高 FastPitch 的音高控制能力。

Apr, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

FastSpeech 2: 快速高質量的端到端文本轉語音

提出了 FastSpeech 2，直接使用语音波形从文本中生成语音，并且通过使用更多的变化信息作为条件输入，解决了非自回归文本到语音模型中的一对多映射问题，从而实现更高的语音质量。

Jun, 2020

基于 Fastpitch 的转移学习改进儿童文本转语音合成

本研究通过采用迁移学习和 Fastpitch 文本到语音模型，提出了一种生成高质量合成儿童语音的新方法，并通过使用此方法生成的样本进行客观评估和唤醒词错误率验证，展示了真实和合成儿童声音之间的显著相关性。

Nov, 2023

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

AlignTTS: 无需显式对齐的高效前馈式语音合成系统

提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱，通过 duration predictor 决定每个字符的持续时间，而动态规划技术则用来考虑所有可能的对齐方式，比 Transformer TTS 更高效且在 MOS（平均意见分数）上优于它。

Mar, 2020

Adapitch: 基于音调分离无转录数据的多说话人文本到语音自适应

本篇论文提出 Adapitch 方法，使用无字幕数据对受监督模型进行自适应，并设计了两个自监督模块对文本编码器和 Mel 解码器进行训练，以增强文本和 Mel 的表征能力，同时使用内容分解的有条件 TTS 模块更好地处理合成音中的韵律信息。实验结果表明，Adapitch 比基准方法具有更好的语音合成质量。

Oct, 2022