提出了增量 FastPitch,这是一种使用块基 FFT 块、受限的块注意力蒙版进行训练和固定尺寸过去模型状态进行推理的 FastPitch 变体,可以产生与并行 FastPitch 相当的语音质量,并且具有更低的延迟,适用于实时语音应用。
Jan, 2024
本文介绍了针对最近开发的 FastPitch 说话人的音调控制模型,其生成的语音质量对平均音高偏离较大的音高值下降的问题,并提出了两种算法来改善 FastPitch 的鲁棒性,一是保留音色的变调算法,二是使用不同音高范围的语料库定义 FastPitch 的训练算法,实验结果表明这些算法可以提高 FastPitch 的音高控制能力。
Apr, 2022
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
提出了 FastSpeech 2,直接使用语音波形从文本中生成语音,并且通过使用更多的变化信息作为条件输入,解决了非自回归文本到语音模型中的一对多映射问题,从而实现更高的语音质量。
Jun, 2020
本研究通过采用迁移学习和 Fastpitch 文本到语音模型,提出了一种生成高质量合成儿童语音的新方法,并通过使用此方法生成的样本进行客观评估和唤醒词错误率验证,展示了真实和合成儿童声音之间的显著相关性。
Nov, 2023
Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的 WaveNet 推断内核,实现了 400 倍的实时速度。
Feb, 2017
本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统,通过几个特殊设计的组件 / 技术改善了文本到语音的对齐,并在多个数据集上展示了其效果。
通过使用一种基于序列对序列神经网络的方法,对音频语音特征进行条件训练,以学习一个直观且有意义的潜在韵律空间,进一步控制音调、音高、语音能量等特征参数,生成多种音色,并维持与 Tacotron 基线模型相似的评分(4.26/4.23)。
Sep, 2020
提出了基于前馈 transformer 的 AlignTTS 来预测 mel 频谱,通过 duration predictor 决定每个字符的持续时间,而动态规划技术则用来考虑所有可能的对齐方式,比 Transformer TTS 更高效且在 MOS(平均意见分数)上优于它。
Mar, 2020
本篇论文提出 Adapitch 方法,使用无字幕数据对受监督模型进行自适应,并设计了两个自监督模块对文本编码器和 Mel 解码器进行训练,以增强文本和 Mel 的表征能力,同时使用内容分解的有条件 TTS 模块更好地处理合成音中的韵律信息。实验结果表明,Adapitch 比基准方法具有更好的语音合成质量。
Oct, 2022