Seq2Seq 模型的深度语音合成系统
该论文提出了一种基于深度卷积神经网络的新型文本转语音(TTS)技术,通过只使用 CNN 架构而无需循环单元,成功实现了 TTS,且相比当前的基于循环神经网络的技术更加经济高效,并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。
Oct, 2017
Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的 WaveNet 推断内核,实现了 400 倍的实时速度。
Feb, 2017
本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型,通过预训练的方式,向转换模型传递语音相关的知识,实现数据高效训练,提高语音转换的清晰度、自然度和相似度。
Dec, 2019
最近关于文本到语音合成(TTS)的研究表明,使用语言模型驱动的 TTS 展示了卓越的能力,能够实现自然度和零样本声音克隆。本文提出使用新兴递归架构替代变压器,并引入专门的交叉关注机制以减少重复和跳跃问题。结果,我们的架构能够在长音频样本上高效训练,并在相同规模的基准模型上实现最先进的零样本声音克隆。
Jun, 2024
本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题,在效率和性能方面实现了 state-of-the-art 表现。
Sep, 2018
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
基于深度卷积神经网络的轻量级文本转语音系统,通过 CNN-based 序列合成技术,使用数据增强方法减少训练时间,同时保证合成语音的质量和自然度。
Mar, 2024
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
本文提出了一种基于深度卷积神经网络的语音合成系统,通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法,提高了模型的泛化性和鲁棒性;最终实验结果表明,在确保合成语音质量的同时,仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。
Oct, 2022
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021