利用 RAD-TTS 对齐器的自动多音字解析流水线
本文提出了使用神经序列到序列模型进行语音转换的方法,这个方法可以用在多种语言上,并且相比于基于高资源单语言模型适应低资源语言的方法,我们的方法在语音识别上的表现有显著提升,同时我们的模型更加紧凑。
Aug, 2017
本文提出了一种基于回译的数据增强方法,采用大量未标注的文本数据来解决中文多音字消歧问题,并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。
Nov, 2022
通过从音频记录中学习发音示例来改善 G2P 转换任务的方法,利用少量带有注释的示例训练 G2P 模型,使用多语言电话识别系统进行解码,学习对于未收录词汇的发音字典,并重新训练 G2P 系统,该方法在不同语言和数据量的情况下持续提高 G2P 系统的音素错误率。
Jul, 2023
通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。
Jan, 2024
本文提出了一种名为 LiteG2P 的新颖方法,它将专家知识和神经网络相结合,可快速、轻量且理论上并行化,能用于云端和设备端。实验结果显示,该方法在参数数量上比基于 CTC 的现有方法少 10 倍,在计算量上比基于 Transformers 的序列到序列模型少 33 倍,在性能方面显着优于目前的基于 CTC 的方法,可用于自然语言处理中字母转语音的应用场景。
Mar, 2023
该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架,该框架结合了前向和算法、维特比算法和简单有效的静态先验,可提高 TTS 模型的对齐收敛速度,并使模型对长语音的错误更加鲁棒,从而提高口头合成的质量。
Aug, 2021
本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS,该模型结合在线网站词典通过 S2PA 处理 module,实现了对多音字消除(polyphone disambiguation)的有效解决,同时提高了 TTS 系统的发音准确性及韵律建模,该模型在三种语言的实验结果显示优于其他基线模型。
Jun, 2022
本研究提出了一种基于 token 级别的集成蒸馏方式,使用 Transformer 模型以提高语音识别系统中的字素到音素转换的精度,并针对如何利用额外的未标记数据来提高模型精度、减小在线部署的模型大小等实际问题进行了研究,实验结果表明我们的方法可以改善转换效果,使 CMUDict 数据集上的字素到音素转换错误率减少 4.22% 以上,成为新的最优性能。
Apr, 2019