本文提出了使用神经序列到序列模型进行语音转换的方法,这个方法可以用在多种语言上,并且相比于基于高资源单语言模型适应低资源语言的方法,我们的方法在语音识别上的表现有显著提升,同时我们的模型更加紧凑。
Aug, 2017
通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。
Jan, 2024
通过从音频记录中学习发音示例来改善 G2P 转换任务的方法,利用少量带有注释的示例训练 G2P 模型,使用多语言电话识别系统进行解码,学习对于未收录词汇的发音字典,并重新训练 G2P 系统,该方法在不同语言和数据量的情况下持续提高 G2P 系统的音素错误率。
Jul, 2023
提出一种解决汉语多音字消歧问题的新方法,该方法基于大型语言模型和提示学习,包括三个模块:检索模块、生成模块和后处理模块。实验结果表明该方法在公共数据集 CPP 上优于现有方法,并对提示模板、训练数据规模和是否引入外部知识进行了实证研究。
Dec, 2023
本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS,该模型结合在线网站词典通过 S2PA 处理 module,实现了对多音字消除(polyphone disambiguation)的有效解决,同时提高了 TTS 系统的发音准确性及韵律建模,该模型在三种语言的实验结果显示优于其他基线模型。
Jun, 2022
本文提出了一种名为 LiteG2P 的新颖方法,它将专家知识和神经网络相结合,可快速、轻量且理论上并行化,能用于云端和设备端。实验结果显示,该方法在参数数量上比基于 CTC 的现有方法少 10 倍,在计算量上比基于 Transformers 的序列到序列模型少 33 倍,在性能方面显着优于目前的基于 CTC 的方法,可用于自然语言处理中字母转语音的应用场景。
Mar, 2023
本文提出了一种基于回译的数据增强方法,采用大量未标注的文本数据来解决中文多音字消歧问题,并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。
Nov, 2022
比较不同输入方式(咬字标签和口腔运动特征)在跨语言转移学习文本转语音系统中的表现,发现使用口腔运动特征可以提高语音生成的自然度和可懂度,并提出两种新方法来解决没有发音词典的低资源语言。
Jun, 2023
提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法,能够实现在没有专门的 TTS 前端系统的情况下,对低资源区域口音进行语音合成。
Jan, 2023
本文利用机器学习模型探索什么因素会使一种语言的发音难度加大,并通过跨越 22 种不同语言的字符级变换器模型训练和验证,发现语言的发音难度主要由其字音对音素的映射的复杂性而非其文字本身的复杂性决定,并提出未来的研究应该考虑数据稀少性,以设计更公正的跨语言比较任务。
Jan, 2022