本文提出了使用神经序列到序列模型进行语音转换的方法,这个方法可以用在多种语言上,并且相比于基于高资源单语言模型适应低资源语言的方法,我们的方法在语音识别上的表现有显著提升,同时我们的模型更加紧凑。
Aug, 2017
本文研究将transformer架构应用于G2P转换,并将其性能与循环卷积神经网络等之前的方法进行比较。结果显示,基于transformer的G2P在单词错误率方面优于基于卷积的方法,并且我们的结果在两个数据集上的单词和音素错误率方面显着超过之前的循环方法(无注意力)。此外,所提出的模型的大小要小得多。
Apr, 2020
本文提出了一种预训练的字形模型GBERT,通过两种方法将其融合到基于Transformer的G2P模型中,实验证明了该模型在SIGMORPHON 2021 G2P任务的中低资源数据情况下的有效性。
Jan, 2022
使用ByT5模型,我们从不同来源中整理出覆盖100种语言的G2P数据集,并训练了大规模的多语种G2P模型。与单语模型相比,多语种ByT5模型通过同时学习多种语言降低了电话错误率,可进一步通过无监督预测或微调,帮助低资源语言的写作转音。
Apr, 2022
本文提出一种中文多音字BERT模型,通过从354个原中文多音字生成741个新的中文单音字,再将其添加到预训练的中文BERT中,使得多音字消岐任务能够转化为中文多音字BERT语言模型的预训练任务。实验结果验证了该模型的有效性,与基于BERT的分类器模型相比,该多音字BERT模型获得了2%的平均准确率提升(从92.1%到94.1%)
Jul, 2022
本文提出了一种基于回译的数据增强方法,采用大量未标注的文本数据来解决中文多音字消歧问题,并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。
Nov, 2022
通过从音频记录中学习发音示例来改善G2P转换任务的方法,利用少量带有注释的示例训练G2P模型,使用多语言电话识别系统进行解码,学习对于未收录词汇的发音字典,并重新训练G2P系统,该方法在不同语言和数据量的情况下持续提高G2P系统的音素错误率。
Jul, 2023
提出一种解决汉语多音字消歧问题的新方法,该方法基于大型语言模型和提示学习,包括三个模块:检索模块、生成模块和后处理模块。实验结果表明该方法在公共数据集CPP上优于现有方法,并对提示模板、训练数据规模和是否引入外部知识进行了实证研究。
Dec, 2023
通过使用自监督学习的最新进展,本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题,将其应用于无词典的文本转语音系统中,与基于专家词典的方法相比,在没有语言专业知识的前提下达到甚至略优的声音质量。
Jan, 2024
本文针对字音转换(G2P)在语音处理中的关键作用,特别是在多音词和上下文依赖音素的语言中,探讨了大语言模型(LLMs)的应用潜力。研究介绍了一种不需额外训练或标注数据的提示和后处理方法,以提升LLM输出的准确性,结果显示这些方法可以使LLM在波斯语这样的弱势语言中的表现超越传统G2P工具,展现了LLM辅助G2P系统的开发潜力。
Sep, 2024