基于多语言上下文的语音合成中文字发学习

Jul, 2023

基于多语言上下文的语音合成中文字发学习

Multilingual context-based pronunciation learning for Text-to-Speech

Giulia Comini, Manuel Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo-Trueba

TL;DR该研究提出了一个多语种统一的前端系统，通过建模语音信息和语言知识，在处理发音相关任务时取得了有竞争力的结果。

Abstract

phonetic information and linguistic knowledge are an essential component of a Text-to-speech (TTS) front-end. Given a language, a lexicon can be collected offline and Grapheme-to-Phoneme (G2P) relationships are u

phonetic information linguistic knowledge tts front-end g2p relationships multilingual unified front-end system

发现论文，激发创造

高度多语言神经音素转写

本文提出了使用神经序列到序列模型进行语音转换的方法，这个方法可以用在多种语言上，并且相比于基于高资源单语言模型适应低资源语言的方法，我们的方法在语音识别上的表现有显著提升，同时我们的模型更加紧凑。

Aug, 2017

基于数据驱动的字素到音素表示的无词典文本转语音

通过使用自监督学习的最新进展，本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题，将其应用于无词典的文本转语音系统中，与基于专家词典的方法相比，在没有语言专业知识的前提下达到甚至略优的声音质量。

Jan, 2024

通过学习语音录音中的发音来改进字素转音元

通过从音频记录中学习发音示例来改善 G2P 转换任务的方法，利用少量带有注释的示例训练 G2P 模型，使用多语言电话识别系统进行解码，学习对于未收录词汇的发音字典，并重新训练 G2P 系统，该方法在不同语言和数据量的情况下持续提高 G2P 系统的音素错误率。

Jul, 2023

外部知识增强的多音字消歧方法利用大规模语言模型

提出一种解决汉语多音字消歧问题的新方法，该方法基于大型语言模型和提示学习，包括三个模块：检索模块、生成模块和后处理模块。实验结果表明该方法在公共数据集 CPP 上优于现有方法，并对提示模板、训练数据规模和是否引入外部知识进行了实证研究。

Dec, 2023

Dict-TTS: 带有先验字典知识的学习发音文本转语音

本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Jun, 2022

LiteG2P: 一种快速轻量级高精度的字素到音素转换模型

本文提出了一种名为 LiteG2P 的新颖方法，它将专家知识和神经网络相结合，可快速、轻量且理论上并行化，能用于云端和设备端。实验结果显示，该方法在参数数量上比基于 CTC 的现有方法少 10 倍，在计算量上比基于 Transformers 的序列到序列模型少 33 倍，在性能方面显着优于目前的基于 CTC 的方法，可用于自然语言处理中字母转语音的应用场景。

Mar, 2023

汉语多音字消歧的回译式数据增强

本文提出了一种基于回译的数据增强方法，采用大量未标注的文本数据来解决中文多音字消歧问题，并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。

Nov, 2022

低资源语音合成中输入类型和发音字典使用对迁移学习的影响

比较不同输入方式（咬字标签和口腔运动特征）在跨语言转移学习文本转语音系统中的表现，发现使用口腔运动特征可以提高语音生成的自然度和可懂度，并提出两种新方法来解决没有发音词典的低资源语言。

Jun, 2023

无需口音特定 TTS 前端的低资源口音建模

提出了一种利用语音转换技术和多人多口音 TTS 模型生成不同方言口音的方法，能够实现在没有专门的 TTS 前端系统的情况下，对低资源区域口音进行语音合成。

Jan, 2023

学习发音作为跨语言联合正字音位复杂性的测量

本文利用机器学习模型探索什么因素会使一种语言的发音难度加大，并通过跨越 22 种不同语言的字符级变换器模型训练和验证，发现语言的发音难度主要由其字音对音素的映射的复杂性而非其文字本身的复杂性决定，并提出未来的研究应该考虑数据稀少性，以设计更公正的跨语言比较任务。

Jan, 2022