利用 RAD-TTS 对齐器的自动多音字解析流水线

Feb, 2023

利用 RAD-TTS 对齐器的自动多音字解析流水线

Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners

Jocelyn Huang, Evelina Bakhturina, Oktai Tatanov

TL;DR本研究提出了一个基于 RAD-TTS Aligner 的管道，可以自动消除包含音频及文本转录的数据集中的同形异音词，从而得到标注完整的 G2P 训练数据集

Abstract

Grapheme-to-phoneme (G2P) transduction is part of the standard text-to-speech (TTS) pipeline. However, G2P conversion is difficult for languages that contain heteronyms -- words that have one spelling but can be pronounced in multiple ways. G2P datasets with annotated →

grapheme-to-phoneme transduction text-to-speech pipeline heteronyms rad-tts aligner training datasets

发现论文，激发创造

高度多语言神经音素转写

本文提出了使用神经序列到序列模型进行语音转换的方法，这个方法可以用在多种语言上，并且相比于基于高资源单语言模型适应低资源语言的方法，我们的方法在语音识别上的表现有显著提升，同时我们的模型更加紧凑。

Aug, 2017

汉语多音字消歧的回译式数据增强

本文提出了一种基于回译的数据增强方法，采用大量未标注的文本数据来解决中文多音字消歧问题，并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。

Nov, 2022

通过学习语音录音中的发音来改进字素转音元

通过从音频记录中学习发音示例来改善 G2P 转换任务的方法，利用少量带有注释的示例训练 G2P 模型，使用多语言电话识别系统进行解码，学习对于未收录词汇的发音字典，并重新训练 G2P 系统，该方法在不同语言和数据量的情况下持续提高 G2P 系统的音素错误率。

Jul, 2023

基于数据驱动的字素到音素表示的无词典文本转语音

通过使用自监督学习的最新进展，本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题，将其应用于无词典的文本转语音系统中，与基于专家词典的方法相比，在没有语言专业知识的前提下达到甚至略优的声音质量。

Jan, 2024

LiteG2P: 一种快速轻量级高精度的字素到音素转换模型

本文提出了一种名为 LiteG2P 的新颖方法，它将专家知识和神经网络相结合，可快速、轻量且理论上并行化，能用于云端和设备端。实验结果显示，该方法在参数数量上比基于 CTC 的现有方法少 10 倍，在计算量上比基于 Transformers 的序列到序列模型少 33 倍，在性能方面显着优于目前的基于 CTC 的方法，可用于自然语言处理中字母转语音的应用场景。

Mar, 2023

基于多语言上下文的语音合成中文字发学习

该研究提出了一个多语种统一的前端系统，通过建模语音信息和语言知识，在处理发音相关任务时取得了有竞争力的结果。

Jul, 2023

一种通用的 TTS 对齐方法

该研究提出了一种基于 RAD-TTS 的对齐机制作为 TTS 模型的通用对齐学习框架，该框架结合了前向和算法、维特比算法和简单有效的静态先验，可提高 TTS 模型的对齐收敛速度，并使模型对长语音的错误更加鲁棒，从而提高口头合成的质量。

Aug, 2021

缓解句级音素转换中的接触偏差

该研究展示了使用我们提出的基于损失的采样方法可以缓解自回归生成模型中的曝光偏差，从而改善句级别和段落级别的 G2P 转换性能。

Aug, 2023

Dict-TTS: 带有先验字典知识的学习发音文本转语音

本文提出了一种基于语义感知的生成文本到语音模型 Dict-TTS，该模型结合在线网站词典通过 S2PA 处理 module，实现了对多音字消除（polyphone disambiguation）的有效解决，同时提高了 TTS 系统的发音准确性及韵律建模，该模型在三种语言的实验结果显示优于其他基线模型。

Jun, 2022

基于标记层集成蒸馏的字素到音素的转换

本研究提出了一种基于 token 级别的集成蒸馏方式，使用 Transformer 模型以提高语音识别系统中的字素到音素转换的精度，并针对如何利用额外的未标记数据来提高模型精度、减小在线部署的模型大小等实际问题进行了研究，实验结果表明我们的方法可以改善转换效果，使 CMUDict 数据集上的字素到音素转换错误率减少 4.22% 以上，成为新的最优性能。

Apr, 2019