基于数据驱动的字素到音素表示的无词典文本转语音

Jan, 2024

基于数据驱动的字素到音素表示的无词典文本转语音

Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech

Abhinav Garg, Jiyeon Kim, Sushil Khyalia, Chanwoo Kim, Dhananjaya Gowda

TL;DR通过使用自监督学习的最新进展，本文消除了使用固定表示而非数据驱动的方法生成专家词典的问题，将其应用于无词典的文本转语音系统中，与基于专家词典的方法相比，在没有语言专业知识的前提下达到甚至略优的声音质量。

Abstract

grapheme-to-phoneme (G2P) is an essential first step in any modern, high-quality text-to-speech (TTS) system. Most of the current g2p systems

grapheme-to-phoneme text-to-speech g2p systems lexicon-free approach self-supervised learning

发现论文，激发创造

高度多语言神经音素转写

本文提出了使用神经序列到序列模型进行语音转换的方法，这个方法可以用在多种语言上，并且相比于基于高资源单语言模型适应低资源语言的方法，我们的方法在语音识别上的表现有显著提升，同时我们的模型更加紧凑。

Aug, 2017

通过学习语音录音中的发音来改进字素转音元

通过从音频记录中学习发音示例来改善 G2P 转换任务的方法，利用少量带有注释的示例训练 G2P 模型，使用多语言电话识别系统进行解码，学习对于未收录词汇的发音字典，并重新训练 G2P 系统，该方法在不同语言和数据量的情况下持续提高 G2P 系统的音素错误率。

Jul, 2023

基于多语言上下文的语音合成中文字发学习

该研究提出了一个多语种统一的前端系统，通过建模语音信息和语言知识，在处理发音相关任务时取得了有竞争力的结果。

Jul, 2023

LiteG2P: 一种快速轻量级高精度的字素到音素转换模型

本文提出了一种名为 LiteG2P 的新颖方法，它将专家知识和神经网络相结合，可快速、轻量且理论上并行化，能用于云端和设备端。实验结果显示，该方法在参数数量上比基于 CTC 的现有方法少 10 倍，在计算量上比基于 Transformers 的序列到序列模型少 33 倍，在性能方面显着优于目前的基于 CTC 的方法，可用于自然语言处理中字母转语音的应用场景。

Mar, 2023

使用预训练字素模型的神经音素转换

本文提出了一种预训练的字形模型 GBERT，通过两种方法将其融合到基于 Transformer 的 G2P 模型中，实验证明了该模型在 SIGMORPHON 2021 G2P 任务的中低资源数据情况下的有效性。

Jan, 2022

汉语多音字消歧的回译式数据增强

本文提出了一种基于回译的数据增强方法，采用大量未标注的文本数据来解决中文多音字消歧问题，并设计了一种数据平衡策略来提高训练集中某些典型的多音字字符的识别准确性。

Nov, 2022

一种基于贪心发音选择框架的声学数据驱动的词汇表学习

本文提出了一种从转录数据中自动获得单词发音的系统，重点解决了从词汇表中删除词条的问题，实验结果表明我们提出的框架可以学习一个词汇表，在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表，而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。

Jun, 2017

基于标记层集成蒸馏的字素到音素的转换

本研究提出了一种基于 token 级别的集成蒸馏方式，使用 Transformer 模型以提高语音识别系统中的字素到音素转换的精度，并针对如何利用额外的未标记数据来提高模型精度、减小在线部署的模型大小等实际问题进行了研究，实验结果表明我们的方法可以改善转换效果，使 CMUDict 数据集上的字素到音素转换错误率减少 4.22% 以上，成为新的最优性能。

Apr, 2019

低资源语音合成中输入类型和发音字典使用对迁移学习的影响

比较不同输入方式（咬字标签和口腔运动特征）在跨语言转移学习文本转语音系统中的表现，发现使用口腔运动特征可以提高语音生成的自然度和可懂度，并提出两种新方法来解决没有发音词典的低资源语言。

Jun, 2023

利用 RAD-TTS 对齐器的自动多音字解析流水线

本研究提出了一个基于 RAD-TTS Aligner 的管道，可以自动消除包含音频及文本转录的数据集中的同形异音词，从而得到标注完整的 G2P 训练数据集

Feb, 2023