EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

Mar, 2024

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech

Ziqi Liang, Haoxiang Shi, Jiawei Wang, Keda Lu

TL;DR基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Abstract

Recently, deep learning-based text-to-speech (TTS) systems have achieved high-quality speech synthesis results. Recurrent neural networks have become a standard modeling technique for sequential data in TTS systems and are widely used. However, training a TTS model which includes RNN c

deep learning-based text-to-speech cnn-based sequence synthesis lightweight tts system data augmentations training time reduction

发现论文，激发创造

基于 FullConv 的高效蒙古语语音合成系统训练

本文提出了一种基于深度卷积神经网络的语音合成系统，通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法，提高了模型的泛化性和鲁棒性；最终实验结果表明，在确保合成语音质量的同时，仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。

Oct, 2022

基于深度卷积神经网络和引导式注意力的高效可训练文本转语音系统

该论文提出了一种基于深度卷积神经网络的新型文本转语音（TTS）技术，通过只使用 CNN 架构而无需循环单元，成功实现了 TTS，且相比当前的基于循环神经网络的技术更加经济高效，并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。

Oct, 2017

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

MnTTS: 一种开源的蒙古文语音合成数据集及相关基准模型

这篇论文介绍了一个高质量的蒙古文开源文本到语音（TTS）综合数据集，这是第一个公开可用的数据集，为蒙古 TTS 应用在学术界和工业界的推广做出了贡献。该数据集共包括了约 8 小时的由 22 岁的专业女性蒙古语播音员朗读并进行转录的音频记录。论文中描述了数据集开发的过程、面临的挑战以及构建基于 FastSpeech2 模型和 HiFi-GAN 声码器非自回归基线系统的经验和评估结果，该系统在 MOS 评分上达到 4 以上且 RTF 约为 $3.30 imes10^{-1}$，可以实际应用。

Sep, 2022

EfficientSpeech: 一个本地化文本到语音模型

本文提出了一种名为 EfficientSpeech 的神经文本转语音模型，它可以在资源受限且没有互联网访问的边缘设备上使用 ARM CPU 实时合成语音，并且相比现代紧凑型模型，参数和计算量仅为 1％，可实现平均 104.3 倍的实时因素，人类评估显示与 FastSpeech2 相比，音频质量仅略有下降。

May, 2023

低资源条件下的混合文字语音合成

我们提出了适用于电子商务应用的生产级代码混合印地语 - 英语 TTS 系统的方法。我们采用了一种以数据为导向的方法，通过利用各种语言的单语数据集。我们演示了在纯代码混合测试集上，这种单一脚本双语训练的效果很好。我们还通过 Tacotron2 + Waveglow 的设置对单说话人适应和多说话人训练进行了详尽的评估，结果显示前一种方法效果更好。我们还结合了迁移学习和仅解码器微调来提高性能。我们将这些方法与 Google TTS 进行了比较，使用我们提出的迁移学习方法获得了 CMOS 分数为 0.02。我们还进行了低资源语音适应实验，结果表明只需要 3 小时的数据就可以引入新语音。这凸显了我们预先训练模型在资源受限设置中的重要性。我们在大量的领域外纯代码混合句子上进行了主观评估，以展示系统的高质量。

Dec, 2023

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

MnTTS2: 一个开源的多说话人蒙古语文本到语音合成数据集

本文介绍了一个名为 MnTTS2 的开源多说话者蒙古语文本转语音数据集，旨在为相关研究人员提供帮助。作者使用现代技术构建了这个 30 小时语音数据库，并开发了基于 FastSpeech2 模型的基线系统，实验结果表明该数据集可以用于构建真实世界的鲁棒多说话者 TTS 模型。

Dec, 2022