基于 FullConv 的高效蒙古语语音合成系统训练

Oct, 2022

基于 FullConv 的高效蒙古语语音合成系统训练

Efficiently Trained Mongolian Text-to-Speech System Based On FullConv

ZiQi Liang

TL;DR本文提出了一种基于深度卷积神经网络的语音合成系统，通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法，提高了模型的泛化性和鲁棒性；最终实验结果表明，在确保合成语音质量的同时，仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。

Abstract

recurrent neural networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has

recurrent neural networks text-to-speech cnn training time data augmentation

发现论文，激发创造

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024

基于深度卷积神经网络和引导式注意力的高效可训练文本转语音系统

该论文提出了一种基于深度卷积神经网络的新型文本转语音（TTS）技术，通过只使用 CNN 架构而无需循环单元，成功实现了 TTS，且相比当前的基于循环神经网络的技术更加经济高效，并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。

Oct, 2017

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

使用 Transformer 神经网络进行语音合成

本文尝试使用 Transformer network 和 multi-head attention 机制来解决 neural text-to-speech 中的 training efficiency 和 long range dependency 问题，在效率和性能方面实现了 state-of-the-art 表现。

Sep, 2018

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

具备自定义能力的 RNN-T 模型超越高性能混合模型

本文中，我们介绍了最近开发的 RNN-T 模型，它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模，对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后，开发的 RNN-T 模型优于经过训练良好的混合模型，同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域，并比较了几种使用新领域纯文本数据的方法。研究发现，利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。

Jul, 2020

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

高效神经音频合成

本文针对顺序模型中高效采样的问题，提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术，可以在保持高输出质量的同时提高采样速度。

Feb, 2018

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

基于 Transformer 的序列到序列语音转换网络：利用文本到语音预训练

本文提出了一种基于 Transformer 架构和文本到语音预训练的新颖的序列到序列语音转换模型，通过预训练的方式，向转换模型传递语音相关的知识，实现数据高效训练，提高语音转换的清晰度、自然度和相似度。

Dec, 2019