深度语音 3：使用卷积序列学习扩展语音合成

ICLROct, 2017

深度语音 3：使用卷积序列学习扩展语音合成

Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

Wei Ping, Kainan Peng, Andrew Gibiansky, Sercan O. Arik, Ajay Kannan...

TL;DRDeep Voice 3 是一种全卷积自注意神经文本转语音系统，可以很好地匹配目前最先进的神经语音合成系统的自然度，同时训练速度快于十倍。通过在超过 2000 位演讲者的超过 800 小时的音频数据上进行训练，实现了 TTS 数据集规模的前所未有的扩展。同时，我们描述了如何缩放指向注意的语音合成网络的推断，以在单个 GPU 服务器上每天缩放到 1000 万个查询，并比较了几种不同的波形综合方法。

Abstract

We present deep voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. deep voice 3 matches state-of-the-art n

deep voice 3 neural text-to-speech system attention-based speech synthesis waveform synthesis

发现论文，激发创造

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

Deep Voice 2: 多说话人神经文本转语音

介绍了一种使用低维度可训练说话人嵌入的神经文本转语音技术，可以从单个模型生成不同的声音，并构建了具有高性能的构建组件：Deep Voice2 和后处理神经语音合成器的 Tacotron，通过两个多说话人 TTS 数据集演示了多说话人语音合成技术。

May, 2017

基于深度卷积神经网络和引导式注意力的高效可训练文本转语音系统

该论文提出了一种基于深度卷积神经网络的新型文本转语音（TTS）技术，通过只使用 CNN 架构而无需循环单元，成功实现了 TTS，且相比当前的基于循环神经网络的技术更加经济高效，并且在普通电脑上只需训练 15 小时即可生成几乎合格的语音。

Oct, 2017

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

使用卷积神经网络扩展在线语音识别能力

本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统，通过优化核心架构，高效的波束搜索解码器以及提升性能指标的分析，系统吞吐量提高 3 倍，延迟降低同时保持更好的词语误差率。

Jan, 2020

基于 FullConv 的高效蒙古语语音合成系统训练

本文提出了一种基于深度卷积神经网络的语音合成系统，通过采用时间扭曲、频率掩蔽和时间掩蔽等一系列数据增强方法，提高了模型的泛化性和鲁棒性；最终实验结果表明，在确保合成语音质量的同时，仅使用 CNN 组件的 TTS 模型可以比 Tacotron 等传统模型缩短训练时间。

Oct, 2022

使用动态卷积注意力的零样本长篇语音克隆

本文介绍了一种基于注意力机制和零样本说话人自适应技术，在语音克隆技术中可以从几秒钟的参考语音中复制目标语音，从而实现长话语的普遍化，并且可以保持较高的自然度和相似性。

Jan, 2022

EM-TTS：高效训练的低资源蒙古语轻量级文本到语音

基于深度卷积神经网络的轻量级文本转语音系统，通过 CNN-based 序列合成技术，使用数据增强方法减少训练时间，同时保证合成语音的质量和自然度。

Mar, 2024

从说话人验证到多说话人语音合成的迁移学习

描述了一个基于神经网络的文本转语音（TTS）合成系统，可以以许多不同讲话者的声音生成语音音频，该系统由三个独立训练的部分组成，包括训练说话者编码器网络进行讲话者验证任务，基于 Tacotron 2 的序列合成网络，以及将梅尔频谱图转换为时间领域波形样本的自回归 WaveNet 基声码器。

Jun, 2018