LPCNet：通过线性预测提升神经语音合成

Oct, 2018

LPCNet：通过线性预测提升神经语音合成

LPCNet: Improving Neural Speech Synthesis Through Linear Prediction

Jean-Marc Valin, Jan Skoglund

TL;DR提出 LPCNet，旨在改善语音合成的效率，与 WaveRNN 相比在相同的网络规模下实现了更高的质量，并且在 3GFLOPS 的复杂度下可以实现高质量的语音合成，可以在低功耗设备上更容易地部署神经合成应用，例如嵌入式系统和移动电话。

Abstract

neural speech synthesis models have recently demonstrated the ability to synthesize high quality speech for text-to-speech and compression applications. These new models often require powerful GPUs to achieve real-time operation, so being able to reduce their complexity would open the

neural speech synthesis lpcnet wavernn efficiency mobile phones

发现论文，激发创造

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

高效神经音频合成

本文针对顺序模型中高效采样的问题，提出了一种基于 WaveRNN 和权重修剪和子缩放 WaveRNN 的通用技术，可以在保持高输出质量的同时提高采样速度。

Feb, 2018

低成本神经文本转语音系统的 LPCNet 束缚声码器

该研究提出了两种方法（Sample-bunching 和 Bit-bunching）来进一步降低 LPCNet 语音编解码器的复杂度，并与深度卷积 TTS 声学模型相结合，证明该技术在移动设备上可以实现 2.19 倍的运行时改进，同时 TTS 平均意见分数（MOS）只降低不到 0.1 分。

Aug, 2020

Parallel WaveNet: 快速高保真语音合成

采用概率密度蒸馏技术，从 WaveNet 模型中训练一个并行前向网络，实现语音样本的超过 20 倍实时生成速度，目前已部署在 Google 助手中支持多种不同英文和日语语音。

Nov, 2017

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

移动设备快速、紧凑、高质量基于 LSTM-RNN 统计参数语音合成器

本文介绍在移动设备上部署的基于 LSTM-RNN 的 SPSS 的进一步优化，其中包括权重量化、多帧推理和鲁棒推理。使用了经过优化的 LSTM-RNN 的 SPSS 在运行时速度上可以与基于 HMM 的 SPSS 相媲美，同时保持自然性。对 LSTM-RNN - 基础的 SPSS 和基于 HMM 的单元选择语音合成之间的评估也在本文中呈现。

Jun, 2016

基于 FPGA 的低功耗循环神经网络语音识别

本文基于神经网络，使用 FPGA 开发了一个实时语音识别系统，其中使用两个重复神经网络进行声学建模和语言建模，并采用统计单词级别语言模型提高识别准确性。同时，使用 N-best 搜索算法，实现了简单的 AM、character-level LM、word-level LM 三者的结合，从而显著提高其响应速度。

Sep, 2016

TinyLSTMs: 用于助听器的高效神经语音增强

通过使用模型压缩技术，我们成功地压缩了大规模循环神经网络，以满足计算资源受限的助听器上的使用需求。结果表明，在保持高质量音频输出的前提下，压缩模型的尺寸和操作数量分别减小了 11.9 倍和 2.9 倍，计算延迟为 2.39 毫秒。

May, 2020