LPCNet:通过线性预测提升神经语音合成
本研究提出了一种轻量级的适应性神经 TTS 系统,采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器,性能接近自然语音合成,同时在标准 CPU 上实时性能比真实速度快 3 倍,系统的模块化设置使得可适应新的语音,只需要少量的数据,在大量实验中展示了系统的高质量和适应性,提高了 0.12 的质量差距和 3% 的相似性差距,可适应未见的声音和性别的合成。
May, 2019
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
该研究提出了两种方法(Sample-bunching 和 Bit-bunching)来进一步降低 LPCNet 语音编解码器的复杂度,并与深度卷积 TTS 声学模型相结合,证明该技术在移动设备上可以实现 2.19 倍的运行时改进,同时 TTS 平均意见分数(MOS)只降低不到 0.1 分。
Aug, 2020
采用概率密度蒸馏技术,从 WaveNet 模型中训练一个并行前向网络,实现语音样本的超过 20 倍实时生成速度,目前已部署在 Google 助手中支持多种不同英文和日语语音。
Nov, 2017
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统,由五个主要组成部分构成,包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建,既简单又灵活。此外,我们通过优化后的 WaveNet 推断内核,实现了 400 倍的实时速度。
Feb, 2017
本文介绍在移动设备上部署的基于 LSTM-RNN 的 SPSS 的进一步优化,其中包括权重量化、多帧推理和鲁棒推理。使用了经过优化的 LSTM-RNN 的 SPSS 在运行时速度上可以与基于 HMM 的 SPSS 相媲美,同时保持自然性。对 LSTM-RNN - 基础的 SPSS 和基于 HMM 的单元选择语音合成之间的评估也在本文中呈现。
Jun, 2016
本文基于神经网络,使用 FPGA 开发了一个实时语音识别系统,其中使用两个重复神经网络进行声学建模和语言建模,并采用统计单词级别语言模型提高识别准确性。同时,使用 N-best 搜索算法,实现了简单的 AM、character-level LM、word-level LM 三者的结合,从而显著提高其响应速度。
Sep, 2016
通过使用模型压缩技术,我们成功地压缩了大规模循环神经网络,以满足计算资源受限的助听器上的使用需求。结果表明,在保持高质量音频输出的前提下,压缩模型的尺寸和操作数量分别减小了 11.9 倍和 2.9 倍,计算延迟为 2.39 毫秒。
May, 2020