使用 LPCNet 的高质量轻量化和可适应的语音合成技术

May, 2019

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

High quality, lightweight and adaptable TTS using LPCNet

Zvi Kons, Slava Shechtman, Alex Sorin, Carmel Rabinovitz, Ron Hoory

TL;DR本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

Abstract

We present a lightweight adaptable neural tts system with high quality output. The system is composed of three separate neural network blocks: prosody prediction, acoustic feature prediction and →

neural tts prosody prediction acoustic feature prediction linear prediction coding net voice adaptation

发现论文，激发创造

高质量流媒体语音合成低，句子长度无关的延迟

本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统，使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成，实验结果显示，该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟，并且能够生成几乎自然的高质量语音。

Nov, 2021

低成本神经文本转语音系统的 LPCNet 束缚声码器

该研究提出了两种方法（Sample-bunching 和 Bit-bunching）来进一步降低 LPCNet 语音编解码器的复杂度，并与深度卷积 TTS 声学模型相结合，证明该技术在移动设备上可以实现 2.19 倍的运行时改进，同时 TTS 平均意见分数（MOS）只降低不到 0.1 分。

Aug, 2020

LPCNet：通过线性预测提升神经语音合成

提出 LPCNet，旨在改善语音合成的效率，与 WaveRNN 相比在相同的网络规模下实现了更高的质量，并且在 3GFLOPS 的复杂度下可以实现高质量的语音合成，可以在低功耗设备上更容易地部署神经合成应用，例如嵌入式系统和移动电话。

Oct, 2018

利用直觉的韵律特征进行可控的神经文本转语音合成

通过使用一种基于序列对序列神经网络的方法，对音频语音特征进行条件训练，以学习一个直观且有意义的潜在韵律空间，进一步控制音调、音高、语音能量等特征参数，生成多种音色，并维持与 Tacotron 基线模型相似的评分（4.26/4.23）。

Sep, 2020

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

使用韵律和语言特征探究基于内容感知的神经文本语音合成 MOS 预测

该研究探讨了将韵律和语言特征作为 MOS 预测系统的附加输入的影响，发现包含 Tacotron 编码器输出和 BERT 嵌入等高级语言输入显著提高了句子和系统层面的预测准确度。

Nov, 2022

LightSpeech: 基于神经架构搜索的轻量级快速语音合成

本文提出了一种名为 LightSpeech 的 TTS 模型，该模型通过利用神经架构搜索自动设计出轻量级的、高效的模型，并在不损失语音质量的情况下，将模型压缩率提高了 15 倍、推断速度提高了 6.5 倍。

Feb, 2021

高质量语音合成的超轻量级神经差分 DSP 语音编解码器

提出了一种超轻量级的差分 DSP (DDSP) vocoder，该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder，学习过程中不需要提取声道的光谱特征，实现了与神经 vocoder 相当的音频质量，同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时，无需任何硬件特定优化，C++ 实现的 FLOPS 达到 15 MFLOPS，相对于 MB-MelGAN 的 FLOPS，高出 340 倍，仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。

Jan, 2024