高质量语音合成的超轻量级神经差分 DSP 语音编解码器

Jan, 2024

高质量语音合成的超轻量级神经差分 DSP 语音编解码器

Ultra-lightweight Neural Differential DSP Vocoder For High Quality Speech Synthesis

Prabhav Agrawal, Thilo Koehler, Zhiping Xiu, Prashant Serai, Qing He

TL;DR提出了一种超轻量级的差分 DSP (DDSP) vocoder，该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder，学习过程中不需要提取声道的光谱特征，实现了与神经 vocoder 相当的音频质量，同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时，无需任何硬件特定优化，C++ 实现的 FLOPS 达到 15 MFLOPS，相对于 MB-MelGAN 的 FLOPS，高出 340 倍，仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。

Abstract

neural vocoders model the raw audio waveform and synthesize high-quality audio, but even the highly efficient ones, like MB-MelGAN and LPCNet, fail to run real-time on a low-end device like a smartglass. A pure digital signal processing (DSP) based vocoder can be implemented via lightw

neural vocoders dsp vocoder audio quality ddsp vocoder acoustic model

发现论文，激发创造

NeuralDPS: 基于多频激励的神经确定性加随机模型用于噪声可控波形生成

本文提出了一种名为 NeuralDPS 的新型神经语音编码器，通过使用多带激励策略，控制噪声组分，调整语音的信噪比和扩大频带，该编码器可以在保持高语音质量的同时提高合成效率和降低噪声，达到与 WaveNet 相似的性能且至少比 WaveNet 合成速度快 280 倍。

Mar, 2022

DDSP：可微分数字信号处理

本文介绍了 Differentiable Digital Signal Processing (DDSP) 库的使用，该库将传统信号处理元素与深度学习方法直接集成，以实现音频合成。作者通过使用内插模块的组合来演示 DDSP 的应用程序，如分离音高和响度的独立控制，可靠地推断未在训练中出现的音高，完全盲的混响消除，将提取出的房间声学转移到新环境以及在不同来源之间转换音色。

Jan, 2020

使用 LPCNet 的高质量轻量化和可适应的语音合成技术

本研究提出了一种轻量级的适应性神经 TTS 系统，采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器，性能接近自然语音合成，同时在标准 CPU 上实时性能比真实速度快 3 倍，系统的模块化设置使得可适应新的语音，只需要少量的数据，在大量实验中展示了系统的高质量和适应性，提高了 0.12 的质量差距和 3% 的相似性差距，可适应未见的声音和性别的合成。

May, 2019

实时全频段语音增强的混合 DSP / 深度学习方法

本研究提出了一种基于深度学习和数字信号处理混合的方法来实现噪声抑制，该方法使用了四层隐含层的深度神经网络来估计关键频带增益，并采用传统的基音滤波器抑制谐波之间的噪声，相比于传统的最小均方误差谱估计，该方法获得了显著更高的质量，在复杂度低到足以实现 48kHz 实时处理的低功耗处理器上。

Sep, 2017

UnivNet: 带多分辨率频谱鉴别器的神经声码器，用于高保真波形生成

该研究提出了一种名为 UnivNet 的神经声码器，利用全频带谱特征作为输入，通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题，并在大量演讲者信息数据集上取得最佳客观和主观结果。

Jun, 2021

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

低成本神经文本转语音系统的 LPCNet 束缚声码器

该研究提出了两种方法（Sample-bunching 和 Bit-bunching）来进一步降低 LPCNet 语音编解码器的复杂度，并与深度卷积 TTS 声学模型相结合，证明该技术在移动设备上可以实现 2.19 倍的运行时改进，同时 TTS 平均意见分数（MOS）只降低不到 0.1 分。

Aug, 2020

一种神经编码器，采用分层生成模式的幅度与相位光谱，用于统计参数语音合成

本研究提出了一种名为 HiNet 的神经声码器，其通过分层预测振幅和相位谱从声学特征重建语音波形，包含振幅谱预测器（ASP）、相位谱预测器（PSP）以及基于神经源 - 滤波器波形生成器和相位提取器的 PSP。此外，我们还将生成对抗网络引入到 ASP 和 PSP 中。最终，ASP 和 PSP 的输出通过短时傅里叶合成结合生成 1s 语音波形的时间可大幅减少。

Jun, 2019

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020

基于轻量级神经网络的实时语音活动检测

该研究提出了一种轻量级实时的神经网络模型 MagicNet，利用 1-D 卷积和 GRU，并且不依赖未来特征作为输入，在综合测试数据集上与两种最先进的算法进行比较，评估结果表明 MagicNet 能够在较少的参数成本下实现更好的性能和鲁棒性。

May, 2024