Jan, 2024

高质量语音合成的超轻量级神经差分 DSP 语音编解码器

TL;DR提出了一种超轻量级的差分 DSP (DDSP) vocoder,该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder,学习过程中不需要提取声道的光谱特征,实现了与神经 vocoder 相当的音频质量,同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时,无需任何硬件特定优化,C++ 实现的 FLOPS 达到 15 MFLOPS,相对于 MB-MelGAN 的 FLOPS,高出 340 倍,仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。