Vocos：面向高质量音频合成的时域和傅里叶神经声码器之间的差距的缩小

Jun, 2023

Vocos：面向高质量音频合成的时域和傅里叶神经声码器之间的差距的缩小

Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis

Hubert Siuzdak

TL;DR本研究提出了 Vocos 模型，该模型利用基于傅里叶变换的时频表示解决了复杂值谱图的直接重建问题，并显著提高了计算效率，具有与时域神经编码方法相媲美的音频质量和具有频率感知能力的生成器。

Abstract

Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (gans) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-f

neural vocoding fourier-based time-frequency representation spectral coefficients computational efficiency gans

发现论文，激发创造

VocGAN：一种具有分层嵌套对抗网络的高保真实时声码器

本研究提出了一种名为 VocGAN 的高保真实时神经声码器，其在几乎与 MelGAN 相同的速度下，显著提高了输出波形的质量和一致性，利用多尺度波形生成器和分层嵌套鉴别器以平衡地学习多个水平的声学属性，同时应用联合条件和无条件目标，在多个评估指标中显示出显著的改进

Jul, 2020

基于神经网络的语音合成方法中最新的波形产生和声学模型方法的比较

本文研究语音合成技术，并采用先进的机器学习方法克服了振幅频谱和声学模型过度平滑等局限性，在大规模众包评估中，发现生成性对抗网络和自回归模型表现优于普通循环神经网络。同时，使用相同的自回归声学模型进行评估，Wavenet 声码器优于经典的源 - 滤波器型声码器。尤其是，组合自回归声学模型和 Wavenet 声码器生成的语音波形与声学单元表现出类似的语音质量得分。

Apr, 2018

Avocado: 无伪影语音编码器的生成对抗网络

本研究提出了一种名为 Avocodo 的基于 GAN 的语音合成系统，它使用多种鉴别器来评估语音波形，并利用伪四象限镜滤波器组来避免损失波，该系统在数字和人类主观测试中均表现出较高的音质。

Jun, 2022

BigVGAN: 大规模训练的通用神经声码器

该研究使用周期性激活函数和柿子化表示来改进基于生成对抗网络的声码器，提高音频合成质量。BigVGAN 是一个通用的声码器，可以应用于各种分布情况，包括未见过的语音，语言和录制环境。

Jun, 2022

Fre-GAN: 对抗训练的频率一致音频合成

本文提出了一种名为 “Fre-GAN” 的神经音源模型，通过分辨率连接生成器和分辨率智能的鉴别器，在多个频带中学习各种尺度的频谱分布，有效地实现高保真频率一致性音频合成，并在质量和 MOS 上优于标准模型。

Jun, 2021

高质量语音合成的超轻量级神经差分 DSP 语音编解码器

提出了一种超轻量级的差分 DSP (DDSP) vocoder，该 vocoder 使用了一个经过联合优化的声学模型和 DSP vocoder，学习过程中不需要提取声道的光谱特征，实现了与神经 vocoder 相当的音频质量，同时作为一个 DSP vocoder 非常高效。在 2GHz 的 Intel Xeon CPU 上单线程运行时，无需任何硬件特定优化，C++ 实现的 FLOPS 达到 15 MFLOPS，相对于 MB-MelGAN 的 FLOPS，高出 340 倍，仅需 0.003 的 vocoder-only RTF 和 0.044 的总 RTF。

Jan, 2024

GANSynth：对抗神经音频合成

本文介绍了在频谱域中建模日志幅度和瞬时频率可提高 GAN 在音频合成方面的表现，并通过 NSynth 数据集的大量实证研究表明，GAN 能够比强 WaveNet 基线在自动化和人工评估指标上表现更好，而且比自回归模型产生的音频快几个数量级。

Feb, 2019

WOLONet: 面向高效和高保真度语音合成的 Wave Outlooker

本文提出了一种新的、有效的、轻量级的神经声码器 WOLONet，在实现高保真度的实时合成波形的同时，还能够在参数更少的情况下获得比 HiFiGAN 和 UnivNet 更好的生成质量。

Jun, 2022

控制视觉引导的声音生成

本文在视觉诱发音频生成方面进行了研究，提出了一种单一模型，可以在比单个 GPU 播放时间更短的时间内生成高保真、与视觉相符的声音，并使用新型的 FID 和 MKL 度量标准对其进行了评估。

Oct, 2021

通用 MelGAN: 多领域高保真波形生成的强力神经声码器

我们提出了 Universal MelGAN，它是一种合成高保真语音的声码器，可以在多个领域中使用，并通过添加多分辨率频谱图鉴别器来解决大型模型高频带过度平滑的问题，最终生成高度逼真的语音信号。

Nov, 2020