基于生成对抗网络的歌声分离技术 SVSGAN

Oct, 2017

基于生成对抗网络的歌声分离技术 SVSGAN

SVSGAN: Singing Voice Separation via Generative Adversarial Network

Zhe-Cheng Fan, Yen-Lin Lai, Jyh-Shing Roger Jang

TL;DR本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Abstract

Separating two sources from an audio mixture is an important task with many applications. It is a challenging problem since only one signal channel is available for analysis. In this paper, we propose a novel framework for singing voice separation using the generative adversarial network

audio separation generative adversarial network spectra approximation supervised learning unsupervised learning

发现论文，激发创造

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

SingGAN：用于高保真唱歌声音生成的生成对抗网络

提出了一种名为 SingGAN 的生成对抗网络，用于高保真度歌声合成，该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法，解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题，该网络不仅具有接近现实的音质效果，而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。

Oct, 2021

使用生成对抗网络进行单通道信号分离和反卷积

本论文提出了一种基于对抗生成网络和优化算法的合成 - 分解方法，可用于单通道信号分离和反卷积，能够识别混合信号中的各个源，实现了峰值信噪比的提高。

Jun, 2019

生成对抗源分离

通过实验表明，使用 Wasserstein-GAN 训练的多层感知器在声源分离方面胜过基于最大似然训练的自编码器、变分自编码器和非负矩阵分解等生成源分离方法。

Oct, 2017

使用生成先验进行无监督音频源分离

通过将生成先验训练于各个单独的源上，利用梯度下降优化方法同时在这些源特定的潜在空间中搜索，以有效地恢复各个成分来源，并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计，我们针对语音数字和乐器数据集的实证研究表明，与传统的与最先进的无监督基线相比，我们的方法的有效性。

May, 2020

SEGAN: 语音增强生成对抗网络

本研究提出使用生成对抗网络进行语音增强，通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强，目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题，实验证明该模型的可行性和有效性，未来可以进一步探索生成性结构用于提高语音增强的性能。

Mar, 2017

使用跳过 - 滤波连接和循环推理时间频率掩模的单声道歌声分离

该论文提出了一种基于深度学习的歌声分离方法，学习和优化了源依赖性遮罩，不需要使用后处理步骤，并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器，同时也提高了单声道歌声分离的性能。

Nov, 2017

WGANSing：基于 Wasserstein-GAN 的多声部唱歌合成器

本研究提出了一种基于深度神经网络的歌声合成器，使用 Wasserstein-GAN 算法进行优化，通过声学建模的声码器参数，实现对歌唱声音中音高和音色的分离，采用分块方法建模输入块内的时间依赖关系，并使用重叠添加程序将连续块拼接在一起，该模型的绩效达到了与最先进技术相竞争的水平。

Mar, 2019

融合生成对抗网络的统计参数语音合成

本文介绍了一种使用生成对抗网络（GAN）的统计参数语音合成方法，相比于传统的最小生成误差训练算法，该方法能够更自然地生成语音波形，并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异，并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。

Sep, 2017

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015