基于生成对抗网络的歌声分离技术 SVSGAN
提出了一种名为 SingGAN 的生成对抗网络,用于高保真度歌声合成,该网络通过提出源激发、全局和局部判别器、辅助频谱损失和子带特征匹配惩罚损失等方法,解决了通过文本合成的神经声码器不能直接应用于合成歌声的问题,该网络不仅具有接近现实的音质效果,而且在单个 NVIDIA 2080Ti GPU 上还能实现 50 倍于实时的速度。
Oct, 2021
本论文提出了一种基于对抗生成网络和优化算法的合成 - 分解方法,可用于单通道信号分离和反卷积,能够识别混合信号中的各个源,实现了峰值信噪比的提高。
Jun, 2019
通过将生成先验训练于各个单独的源上,利用梯度下降优化方法同时在这些源特定的潜在空间中搜索,以有效地恢复各个成分来源,并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计,我们针对语音数字和乐器数据集的实证研究表明,与传统的与最先进的无监督基线相比,我们的方法的有效性。
May, 2020
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
该论文提出了一种基于深度学习的歌声分离方法,学习和优化了源依赖性遮罩,不需要使用后处理步骤,并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器,同时也提高了单声道歌声分离的性能。
Nov, 2017
本研究提出了一种基于深度神经网络的歌声合成器,使用 Wasserstein-GAN 算法进行优化,通过声学建模的声码器参数,实现对歌唱声音中音高和音色的分离,采用分块方法建模输入块内的时间依赖关系,并使用重叠添加程序将连续块拼接在一起,该模型的绩效达到了与最先进技术相竞争的水平。
Mar, 2019
本文介绍了一种使用生成对抗网络(GAN)的统计参数语音合成方法,相比于传统的最小生成误差训练算法,该方法能够更自然地生成语音波形,并有效缓解了生成语音参数的平滑问题。我们还研究了不同 GAN 之间的差异,并发现最小化 Earth-Mover 距离的 Wasserstein GAN 可以最大程度地提高合成语音的质量。
Sep, 2017
该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务(包括单声道语音分离,单声道歌唱声分离和语音去噪)的联合优化。与现有模型相比,我们的方法在评估数据集中的任务中表现良好,并实现了较大的音频性能提升。
Feb, 2015