Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络
研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标,相比于其原始的音乐中唱声分离系统而言,基于少量隐藏层的结构更适合语音增强,该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号,并可以作为语音识别系统的预处理步骤。
Nov, 2018
本论文研究使用端到端模型进行音乐信号源分离,在考虑所有可用信息的基础上实现对原始音频信号(包括相位部分)的源分离。结果表明,我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep,一个基于谱图的深度学习模型。
Oct, 2018
通过三种方式解决相位估计问题,提出了基于复数建模的 Deep Complex U-Net,极坐标复数掩蔽方法和新型的 wSDR 损失函数,在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。
Mar, 2019
采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异,具有更好的信号失真比和更少的参数、更短的训练时间。
Jun, 2017
该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法,旨在进行语音去噪处理,比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。
Jun, 2017
本研究提出一种扩展的 Wave-U-Net 模型,通过可变数量源的端到端音乐源分离方法,并在瓶颈处使用仪器标签进行乘性调节,从而提高了分离结果,在此基础上实现了其他类型的调节,如音视频源分离和得分通知源分离。
Nov, 2018
该研究提出了一种名为 UnivNet 的神经声码器,利用全频带谱特征作为输入,通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题,并在大量演讲者信息数据集上取得最佳客观和主观结果。
Jun, 2021
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。
Nov, 2019